Karpathy认为视觉是AI输出的首选通道,预测人机交互将从纯文本、markdown向HTML演进,最终达到扩散模型生成的交互式神经视频。他建议用户尝试让LLM以HTML格式输出内容。反对观点部分同意HTML在仪表盘、对比和小交互上的优势,但质疑“视觉为首选输出”的绝对性,指出阅读文字同样是视觉处理,且文本在带宽和精确表达上可能更高效。同时,虽然神经视频在技术上可行,但作为通用I/O形态可能得不偿失,纯文本在某些场景下仍不可替代。
This works really well btw, at the end of your query ask your LLM to "structure your response as HTML", then view the ge...