Karpathy认为视觉是AI输出的首选通道,预测人机交互将从纯文本、markdown向HTML演进,最终达到扩散模型生成的交互式神经视频。他建议用户尝试让LLM以HTML格式输出内容。反对观点部分同意HTML在仪表盘、对比和小交互上的优势,但质疑“视觉为首选输出”的绝对性,指出阅读文字同样是视觉处理,且文本在带宽和精确表达上可能更高效。同时,虽然神经视频在技术上可行,但作为通用I/O形态可能得不偿失,纯文本在某些场景下仍不可替代。
Karpathy 说视觉是 AI 输出的首选通道,所以未来 HTML 会取代 markdown,再往后是神经视频。
一半同意吧,HTML 在做仪表盘、做对比和一些小交互这类东西上确实是质变,markdown 给不了。
但视觉是首选输出,这个说的有点太满了。 看文字本身就是视觉处理啊,不是只有图形界面才用上眼睛。 并且带宽不等于高效,视觉皮层是宽,但读文本走的是高度优化过的符号通路,未必比解析复杂的布局慢。 一些代码、推理过程,还有需要精确表达的东西,纯文本反而最舒服。HTML 是有隐性成本的,很重也很难二次编辑。
至于终点是扩散模型直出交互视频,技术上不是科幻。 但我有点怀疑它该不该成为通用输出形态,可交互神经世界作为体验是加分,作为默认 I/O 可能丢的比换来的多。