# 视觉是否为AI首选输出？HTML与神经视频的未来之争

- 来源：凡人小北 (@frxiaobei)
- 发布时间：2026-05-12 00:48
- AIHOT 分数：54
- AIHOT 链接：https://aihot.virxact.com/items/cmp1g9g060xy1sllhydf2toao
- 原文链接：https://x.com/frxiaobei/status/2053880007613952179

## AI 摘要

Karpathy认为视觉是AI输出的首选通道，预测人机交互将从纯文本、markdown向HTML演进，最终达到扩散模型生成的交互式神经视频。他建议用户尝试让LLM以HTML格式输出内容。反对观点部分同意HTML在仪表盘、对比和小交互上的优势，但质疑“视觉为首选输出”的绝对性，指出阅读文字同样是视觉处理，且文本在带宽和精确表达上可能更高效。同时，虽然神经视频在技术上可行，但作为通用I/O形态可能得不偿失，纯文本在某些场景下仍不可替代。

## 正文

Karpathy 说视觉是 AI 输出的首选通道，所以未来 HTML 会取代 markdown，再往后是神经视频。

一半同意吧，HTML 在做仪表盘、做对比和一些小交互这类东西上确实是质变，markdown 给不了。

但视觉是首选输出，这个说的有点太满了。
看文字本身就是视觉处理啊，不是只有图形界面才用上眼睛。
并且带宽不等于高效，视觉皮层是宽，但读文本走的是高度优化过的符号通路，未必比解析复杂的布局慢。
一些代码、推理过程，还有需要精确表达的东西，纯文本反而最舒服。HTML 是有隐性成本的，很重也很难二次编辑。

至于终点是扩散模型直出交互视频，技术上不是科幻。
但我有点怀疑它该不该成为通用输出形态，可交互神经世界作为体验是加分，作为默认 I/O 可能丢的比换来的多。

### 引用推文

> Andrej Karpathy：This works really well btw, at the end of your query ask your LLM to "structure your response as HTML", then view the generated file in your browser. I've also ...
