Karpathy 给的路线图从文本到 HTML 再到神经视频,其中第一步的‘让 LLM 输出 HTML’你今晚就能用上。未来交互形态的思考,值得产品经理细读。
信息的结构与呈现方式本身正成为AI智能层的关键。当前,让大语言模型以HTML格式输出,能提供比默认Markdown更丰富的视觉布局与交互性,是值得尝试的技巧。长远来看,人类虽偏好用音频输入,但视觉(图像/动画/视频)才是更理想的AI输出形式,因为大脑约三分之一皮层专司视觉处理。AI输出形态将沿“原始文本→Markdown→HTML→交互式神经视频/模拟”的路径演进,最终可能由扩散神经网络直接生成交互视频。同时,输入方式也需融合音频、文本、视频及手势等多模态交互。在人机输入输出深度融合方面,仍有巨大发展空间。
有时候,关键并不仅仅在于答案本身。
信息的组织与呈现方式,正逐渐成为智能层的一部分🧐