5月12日

04:55

Lilian Weng@lilianweng

团队通过数月高强度工作，完成了12个主要版本及137页的训练运行日志。这一过程揭示，有效的人与人协作是提升人-AI协作质量的关键。受此启发，团队借鉴人类实时交谈、倾听、观察、思考与协作的并行模式，设计了一种能以此方式与人协同工作的新型AI。相关博客文章分享了该方法、早期成果及模型的实际运行演示。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

多模态推理论文/研究

04:03

🚨 AI News | TestingCatalog@testingcatalog

谷歌持续为其即将推出的Gemini Omni模型做发布准备。 > Gemini Omni模型也将通过API提供 > 该模型将被视为智能体，类似于AI Studio上的深度研究功能快了吗？👀 附：提醒一下，Nano Banana 1并未优于Imagen v4

Google 多模态模型发布

03:35

阿绎 AYi@AYi_AInotes

Karpathy提出AI交互新范式：以HTML输出提升人机沟通效率

Andrej Karpathy指出，当前AI发展的核心瓶颈并非模型能力，而是低带宽的文本交互方式。他建议在向大模型提问时要求“以HTML格式构建回答”，并在浏览器中查看结果。由于人类大脑约三分之一皮层专司视觉处理，HTML提供的丰富视觉呈现能带来远超Markdown的阅读效率与理解深度。他认为人机交互正从Markdown向HTML演进，虽然后者消耗更多token，但用少量成本换取人类时间效率是值得的交易。最终，给人消费的内容应优先采用HTML格式，而AI代理间则可用Markdown或JSON沟通。

Andrej Karpathy: This works really well btw, at the end of your query ask your LLM to "structure your response as HTML", then view the ge...

多模态大佬观点语音

00:20

Andrej Karpathy@karpathy

人机交互界面的演进：从文本到交互式神经视频

作者认为，AI的人机交互界面正从当前的Markdown默认输出向更丰富的HTML格式演进，后者能提供更好的图形、布局和交互性。长远看，由扩散神经网络直接生成的交互式神经视频或模拟将是终极输出形式，但其如何与精确的传统软件结合仍是开放问题。在输入侧，仅靠音频、文本或视频并不足够，需整合如手势指点等更自然的交互方式。总体而言，在迈向脑机接口之前，人机输入输出的融合仍有大量工作要做。现阶段的一个实用建议是尝试让大语言模型以HTML格式结构化其回复。

Thariq: http://x.com/i/article/2052796100608974848

多模态大佬观点

5月11日

23:33

🚨 AI News | TestingCatalog@testingcatalog

谷歌即将推出的Gemini Omni视频模型在视频编辑方面预计将显著进步，能够完成去除水印、替换视频中物体等复杂任务。该模型可能发布两个版本，包括一个Pro变体。引用推文展示了该模型的实际编辑效果，对比了原始视频与编辑后的视频，并证实其在去除水印方面表现优异。

Just a dragon: 🫨Google is creating a new Omni model with good video editing. Veo4? The original is on the left. Edited right. The new ...

Google 多模态模型发布视频

23:32

凡人小北@frxiaobei

Tesla FSD跳过ISP，用原始光子计数重建清晰视觉

Tesla FSD通过跳过图像信号处理器，直接处理传感器记录的原始光子计数数据，而非传统相机处理后的人眼可见RGB图像。光子计数保留了完整的光强信息，神经网络据此重建出细节清晰的场景。这使得FSD在夜间或强眩光等极端视觉条件下，能超越人眼感知，从一片白茫茫中识别出路、树、车辆等关键信息，实现更优的视觉感知能力。

Elon Musk: The human-perceived RGB is image 1 and the Tesla AI photon count reconstruction is image 2. This is why Tesla FSD can se...

图像生成多模态教程/实践

22:20

向阳乔木@vista8

MACE模型登顶Huggingface：MoE架构驱动音乐生成舞蹈视频

本周Huggingface排行榜上，MACE论文暂时位列第一。该研究采用混合专家（MoE）架构，实现了根据音乐生成舞蹈视频的任务。这一技术进展被认为将显著提升类似抖音平台上AI舞蹈视频的真实感与表现力。

Hugging Face 多模态视频论文/研究