5月8日

08:00

HuggingFace Daily Papers（社区热门论文）

为构建真正统一的文本-图像序列生成模型，研究团队提出STARFlow2。该模型基于Pretzel架构，通过残差跳跃连接垂直交织预训练视觉语言模型流与TarFlow流，两者共享因果掩码。结合深浅流设计与统一的FAE潜在空间，STARFlow2实现了缓存友好的交错生成，文本与视觉输出可直接进入KV缓存而无需重新编码。实验证明，该模型在图像生成与多模态理解任务上均表现优异，验证了自回归标准化流作为统一多模态建模基础的可行性。

arXiv 图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

InterLV-Search：交错多模态智能体搜索基准测试

现有基准测试未能充分评估视觉证据在交错搜索轨迹中的作用。为此，研究团队推出InterLV-Search基准，专门评估语言与视觉证据在搜索过程中反复交错使用的智能体能力。该基准包含2,061个示例，涵盖主动视觉证据搜寻、受控离线及开放网络交错多模态搜索三个层级，并首次引入涉及多实体比较的多模态多分支样本。实验表明，当前最先进的多模态智能体在此任务上整体准确率仍低于50%，在视觉证据定位、搜索控制和多模态证据整合方面面临显著挑战。基准数据与评估代码已开源。

智能体多模态搜索论文/研究

07:39

meng shao@shao__meng

OpenAI 发布三款实时语音新模型，推动语音交互向任务执行演进

OpenAI 在 Realtime API 中推出三款新模型，将实时语音交互升级为可执行任务的界面。核心模型 GPT-Realtime-2 具备 GPT-5 级别的推理能力，支持边听边思考、并行调用工具并完成任务，关键升级包括前置语、128K上下文窗口和可控推理强度。搭配的 GPT-Realtime-Translate 支持70多种语言实时互译，GPT-Realtime-Whisper 提供低延迟流式转录。这些模型共同支持语音驱动行动、系统主动播报和跨语言对话三种应用范式，旨在构建下一代语音协作智能体。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

智能体 OpenAI 多模态推理

07:35

Orange AI@oran_ge

跳出系统：更广阔的视角带来解决方案

本文通过多个案例阐述跳出原有系统或思维框架的重要性。从Claude转向GPT和Codex获得更好体验，用Gemini解决多模态难题，到重新思考买房目的而非细节，均显示换用更广视角能轻松化解原有困局。产品领域，Agent可能简化复杂SaaS；追觅割草机通过“做加法”定价成功。团队管理应聚焦成功本质，企业AI转型需审视未来存在性。引用《无穷的开始》和GEB指出，好的解释需更广理论覆盖原问题，系统自指导致不完备性，必须跳出才能突破。最终，视野开阔后，解决方案自然显现。

智能体 Anthropic OpenAI 多模态

07:21

Berryxia.AI@berryxia

SuperSplat将3D高斯泼溅变为大众创作平台

SuperSplat项目将3D Gaussian Splatting技术转化为大众可用的创作与分发平台。其核心功能是允许创作者一键开启文件下载，观众可直接获取Gaussian splat文件。平台支持附加多种CC 4.0许可证并自动生成署名，个人页面可集成社交链接，成为3D作品集。下载的文件能直接导入PlayCanvas引擎快速创建交互体验。该项目免费开源，旨在降低技术门槛，推动3DGS从实验室走向普通创作者的实际应用。

产品更新多模态开源/仓库

07:16

IT之家（RSS）

精选70

苹果首款 AI 可穿戴设备：内置摄像头的 AirPods 已进入 DVT 阶段，预计最快 9 月搭载新 Siri 亮相

据报道，苹果内置摄像头的AirPods已进入设计验证测试（DVT）阶段，最快有望于今年9月作为其首款AI可穿戴设备发布。该产品左右耳机配备低分辨率摄像头，用于捕捉环境视觉信息，以支持升级版Siri实现视觉问答等功能。其整体外观类似AirPods Pro 3，但耳机柄因容纳摄像头而加长。产品原计划2026年发布，因Siri升级延迟而推迟，此次升级得益于与谷歌Gemini的技术合作。苹果还在探索其导航提醒等用途，并为缓解隐私担忧内置了数据上传指示灯。

Google 多模态端侧行业动态

推荐理由：苹果把摄像头塞进 AirPods 做 Siri 的眼睛，这比智能眼镜更务实，但隐私指示灯能有多显眼是个疑问，做 AI 硬件的该看看苹果怎么绕开 Meta 的坑。

03:31

Chubby♨️@kimmonismus

苹果计划2026年推出带摄像头的AI AirPods，开启AI硬件新篇章

据彭博社报道，苹果计划于2026年推出第三代AirPods，这将是其首款AI可穿戴设备。新款AirPods的每个耳塞均内置摄像头，作为Siri的“眼睛”捕捉低分辨率视觉信息，以实现视觉问答、情境感知提醒和地标导航等免提AI功能。产品设计类似AirPods Pro 3，带有隐私提示LED灯，但不支持手势控制。该产品已开发四年，目前处于后期测试阶段，硬件已基本定型，但最终发布取决于AI体验能否达到苹果标准。其发布将与基于Gemini重构的Siri及iOS 27的新视觉AI模式同步，是苹果包括智能眼镜、相机吊坠在内的更广泛AI硬件布局的一部分。

Mark Gurman: NEW: Apple's AirPods with cameras reach an advanced testing stage where the design and features have been nearly finaliz...

多模态端侧行业动态

02:30

Apple Machine Learning Research（RSS）

精选69

用于学习语义丰富视觉表征的文本条件JEPA

研究人员提出文本条件联合嵌入预测架构（TC-JEPA），通过引入图像描述文本作为条件信息来降低掩码特征预测中的视觉不确定性。该方法采用细粒度文本调节器，对输入文本标记计算稀疏交叉注意力，从而调制预测的图像补丁特征。与基于掩码特征预测的I-JEPA相比，TC-JEPA能够学习到语义更丰富的视觉表征，解决了原有方法因视觉不确定性导致的语义学习不足问题。

多模态数据/训练论文/研究

推荐理由：Apple 这篇 TC-JEPA 把文本融入自监督视觉预训练，用稀疏交叉注意力减少预测不确定性，对多模态表征学习是个不错的思路补充，做视觉模型的值得一看。

02:05

OpenRouter@OpenRouter

精选68

Gemini 3.1 Flash Lite 来自 @GoogleDeepMind，现已在 OpenRouter 正式发布。多模态（文本/图像/视频/音频/PDF → 文本），100万上下文，可选的思考层级，输入每百万次$0.25，输出每百万次$1.50。还可配合我们新的 service_tier 参数使用，以权衡成本与延迟！

Google 产品更新多模态

推荐理由：OpenRouter 把 Gemini 3.1 Flash Lite 的多模态 1M 上下文压到 $0.25/M token，这个定价让 Flash 系列不再是试验品，轻量级应用可以认真考虑它了。

02:01

Chubby♨️@kimmonismus

OpenAI近日发布了三款新的实时语音模型：GPT-Realtime-2具备近似GPT-5的推理能力，允许语音助手在对话中实时思考；GPT-Realtime-Translate支持超过70种语言的实时翻译；GPT-Realtime-Whisper则能实现流式语音转文本。与此同时，OpenAI官方通过引用推文暗示，用户期待已久的ChatGPT语音功能更新正在积极准备中，即将正式推出。这预示着ChatGPT很可能在近期迎来全新的高级语音模式，进一步提升其交互体验与应用能力。

OpenAI: We know you're eager for voice updates in ChatGPT. Stay tuned, we're cooking.

OpenAI 多模态模型发布语音

01:38

Ethan Mollick@emollick

OpenAI for Excel相当实用（Claude for Excel也是），令人惊讶的是，与Claude不同，目前没有OpenAI for PowerPoint，尤其因为这是OpenAI的一大优势所在：Imagegen-2可以直接生成非常优质的幻灯片/图像，而Claude没有图像制作功能。

图像生成多模态大佬观点

01:18

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选86

通过 API 中的新模型推进语音智能

OpenAI API 推出了新的实时语音模型，能够进行推理、翻译和语音转录。这些模型显著提升了语音交互的自然度与智能水平，支持实时处理与多语言转换。新功能旨在为开发者提供更强大的工具，以构建更流畅、更智能的语音应用体验。

OpenAI 多模态模型发布语音

推荐理由：语音模型不再只是‘听写’，开始能推理和翻译了，OpenAI这次API更新的几个新模型把语音智能推向更实用的阶段，做语音产品的值得赶紧试试。

00:42

Z.ai@Zai_org

精选73

GLM-5V-Turbo 技术报告：迈向原生多模态智能体基础模型本报告总结了GLM-5V-Turbo在模型设计、多模态训练、强化学习、工具链扩展以及与智能体框架集成等方面的主要改进。这些进展使其在多模态编码、视觉工具使用和基于框架的智能体任务中表现出色。 http://arxiv.org/abs/2604.26752

智能体多模态论文/研究

推荐理由：智谱把多模态、RL和Agent工具链捆成一体，这篇报告对做多模态Agent的人有直接参考价值，不只刷榜还有工程细节。

00:41

Suno@suno

NBC News刚刚重点报道了使用Suno的短信转歌曲病毒式趋势！ https://www.nbcnews.com/now/video/people-are-turning-text-message-threads-into-fun-songs-using-ai-in-a-new-trend-on-social-media-262862405776

多模态现象/趋势

00:36

Microsoft Research@MSFTResearch

Tyger将最耗时的MRI处理工作转移到云端，帮助研究人员将原始信号转化为可读图像--这意味着几小时而非数天或数周即可获得结果。https://msft.it/6010vMCSa

Microsoft 产品更新多模态部署/工程

5月7日

23:04

AK@_akhaliq

Stream-R1 面向流式视频生成的可靠性-困惑度感知奖励蒸馏论文： https://huggingface.co/papers/2605.03849

Hugging Face 多模态视频论文/研究

23:04

AK@_akhaliq

PhysForge 生成物理基础的3D资产用于交互式虚拟世界论文：https://huggingface.co/papers/2605.05163

具身智能多模态论文/研究

20:34

Rohan Paul@rohanpaul_ai

由@video_rebirth新推出的BACH 1.0解决了AI视频模型中最棘手的难题之一：在不同角度和镜头切换中保持同一角色面部的一致性。不仅是单个优质特写镜头。它实现了同一身份的真实多镜头一致性，而这正是多数图像转视频模型仍会失效的环节。 BACH擅长表现角色的面部情绪。整体而言，其输出极具电影感且达到制作水准。目前在Artificial Anlysis全球榜单中位列第六。 🧵 1.

多模态模型发布