多模态最新动态与精选 · AI HOT

Topic · 主题全部主题 →

多模态

文本之外的能力：视觉理解、图文混合、音视频输入输出的模型与产品进展。

2,251条收录

275条精选

● 持续更新

近期焦点近 14 天 · 按多源报道热度

7月3日

01:08

Apple Machine Learning Research（RSS）

精选62

RL微调VLM的鲁棒性与思维链一致性研究

强化学习（RL）微调被扩展至视觉语言模型（VLM）。研究发现，简单的文本扰动——误导性标题或错误思维链（CoT）——会显著降低模型鲁棒性和置信度，且开源模型衰退更明显。闭源模型呈现类似失败模式，但鲁棒性和推理一致性更强。进一步分析揭示准确性与忠实性的权衡：微调提升基准准确率，但同时侵蚀CoT的可靠性及对上下文变化的鲁棒性；对抗性增强可改善鲁棒性，却无法阻止忠实性漂移。引入忠实性感知奖励能恢复答案与推理的对齐，但与增强结合时训练易崩溃到捷径策略。这些发现强调需联合关注正确性、鲁棒性与视觉推理的忠实性。

多模态推理论文/研究

推荐理由：RL微调让VLM基准分变好看，却可能让它的推理链变得靠不住，这个反直觉的诊断对正在用RL打磨多模态模型的团队是个警醒。

7月1日

00:08

Google DeepMind：Blog（RSS）

精选70

Google DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni Flash

Google DeepMind 推出 Nano Banana 2 Lite（gemini-3.1-flash-lite-image），为 Nano Banana 系列速度最快、成本最低的图像模型，文本到图像输出仅需 4 秒，每 1K 分辨率图像成本 $0.034，已上线 Google AI Studio、Gemini API 及消费者产品（AI Mode in Search、Gemini app 等）。同时推出 Gemini Omni Flash（gemini-omni-flash-preview），支持高画质视频生成与对话式编辑，视频输出定价 $0.10/秒，面向开发者开放 API。

Google 图像生成多模态模型发布

关联讨论 3 条

推荐理由：Nano Banana 2 Lite 把图像生成拉到 4 秒延迟和 0.034 美元单价，很适合高频草稿流，Omni Flash 首次对开发者开放视频生成和对话编辑，两个模型串起来的快速迭代工作流是这次最实用的更新。

6月29日

20:27

AI at Meta@AIatMeta

精选79

Meta发布Brain2Qwerty v2：非侵入式实时句子解码

Meta公布Brain2Qwerty v2，这是非侵入式脑电信号解码研究的最新里程碑。基于当天发表在《Nature》的v1，v2是性能最高的端到端管道，能从原始脑信号实时解码句子。其从字符级性能提升至解码单词和语义，提高整体沟通准确性。该研究有望帮助数百万因脑损伤或疾病无法沟通的人群。

多模态论文/研究

关联讨论 3 条

推荐理由：Meta把非侵入脑解码从字符级推到语义级，Nature论文背书，我认真觉得这比任何benchmark刷分都有意义，给失语人群的希望比聊天机器人更值得关注。

6月28日

01:22

Berryxia.AI@berryxia

精选76

苹果Vision负责人跳槽OpenAI，触控OLED MacBook用M5芯片

2026年6月26日，Mark Gurman称苹果Vision产品组副总裁Paul Meade下周离职加入OpenAI硬件部门。他负责Vision Pro、无屏幕AI智能眼镜及AR眼镜研发。苹果计划首款触控OLED MacBook使用M5 Pro/Max芯片，2026年底到2027年初发布；M7 Pro/Max版本2027年底跟进。苹果此前因涨价市值蒸发2300多亿美元。核心高管流失至OpenAI凸显AI硬件竞争加速。

OpenAI 多模态行业动态

推荐理由：Paul Meade 从苹果 Vision Pro 跳槽 OpenAI，不是普通人事变动，而是 AI 硬件竞赛正式开打的信号，做硬件的可以开始紧张了。

6月27日

21:24

Runway@runwayml

精选66

广告本地化现在可通过 Runway API 以 Recipe 形式使用。现在您可以通过单次 API 调用翻译静态广告和图形资产。

Runway: New in Runway, you can now localize ads. One image in, any language out. Input a single ad and get a version for every m...

产品更新多模态

推荐理由：Runway 把广告本地化做成了一键 API，对出海团队是实打实的效率提升，但放在整个 AI 行业里这只是个功能补齐。

6月25日

01:07

Google DeepMind：Blog（RSS）

精选70

Gemini 3.5 Flash 引入 computer use 功能

Google DeepMind 宣布，computer use 现作为内置工具集成于 Gemini 3.5 Flash，开发者可构建跨浏览器、移动端和桌面的智能体，实现视觉感知、推理与操作。此前该功能仅以独立模型形式存在于 Gemini 2.5。3.5 Flash 已支持函数调用及 Search、Maps 等内置工具，新增的 computer use 可提升持续软件测试和跨专业应用知识工作等长周期企业自动化任务的性能。安全方面采用针对性对抗训练，并可选配两项企业防护系统：要求用户确认敏感操作，以及在检测到间接 prompt 注入时自动停止任务。可通过 Gemini API 和 Gemini Enterprise Agent Platform 使用。

智能体 DeepMind Google 产品更新

关联讨论 2 条

推荐理由：把 computer use 能力塞进轻量级的 Flash 模型，意味着在浏览器里跑视觉 agent 的成本会大幅降低，做企业自动化的团队可以立即试起来，安全措施也给了落地信心。

6月24日

19:31

OpenRouter：Announcements（RSS）

精选73

OpenRouter推出统一图像API

OpenRouter推出统一图像API，整合Google、OpenAI、Black Forest Labs、Recraft、ByteDance、Sourceful、Microsoft、xAI等30+模型。新API提供标准化请求格式，通过/api/v1/images/models端点返回每个模型的分辨率、宽高比、输出数量、输入参考图数量、种子等能力描述；通过/api/v1/images/models/{id}/endpoints端点获取具体服务商的定价与参数支持（如Seedream 4.5每张$0.04、FLUX.2 Pro每百万像素$0.03、GPT-5.4 Image 2按token计费）。OpenAI的GPT 5系列图像模型支持SSE流式预览，启用"stream": true即可边生成边返回预览。新图像模型将仅添加至专用API，建议现有用户切换。

智能体产品更新图像生成多模态

关联讨论 1 条

推荐理由：OpenRouter 把 30+ 图像模型收进一个 API，参数自动发现和流式预览让频繁切换模型的开发者省去不少适配麻烦，尤其对 Agent 工作流很友好。

15:10

OpenBMB@OpenBMB

精选65

🥳感谢分享，@MLBoy_DaisukeMajima 🚀 MiniCPM-V 4.6 在设备上以这样的速度运行，实在令人印象深刻--尤其是在 Apple Core AI 上以不到 2B 参数跑出。干得漂亮，推动高效多模态 AI 向前发展。🫡

MLBoy_DaisukeMajima: 📸 MiniCPM-V 4.6 - one of the strongest vision models under 2B params - now runs at ~51 tok/s on iPhone 17 Pro via Apple...

多模态开源/仓库端侧

推荐理由：社区把 MiniCPM-V 4.6 搬上 iPhone 17 Pro，跑出 51 tok/s，还给了代码和模型，做端侧多模态的可以直接跑起来了。

12:42

IT之家（RSS）

精选74

OpenAI ChatGPT 语音最大规模升级：双向AI语音模型 Bidi 1 已上线测试

6月23日，部分用户反馈 ChatGPT 网页版和 App 版上线了双向 AI 语音模型 Bidi 1，位于设置模型选择器中，与标准语音和高级语音并列。该模型支持边说话边监听，用户可在对话中途打断并发出新指令，例如要求从1数到10时中途喊停倒数，模型会立即切换执行。OpenAI 尚未官宣，预计本周启动更大范围测试。

OpenAI 多模态模型发布语音

推荐理由：Bidi 1 让 ChatGPT 语音从回合制变成双向并行，打断后能立即响应，这是语音交互真正的升维，普通人很快就能感受到对话自然感的质变。

09:10

公众号：豆包（字节）

精选77

今天，豆包正式推出专业版

豆包专业版基于豆包2.1系列大模型上线，面向复杂办公与生产力场景。办公任务模式接入可执行Agent任务的豆包2.1模型，支持操作本地电脑、浏览器、调用Skills技能、定时任务，内置Office办公套件，并可生成带后端数据库的在线应用。免费用户可体验豆包2.1 Turbo版办公任务模式，专业版接入豆包2.1 Pro模型。定价：标准套餐68元/月（连续包月），加强套餐200元/月，高级套餐500元/月。大学生认证后标准套餐38元/月，持续6个月。

智能体产品更新多模态

推荐理由：豆包专业版不是简单的会员升级，而是把Agent能力装进办公场景，操作本地电脑、生成应用这些功能，让AI从对话工具变成了真正的生产力帮手。

6月23日

22:24

Mistral AI：News（网页）

精选68

Mistral OCR 4

Mistral AI 发布 OCR 4，新增边界框、块分类（标题、表格、方程式、签名等）及逐页逐词置信度分数。支持 170 种语言、10 个语系，可单容器全自托管部署。在 OlmOCRBench 上得分 85.20，独立标注者偏好率平均 72%。定价每 1000 页 $4，Batch API 享 50% 折扣。可通过 API 或 Mistral Studio 的 Document AI 调用。

多模态搜索模型发布

关联讨论 2 条

推荐理由：Mistral OCR 4 把 bounding box 和置信度输出做进了产品，自托管部署和多语言能力很务实，做文档 RAG 和智能体的团队可以认真看看。

21:56

Hacker News 热门（buzzing.cc 中文翻译）

精选70

无限制OCR：单次长时域解析

Unlimited OCR 是一个托管在 GitHub 的项目，实现单次长时域解析（One-Shot Long-Horizon Parsing），旨在一次性处理长时间跨度的 OCR 任务。

多模态开源/仓库

关联讨论 1 条

推荐理由：百度把能处理超长文档的 OCR 系统开源了，宣称一次推理搞定整份文件，做发票、合同、档案数字化的可以马上跑起来试试。

14:10

公众号：京东JoyAI

精选73

京东全栈开源JoyAI-VL-Interaction，从"一问一答"走向"边看边说"

京东近日开源全球首个全栈交互模型JoyAI-VL-Interaction，获vLLM-Omni原生支持。该模型能持续观察视频流、主动判断关键事件并实时响应，支持将复杂任务委托后台Agent处理。在58个真人盲评中，对比豆包视频通话助手胜率77.6%，对比Gemini视频通话助手胜率87.9%，监控预警场景达100%胜率。开源内容包括模型权重、交互数据集、训练方案及完整可部署系统，支持摄像头、直播流等视频输入及语音交互、长期记忆、vLLM部署，适用于安防监控、老人看护、直播讲解等实时场景。

多模态开源生态模型发布部署/工程

关联讨论 2 条

推荐理由：京东这个实时交互模型不是又一个刷榜模型，它把「什么时候该说话」变成了模型自己的判断。全栈开源且对比豆包、Gemini 胜率惊人，做安防、看护、直播的开发者可以直接试了。

13:50

公众号：火山引擎

精选71

豆包音频生成模型1.0发布，重新定义AI音频创作

火山引擎正式发布豆包音频生成模型1.0（Doubao-Seed-Audio 1.0），支持文本与音频参考生成，端到端输出目标音频。单条Prompt可编排多角色对白、情绪语气、背景音乐及环境氛围，长时生成中保持多角色音色一致性，无需后期多轨混音。模型支持0样本多模态输入，无需额外训练即可生成；实现音色与风格解耦控制及“一声多角”能力。一次支持2分钟音频创作，多次延长保持音色统一。已开启火山方舟API邀测，个人用户享30分钟创作额度，即将上线剪映、即梦、番茄等产品。

多模态模型发布语音

推荐理由：豆包音频生成模型把多角色配音、音效、配乐压缩进一条 Prompt，长时一致性解决了一直以来‘串戏’的痛点，音频创作者的生产流程可能会被改写。

12:39

字节 Seed：Research Feed（网页内嵌数据）

精选64

Seed2.1 正式发布，深入 AI 生产力

字节Seed发布Seed2.1系列，面向真实生产力场景的智能体，强化通用Agent能力、代码工程交付与多模态理解。Seed2.1 Pro在GDPval基准获最高分，Agents' Last Exam位列参评模型第一梯队；MobileWorld手机GUI任务最高分，CreativeWork多环境任务表现突出。多模态在CharXiv-RQ等多项基准取得SOTA。代码能力上，Seed2.1 Pro在NL2Repo-Bench表现良好，开发者评测相比Claude Opus 4.6获59.1%胜率。模型已在豆包、TRAE上线，API通过火山方舟提供。

智能体多模态模型发布编码

关联讨论 4 条

推荐理由：字节 Seed2.1 这次更新把 Agent 和代码交付稳定性提到新高度，官方测评在多个硬核基准上不输 Claude Opus。虽然技术细节少，但豆包和 TRAE 直接可用，做 Agent 和开发的值得上手试试。

6月22日

22:11

Hugging Face：Blog（RSS）

精选69

PP-OCRv6 on Hugging Face：50 语言 OCR，参数规模 1.5M 至 34.5M

PP-OCRv6 是 PaddleOCR 最新一代通用 OCR 模型族，提供 tiny（1.5M）、small（7.7M）和 medium（34.5M）三级。medium 和 small 支持 50 种语言（简体/繁体中文、英文、日文及 46 种拉丁语系）。在官方多场景基准上，medium 检测 Hmean 86.2%，识别准确率 83.2%，较 PP-OCRv5_server 分别提升 +4.6 和 +5.1 个百分点。模型采用 PPLCNetV4 统一骨干、RepLKFPN 检测模块和 EncoderWithLightSVTR 识别模块，可通过 PaddleOCR、Transformers、ONNX Runtime 等后端灵活部署。

Hugging Face 多模态模型发布部署/工程

推荐理由：OCR模型并没有因为VLM的兴起而消失，PP-OCRv6用1.5M到34.5M参数覆盖50种语言，对需要轻量、准确OCR的产品来说，这是一个务实的选择。

6月18日

21:21

The Decoder：AI News（RSS）

精选72

Adobe 为 Photoshop、Premiere 等多款 Creative Cloud 应用加入 AI 智能体

Adobe 将其“创意智能体”扩展至 Photoshop、Premiere 等应用，以公开测试形式提供 AI Assistant。该智能体可自动完成多步骤常规任务，如 Premiere 分拣素材和粗剪、Photoshop 换背景、Illustrator 批量生成文件、InDesign 更新版式等。Firefly 新增面向个人创作者的品牌套件、产品图转短视频及 Quick Cut 自动剪辑功能。Adobe 工具已集成至 ChatGPT、Claude 及 Microsoft 365 Copilot，Google Gemini 和 Slack 集成即将推出。

智能体产品更新多模态

推荐理由：Adobe把AI助手直接塞进了Photoshop、Premiere这些上亿人用的创作工具，干的虽然是粗剪、排版一类的苦力活，但却是AI从生成器转向流程助手的关键一步，值得所有创意工作者上手试试。

17:14

IT之家（RSS）

精选82

八部门：用好个人消费贷款财政贴息政策，支持消费者购买 AI 相关产品

商务部等八部门6月18日发布关于加快“人工智能+消费”发展的实施意见。其中提到加大财政资金支持，落实数码和智能产品购新政策，鼓励地方在消费品以旧换新框架内自主制定补贴，重点支持新一代智能终端消费。增加AI手机、智能电脑、智能电视、智能家居、AI眼镜、智能网联汽车、人形机器人等产品供给，培育智能穿戴消费市场。同时加快AI在居家服务、养老服务、文化旅游、住宿餐饮、教育教学等领域的应用，建设AI商品首发平台，举办“人工智能进万家”活动。

具身智能多模态政策/监管

推荐理由：八部门联合推AI消费补贴，从手机、机器人到养老教育全覆盖，这是国家层面推动AI产品普及的强烈信号，终端厂商和消费者都将迎来实质利好。

16:14

IT之家（RSS）

精选72

DeepSeek 识图模式正式上线 App 和网页端

DeepSeek 识图模式于6月18日在网页和 App 端正式上线，与快速模式、专家模式并列。开启后用户可直接上传图片让 DeepSeek 识别图像，能力超越简单文字提取。目前 App 端仍显示“图片理解功能内测中”，网页端无此提示。该模式背后的多模态模型技术细节于今年4月公开，核心框架为“Thinking with Visual Primitives（以视觉原语思考）”。

DeepSeek 产品更新多模态

推荐理由：DeepSeek的识图模式终于从内测进了正式版，虽然是补课而非破圈，但对中文用户来说，让AI直接看图比打字描述常用太多，日常工作和内容处理都更顺手了。

6月17日

23:43

Hugging Face：Blog（RSS）

精选69

MolmoMotion：语言引导的3D运动预测模型

MolmoMotion基于Molmo 2骨干网络，输入视频帧、物体上的3D点标记及文字动作指令（如“移动并旋转桌上放水果的木碗”），预测未来数秒内这些点的3D轨迹。提供两个变体：自回归的MolmoMotion-AR逐步预测坐标，流匹配的MolmoMotion-FM通过连续空间变换处理多可能性运动。同时发布MolmoMotion-1M数据集（含116万视频的3D点轨迹及动作描述）和PointMotionBench基准测试（2700个人工验证视频片段）。模型权重、数据集和基准测试均已开源。

Hugging Face 具身智能多模态模型发布

推荐理由：MolmoMotion把3D运动预测从模板化推到任意物体，百万级数据集和基准让研究门槛大降，做机器人和视频生成的值得认真看，但目前仍是研究阶段，离落地还有距离。

21:07

IT之家（RSS）

精选74

阿里云发布HappyOyster 1.0：一句话生成可实时交互的数字世界

6月17日，阿里云发布开放式世界模型HappyOyster 1.0（快乐生蚝）。该产品基于原生多模态架构，支持多模态输入与音视频联合生成，可在生成过程中持续接收用户指令并实时响应画面。它深度学习物理世界状态转移规律，保持人物和环境长程一致性。官网开放“实时导演”与“世界探索”两种玩法：前者可随时叫停改写故事、与虚拟男友实时互动等；后者支持自由漫游、滑板冲刺、翼装滑翔、骑马奔驰、攻击打怪等交互。该产品已于今年4月16日开放内测，即日起至7月17日官网不定期掉落体验积分。

产品更新多模态视频

推荐理由：阿里把世界模型做成了可玩的交互产品，一句话生成能探索能互动的数字世界，实时导演模式直接替代了一部分短剧和互动内容创作，虽然还像噱头但至少是能玩的尝试。

11:56

Hacker News 热门（buzzing.cc 中文翻译）

精选76

Wolfram 语言和 Mathematica 15 版发布：内置 AI 助手、符号音乐等新功能

在 Mathematica 诞生近 38 年后，Wolfram 语言与 Mathematica 发布 Version 15。每个笔记本内置 AI 助手，支持从 AI 环境中直接调用 Wolfram 技术。新增符号音乐系统、大规模时间序列与事件序列处理、分类数据计算、模型拟合超函数 ModelFit。笔记本支持千兆字节级大小与实时查找，首次引入侧边栏、视觉主题及弃用功能样式。强化了表格连接、多点可视化、图形刻度绘制与轨道运行计算等功能。DSolve 拐角处获得 AI 方法辅助，支持偏微分方程曲线坐标求解。扩充了矩阵分解、多元 zeta 函数与调和数、流线型部分分式分解。强化了 WebSocket 实时连接、Python 交互改进，支持 CUDA 内核作为外部函数，Wolfram Compute Services 新增 GPU 支持。

产品更新多模态数据/训练

推荐理由：Wolfram Language 15 把 AI 助手直接内嵌进笔记本，加上符号音乐和 ModelFit 超级函数，对用代码思考的人来说，这是今年最扎实的版本升级。

08:27

宝玉@dotey

精选75

baoyu-design 本地动画视频导出功能更新

baoyu-design（本地运行 Claude Design 的 Skill）新增动画视频导出功能。其声明式动画引擎基于 f(t) 设计：任意时间点 t 可绝对确定画面状态。导出采用无头 Chromium 逐帧截图 + ffmpeg 编码，每帧等待两帧 requestAnimationFrame 确保渲染完成。截图以 2 倍 DPR（3840×2160）再缩回 1080p，保证细节清晰。95 秒 30fps 动画需 2850 次截图循环，帧帧精确。项目已开源（MIT），获 1.2K star。此前 baoyu-design 已支持 PPT 本地生成和导出可编辑 PPTX。

宝玉: baoyu-design skill(让你本地运行 Claude Design 的 Skill)更新,本地生成 PPT 的效果,可以借助 Cursor、Codex 内置的浏览器预览 PPT,也可以直接用它们的标记工具修改 PPT 细节。按 ...

GitHub 多模态开源/仓库视频

推荐理由：宝玉把 Claude Design 动画导出能力做成了本地 skill，原理讲得很透，声明式引擎加 f(t) 直接抽帧的思路让开发者能零成本复现，想要高质量 AI 动画输出的创作者可以立即用起来。

6月16日

12:39

Qwen：Blog Retrieval（API）

精选72

Qwen-RobotWorld：具身智能体的无界世界

Qwen-RobotWorld以语言为统一动作接口，采用双流Multimodal Diffusion Transformer（MMDiT）架构，将Qwen2.5-VL作为动作编码器。在4个基准测试中取得顶尖成绩，统一20余种机器人形态，基于860万跨场景训练对和1300多项操作技能。语言接口标准化500多种动作类别，支持操作、自动驾驶、室内导航的联合训练。还支持Scene2Robot人类到机器人转移及2–4路多视角几何一致视频生成。

具身智能多模态模型发布

关联讨论 5 条

推荐理由：具身智能的世界模型长期受限于单一形态，Qwen-RobotWorld用语言统一动作接口，把操作、驾驶、导航合训，多视角几何一致性和人类演示迁移是过去一年最扎实的落地信号，做机器人的别错过。

6月13日

17:54

公众号：通义实验室（千问）

精选79

MNN 适配 SME2 使 Qwen3-VL-4B 在端侧实时推理

MNN 推理引擎深度适配 Arm SME2 指令集，使 Qwen3-VL-4B-Instruct 在支持 SME2 的 vivo X300 上实现实时多模态推理。Prefill 阶段性能提升 81%，Decode 阶段提升 13%。MNN 采用编译时内建 + 运行时自动检测设计，默认开启 SME2 加速。该模型为 4B 参数视觉语言模型，支持图文理解和对话，通过 MNN 官方已转换量化的模型可直接下载部署，开发者可通过编译开关一键开启硬件加速。

多模态教程/实践端侧

推荐理由：这是一份硬核的端侧部署指南，实测数据让 Qwen3-VL 在 SME2 手机上 Prefill 提速超过 80%，做移动端 AI 的团队可以直接抄作业。

13:17

蚂蚁 inclusionAI：HuggingFace 新模型

精选62

inclusionAI 发布 VISTA-4B GUI 定位视觉语言模型

VISTA-4B 是基于 Qwen3.5-4B 骨干的 GUI 定位模型，输入截图与自然语言指令，输出归一化 0-1000 坐标。训练采用视图一致 GRPO 和自验证交叉视图锚定。在 GUI 定位基准上，SSPro 得分 64.2（相比 GRPO-4B 提升 2.0），SSV2 得分 93.8（下降 0.4），OSWorld-G 得分 61.2（提升 1.3），OSWorld-G-R 得分 69.7（提升 0.5）。模型已开源在 HuggingFace，推荐使用提示词并返回 [x,y] 格式坐标。

智能体 Hugging Face 多模态模型发布

关联讨论 1 条

推荐理由：蚂蚁 inclusionAI 开源了一款 GUI 定位模型，基于 Qwen3.5 微调，在接地基准上小幅提升，关键是提供了自验证训练方法，做桌面自动化的可以直接下载用。

6月12日

17:00

HuggingFace Daily Papers（社区热门论文）

精选73

HYDRA-X：原生统一多模态模型与整体视觉分词器

HYDRA-X 是首个在单个 Vision Transformer (ViT) 中统一图像与视频 tokenization 的统一多模态模型。通过帧级因果时间注意力实现视觉重建，并采用层级时间压缩替代单步压缩。轻量级解压器在联合图像-视频教师监督下上采样时间压缩特征。编辑管线中，源-目标交互在分词器内部潜在层面而非 LLM 语义层面进行，提升编辑一致性与收敛速度。7B 密集模型在图像与视频理解及生成任务上表现强劲。

arXiv 多模态视频论文/研究

推荐理由：HYDRA-X 第一次把图像和视频标记塞进同一个 ViT，光看设计了帧级时序注意力和分层压缩这两个小 tricks 就值回票价，做多模态模型的该读读。

10:34

IT之家（RSS）

精选75

苹果 iOS 27 健康 App 大改：卡片布局、营养识别、围绝经期追踪

苹果在 iOS 27 中优化健康 App，将列表改为卡片布局并增加导航栏。新增视觉智能营养识别，用户通过相机 Siri 模式拍摄食物可获取加工程度、蛋白质、含糖量等信息及营养价值评级，不提供精确卡路里，需 iPhone 15 Pro 及以上。经期追踪扩展支持围绝经期，可分析长期周期异常模式并推送提醒与指导。Fitness+ 新增围绝经期和绝经期课程。数据同步速度提升，GymKit 扩展至 iPhone，无需 Apple Watch 即可与健身设备配对同步数据。

产品更新多模态端侧

推荐理由：视觉智能营养识别不能给精确卡路里，但那个“深度加工食品”提醒对普通人很实用，健康App这次更新算得上近年最有用了。

6月11日

00:00

Suno：Blog（网页）

精选68

Suno 重构音轨分离功能，推出三种拆分方式

Suno 对音轨分离功能进行重构，推出三种拆分方式：Auto Split 将歌曲自动拆分为最多 12 个音轨（鼓、贝斯、吉他等）；Split from Mix 可隔离或移除特定乐器/人声并生成伴奏轨道；Advanced Split（仅 Premier 订阅）支持从近 100 种乐器中精确提取目标音轨。与常规切割算法不同，Suno 使用最新模型从零重新生成每个音轨，而非从混音中切割，以消除串音和音质损失。该功能适用于 Pro 和 Premier 订阅用户，可用于 Suno 创作或上传的音乐。

产品更新多模态

推荐理由：Suno 重写了 stem separation，不再是旧路子切音频，而是用模型重新生成干净的干声，鼓点有劲、人声没杂音，还能拆上百种乐器，做混音的人可以试试。

6月10日

16:56

HuggingFace Daily Papers（社区热门论文）

精选70

快手开源 Kwai Keye-VL-2.0-30B-A3B：面向长视频理解与智能体智能的 MoE 多模态模型

快手开源 Kwai Keye-VL-2.0-30B-A3B，一个 MoE 多模态基础模型，激活仅 3B 参数，专为长视频理解和智能体智能设计。模型首次将 DeepSeek Sparse Attention (DSA) 适配到 GQA 多模态架构，实现无损 256K 上下文处理，并通过可扩展视频 I/O、异构 ViT-LM 并行及自定义 DSA 内核优化吞吐与计算开销。引入跨模态多教师在策略蒸馏（MOPD）结合 Context-RL 和 Video-RL，缓解多任务对齐中的灾难性遗忘，原生支持代码、工具、搜索场景下的多智能体协作与多模态自纠正。在 TimeLens、Video-MME-v2、LongVideoBench 等多个基准上达到同类规模 SOTA，模型权重已开源。

智能体多模态视频论文/研究

推荐理由：Keye-VL-2.0 把长视频理解推到 256K 上下文，还用了 DeepSeek 的稀疏注意力，这是目前我能找到的对长短视频最兼顾的多模态模型，做视频 agent 的该看看。

01:30

OpenAI Developers@OpenAIDevs

精选76

你的应用现在可以搜索网页上的图片。 Responses API 中的网页搜索现在除了文本结果外，还支持图片结果，因此你可以构建能展示商品、地点、视觉参考和来源链接以激发灵感的应用。

OpenAI 产品更新多模态搜索

推荐理由：OpenAI 搜索 API 终于支持图像结果了，以前只能返回文字，现在能直接拿商品图、地点图、视觉参考，做电商和旅行应用的开发者可以立刻集成，这个补丁等了太久。

01:08

Fei-Fei Li@drfeifei

精选78

创意和想象力无与伦比！非常感谢@theworldlabs能与@withloreco的优秀人才合作，将他们不可思议的想法转化为用户可以享受的互动体验！🤩

World Labs: We turned dreams into worlds. Then filled them with history's greatest minds. Not a video. A world, running directly in ...

产品更新图像生成多模态

推荐理由：World Labs把生成式空间智能做成了可走进的浏览器世界，不是看视频而是和历史伟人互动，技术想象力和产品落地都够惊艳，做虚拟世界和交互叙事的人值得直接点进去体验。

01:04

xAI：News（网页）

精选65

Gopuff与SpaceXAI推出Go AI购物助手

Gopuff与SpaceXAI合作推出Go智能购物助手，内置于Gopuff应用，由Grok文本、音频和图像模型驱动。Go结合Grok的推理、语音和图像生成能力与Gopuff的13年需求智能，利用X和网络实时信号。它可在用户打开应用前根据历史偏好和天气等信号构建个性化购物车，并包含基于Grok Imagine的超逼真视觉购物信息流。Go目前在美国iOS和Android端可用，随后在英国推出。

智能体 xAI 产品更新多模态

推荐理由：Gopuff加SpaceXAI的组合给即时零售塞了个挺实在的AI购物助手，预判需求比我自己翻分类流畅，本地生活类工具团队该把它当个落地样本。

01:04

Anthropic：Newsroom（网页）

精选90

Claude Fable 5 和 Claude Mythos 5

Anthropic 今日推出 Claude Fable 5（通用安全版）和 Claude Mythos 5（受限安全版）。Fable 5 在软件工程、知识工作、视觉、科研等几乎所有测试基准上达到 SOTA，Stripe 称其将数月工程压缩至数天，FrontierCode 评分居前沿模型之首，可仅凭截图重建网页应用源码。Mythos 5 在药物设计中实现约 10 倍加速，其分子生物学假说盲测获科学家偏好的概率约 80%。两模型售价均为 $10/百万输入 tokens、$50/百万输出 tokens，较 Claude Mythos Preview 降价过半。Fable 5 在部分敏感主题上回退至 Claude Opus 4.8，安全触发率低于 5% 的会话。Mythos 5 通过 Project Glasswing 向网络安全防御者开放。

Anthropic 多模态安全/对齐模型发布

关联讨论 31 条

推荐理由：Anthropic把最危险的模型安全地放出来了，Fable 5在编码、科研上不是小数点级别的提升，价格还砍半，95%的请求直接跑满血版，必读。

6月9日

19:55

Hugging Face：Blog（RSS）

精选76

一个Agent如何通过链式调用两个HuggingFace Space构建3D巴黎画廊

一个编码Agent调用HuggingFace上的两个Space，从零构建了展示巴黎地标3D高斯散点图的交互式画廊。Agent先用ideogram-ai/ideogram4生成每个纪念碑的黑色背景图像，再通过VAST-AI/TripoSplat从单张图像重建3D高斯散点（.ply），自动完成坐标系校正、取景、压缩为.ksplat（体积缩小约3倍），并构建基于Three.js的滚动切换、拖拽旋转查看器，最终部署为静态Space。整个过程无需客户端库，每个Space通过agents.md暴露可调用API。

智能体 Hugging Face MCP/工具多模态

推荐理由：Hugging Face 把 agents.md 做成每个 Space 的标准说明书，agent 能直接读懂并链式调用图像和 3D 模型，这篇用 3D 巴黎画廊 demo 告诉你这事儿已经跑通了，做 AI 工具链的可以立刻照着试。

19:51

Tencent Hy@TencentHunyuan

精选67

腾讯混元发布UniRL：统一多模态强化学习基础设施

腾讯混元推出UniRL，一个支持统一多模态模型的强化学习基础设施，并发布两个新算法DRPO和Flow-DPPO。UniRL通过单个后训练循环（生成→评分→优势→更新→同步）覆盖扩散/流匹配模型、LLM/VLM及统一多模态模型（如Hunyuan-Image 3和Bagel）。模型与算法作为独立轴，可实现模型×算法的组合覆盖。框架支持可插拔rollout引擎（训练侧/SGLang/vLLM-Omni）、FSDP2分片和三种部署模式。FlowDPPO针对流/扩散模型引入基于精确散度的信任域策略优化；DRPO为LLM RL提供平滑的优势加权二次正则化方法。代码已开源。

多模态开源/仓库论文/研究部署/工程

关联讨论 1 条

推荐理由：UniRL把扩散和LLM的强化学习塞进同一个训练循环，外加两个新算法，多模态对齐的研究者可以立刻fork代码试起来。

12:55

HuggingFace Daily Papers（社区热门论文）

精选73

OmniGameArena：面向VLM游戏智能体的统一UE5基准与改善动态

OmniGameArena是一个基于十二个Unreal Engine 5新构建游戏的实时基准，涵盖单人（7个）、PvP（3个）和合作（2个）模式，提供统一动作接口。除冷启动排行榜分数外，还引入Improvement Dynamics Curve (IDC)，一种智能体反射评估机制：通过工具调用反射大语言模型自动优化技能提示词，追踪多轮反射中的分数变化以及习得技能在任务变体上的泛化表现。论文报告了12个VLM智能体在冷启动排行榜上的表现，以及4个顶级智能体在IDC下的指标。

智能体多模态论文/研究

推荐理由：在 UE5 里直接测 agent 的自我改进，这个思路让游戏 benchmark 从一次性的刷榜变成动态成长观测，对做多模态 agent 的团队是个新标尺。

08:00

HuggingFace Daily Papers（社区热门论文）

精选82

i1：面向强文生图模型的简单且完全开源配方

i1 是一个 3B 参数的文本到图像扩散模型，仅使用公开数据集训练。在 GenEval、DPG、PRISM、CVTG-2K 和 LongText 五个基准上，i1 性能与领先模型相当，平均比最佳现有完全开源模型高 29.5 个百分点。研究基于 300 余项控制实验（超 700K TPU v6e 小时），发现等权重混合 curated 数据集是强默认配置、更大文本编码器适配器以极少参数提升性能。i1 的检查点、训练与推理代码及数据处理流程已全部开源。

arXiv 图像生成多模态开源生态

推荐理由：i1 是第一个用全公开数据、完全开源代码/权重/数据管线打造的 3B 模型，直接把全开放模型的性能拉到可与闭源竞争，对做文生图研究的同行是个扎实起点。

03:14

Apple：Newsroom（RSS）

精选69

受 DMA 影响，Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线

由于欧盟《数字市场法案》（DMA），Apple 无法在 iOS 27 和 iPadOS 27 发布时于欧盟地区推出 Siri AI。该功能在欧盟的上线时间将晚于其他地区，具体时间未公布。

多模态政策/监管语音

关联讨论 8 条

推荐理由：苹果首次将 DMA 作为 AI 功能地区延迟的直接理由，并详细披露了与欧盟监管者的分歧，这个案例可能定义了 AI 助手在监管下的权限边界。

03:09

TechCrunch：AI（RSS）