H公司发布了多模态计算机使用模型Holotron-12B。该模型基于NVIDIA开源的Nemotron-Nano-12B-VL模型，使用专有数据混合进行训练，专注于在交互环境中高效感知、决策和行动。其采用混合状态空间模型与注意力机制架构，在单张H100 GPU上实现了比前代Holo2-8B高2倍以上的吞吐量，在100并发基准测试中达到每秒8900个token。在WebVoyager基准测试中，性能从基线的35.1%提升至80.5%，在定位和导航基准上也显著提升。模型已通过NVIDIA开放模型许可在Hugging Face发布。

智能体 Hugging Face 多模态模型发布

推荐理由：高效推理的计算机使用代理模型，适合生产部署，开发者可直接试用。

00:00

Google Research：Blog（网页）

Google Research 在 The Check Up 分享：从医疗创新到真实世界临床场景

Google Research 在 The Check Up 活动发布多项医疗 AI 进展。与 Fitbit 合作的 Personal Health Agent (PHA) 整合可穿戴设备数据提供个性化健康指导；乳腺癌检测 AI 在研究中识别出 25% 传统筛查漏检的间隔期癌症；多智能体系统 AMIE 已在 Beth Israel Deaconess Medical Center 开展临床测试，协助病史采集。同时推出 MedGemma 开放模型及 Health AI Developer Foundations (HAI-DEF) 赋能开发者，糖尿病视网膜病变筛查模型已服务超 100 万例，AI 正从实验室走向真实临床场景。

智能体 DeepMind Google 产品更新

3月16日

00:00

Mistral AI：News（网页）

Mistral AI 与 NVIDIA 合作加速开放前沿模型发展

Mistral AI 作为 NVIDIA Nemotron 联盟创始成员，与 NVIDIA 达成战略合作，共同开发前沿开源 AI 模型。合作将结合 Mistral AI 的模型架构、全栈平台与 NVIDIA 的计算资源、开发工具和合成数据生成管线。Mistral AI 将贡献其专有训练技术、多模态能力及企业级微调工具，并利用 NVIDIA 资源扩大训练规模。联盟首个成果是基于 NVIDIA DGX Cloud 训练的基础模型，将作为即将开源的 Nemotron 4 模型系列基石。同日 Mistral AI 同步发布了 Mistral Small 4 模型。

多模态开源生态行业动态

00:00

Mistral AI：News（网页）

研究 ## 推出 Mistral Small 4 模型

Mistral AI 发布新一代开源模型 Mistral Small 4，首次将 Magistral 的推理、Pixtral 的多模态和 Devstral 的编码能力整合于单一模型。它采用混合专家架构，拥有119B总参数和256k上下文窗口，支持图文输入及可配置的推理强度。性能上，其端到端延迟降低40%，吞吐量较前代提升3倍。该模型基于 Apache 2.0 许可证开源，并加入 NVIDIA Nemotron 联盟，优化了在 vLLM 等框架上的推理效率，适用于聊天、编码和复杂任务处理。

多模态推理模型发布

3月12日

00:00

Claude：Blog（网页）

精选

Claude 新增交互式图表、图解与可视化功能

Claude 推出可视化功能测试版，支持在对话中实时生成交互式图表、图解等视觉内容，无需代码即可随对话调整修改。该功能不同于可下载的 Artifacts，以内联临时形式辅助理解当前话题，默认向所有套餐用户开启。同时 Claude 还新增食谱、天气等主题格式，并支持在对话内直接交互 Figma、Canva 和 Slack 等应用。

Anthropic 产品更新多模态

推荐理由：Claude推出对话内交互式图表功能，实时生成可视化助力理解

3月10日

18:00

公众号：小红书技术（dots.llm）

ICLR 2026|小红书多模态推理大模型 Vision-R1 ：实现图文内容的深度逻辑推理与理解

小红书在 ICLR 2026 上提出多模态推理大模型 Vision-R1。该模型以 200K 条无人工标注的高质量多模态 CoT 冷启动数据为基础，融合 GRPO 与渐进式思维抑制训练（PTST），有效解决多模态大模型“过度思考”难题，显著提升了复杂推理能力。

多模态推理论文/研究

18:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选

ChatGPT 推出数学与科学学习新方式

ChatGPT 新增数学与科学交互式可视化解释功能，支持实时探索公式、变量及概念，帮助学生更直观地理解理科知识。

OpenAI 产品更新多模态

推荐理由：ChatGPT 新增数学与科学可视化交互功能，提升学习体验

11:54

公众号：腾讯混元

混元世界模型再进化：开源首个面向世界模型的强化学习后训练框架WorldCompass

多模态开源生态模型发布

3月9日

00:00

Runway：News（网页）

精选

Runway 推出 Characters：单图实时生成可对话虚拟角色 API

Runway 推出 Characters API，基于 GWM-1 世界模型，支持用单张图片零微调生成实时可对话虚拟角色。支持自定义外观风格、声音、性格及知识库，具备自然表情、眼神、口型同步和手势。面向客户支持、培训教育和品牌营销等企业场景，已获 BBC 等采用。开发者可通过 API 集成，消费者也可在网页端体验预设角色。

智能体产品更新多模态视频

推荐理由：Runway推出实时视频Agent，单图生成可对话数字人，拓展AI交互形态

3月8日