生数科技在公众号推文中指出,通用世界模型是连接数字世界与物理世界的桥梁。文章标题与正文均为此单一观点,未提供更多细节。
生数科技在公众号推文中指出,通用世界模型是连接数字世界与物理世界的桥梁。文章标题与正文均为此单一观点,未提供更多细节。
Qwen3.5-Max-Preview 已登陆 LMSYS Chatbot Arena。Qwen Studio 提供聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索、工具调用及 artifacts 等全栈功能。
H公司发布了多模态计算机使用模型Holotron-12B。该模型基于NVIDIA开源的Nemotron-Nano-12B-VL模型,使用专有数据混合进行训练,专注于在交互环境中高效感知、决策和行动。其采用混合状态空间模型与注意力机制架构,在单张H100 GPU上实现了比前代Holo2-8B高2倍以上的吞吐量,在100并发基准测试中达到每秒8900个token。在WebVoyager基准测试中,性能从基线的35.1%提升至80.5%,在定位和导航基准上也显著提升。模型已通过NVIDIA开放模型许可在Hugging Face发布。
Google Research 在 The Check Up 活动发布多项医疗 AI 进展。与 Fitbit 合作的 Personal Health Agent (PHA) 整合可穿戴设备数据提供个性化健康指导;乳腺癌检测 AI 在研究中识别出 25% 传统筛查漏检的间隔期癌症;多智能体系统 AMIE 已在 Beth Israel Deaconess Medical Center 开展临床测试,协助病史采集。同时推出 MedGemma 开放模型及 Health AI Developer Foundations (HAI-DEF) 赋能开发者,糖尿病视网膜病变筛查模型已服务超 100 万例,AI 正从实验室走向真实临床场景。
Mistral AI 作为 NVIDIA Nemotron 联盟创始成员,与 NVIDIA 达成战略合作,共同开发前沿开源 AI 模型。合作将结合 Mistral AI 的模型架构、全栈平台与 NVIDIA 的计算资源、开发工具和合成数据生成管线。Mistral AI 将贡献其专有训练技术、多模态能力及企业级微调工具,并利用 NVIDIA 资源扩大训练规模。联盟首个成果是基于 NVIDIA DGX Cloud 训练的基础模型,将作为即将开源的 Nemotron 4 模型系列基石。同日 Mistral AI 同步发布了 Mistral Small 4 模型。
Mistral AI 发布新一代开源模型 Mistral Small 4,首次将 Magistral 的推理、Pixtral 的多模态和 Devstral 的编码能力整合于单一模型。它采用混合专家架构,拥有119B总参数和256k上下文窗口,支持图文输入及可配置的推理强度。性能上,其端到端延迟降低40%,吞吐量较前代提升3倍。该模型基于 Apache 2.0 许可证开源,并加入 NVIDIA Nemotron 联盟,优化了在 vLLM 等框架上的推理效率,适用于聊天、编码和复杂任务处理。
Claude 推出可视化功能测试版,支持在对话中实时生成交互式图表、图解等视觉内容,无需代码即可随对话调整修改。该功能不同于可下载的 Artifacts,以内联临时形式辅助理解当前话题,默认向所有套餐用户开启。同时 Claude 还新增食谱、天气等主题格式,并支持在对话内直接交互 Figma、Canva 和 Slack 等应用。
小红书在 ICLR 2026 上提出多模态推理大模型 Vision-R1。该模型以 200K 条无人工标注的高质量多模态 CoT 冷启动数据为基础,融合 GRPO 与渐进式思维抑制训练(PTST),有效解决多模态大模型“过度思考”难题,显著提升了复杂推理能力。
ChatGPT 新增数学与科学交互式可视化解释功能,支持实时探索公式、变量及概念,帮助学生更直观地理解理科知识。
Runway 推出 Characters API,基于 GWM-1 世界模型,支持用单张图片零微调生成实时可对话虚拟角色。支持自定义外观风格、声音、性格及知识库,具备自然表情、眼神、口型同步和手势。面向客户支持、培训教育和品牌营销等企业场景,已获 BBC 等采用。开发者可通过 API 集成,消费者也可在网页端体验预设角色。
小红书 Super Intelligence 团队在 FireRed-Image-Edit 1.0 发布不到一个月后推出 v1.1 版本,主要提升包括 OOTD(穿搭)元素融合、人像一致性大幅改进以及更强的社区友好特性。
生数科技 Vidu 将在 3 月 17 日至 20 日的香港国际影视展 FILMART 上设立 Vidu Q3「为剧而生」专区,展示专为漫剧、短剧、影视剧设计的 Vidu Q3 模型。该模型是全球首个支持 16 秒音视频直出的多模态模型,具备多镜头自由切换、多语言对话及多语种文字渲染能力,旨在为影视制作与内容工业带来全新生产方式。
Descript 利用 OpenAI reasoning models 实现大规模多语言视频配音,可在自动本地化大型内容库时保持时间同步与语义准确。
Google 搜索 AI 模式通过 query fan-out(查询扇出)技术处理视觉搜索,将图像查询拆解为多个子问题并行分析,从而提升对视觉内容的理解能力。
Google DeepMind 分享 Project Genie 使用指南,提供 4 个提示词写作技巧,帮助用户通过自然语言描述生成可交互的虚拟世界。
关联讨论 1 条Google DeepMind:Blog(RSS)FireRed-OCR 开源发布,为端到端方案新SOTA,小红书提出低成本文档识别训练范式,无缝兼容Qwen系列加速方案,是开箱即用的工业级OCR结构化专家。
Gemini 应用集成 Lyria 3 音乐生成模型,支持通过文本或图片提示创作 30 秒音乐片段,让任何用户都能轻松制作音轨。
Seed2.0系列正式发布,推出Pro、Lite、Mini三款通用Agent模型及专用Code模型,针对复杂多模态任务与长链路Agent场景优化。模型在视觉理解、数学推理与长上下文处理方面达SOTA水平,SuperGPQA分数超越GPT-5.2,并在ICPC、IMO、CMO测试中获金牌。支持科学研究级任务,token成本较顶尖模型降低约一个数量级。目前已上线豆包App、TRAE及火山引擎API。
inclusionAI团队发布了ZwZ模型系列,在细粒度感知任务上取得了当前最佳性能。同时,该团队推出了名为ZoomBench的全新感知基准测试,其设计更具挑战性。这些成果已在ICML 2026会议上展示。
Seedance 2.0 视频生成模型正式发布,综合性能达业界 SOTA 水平。新版本支持多模态输入,可同时参考 9 张图片、3 段视频、3 段音频及文本指令,精准迁移构图、动作、运镜与音效。模型支持 15 秒高质量多镜头生成,集成双声道立体声技术,并新增视频延长与编辑功能,可定向修改片段、角色及剧情。目前已在即梦 AI、豆包及火山方舟平台上线,适用于影视、广告、电商等工业级内容创作场景。
关联讨论 1 条字节 Seed:Research Papers(网页内嵌数据)蚂蚁百灵推出全模态模型 Ming-flash-omni-2.0,融合感知与创造能力,旨在通过多模态交互焕新生活体验。具体技术参数和性能数据暂未披露。
百灵全模态大模型Ming-flash-omni-2.0正式发布。该模型基于MoE架构,在视觉、语音、图像等全模态能力上实现代际跃迁,其核心突破在于一个统一模型同时具备了强大的通用泛化能力和特定模态的专家级表现。具体特色包括:视觉百科能精准识别万物并关联知识;语音生成可控制情绪、方言,提供百种音色,并能统一生成语音、音效与背景音乐;图像创作可实现氛围重构、场景合成与智能擦除。技术层面通过亿级数据细粒度感知、知识对齐及超低帧率音频表征等创新实现性能飞跃。模型已在多个平台开源。
关联讨论 1 条蚂蚁百灵:Developer Blog(网页)阿里云Qwen团队与AMD AI框架团队基于SGLang框架,在AMD MI300X GPU上实现了Qwen3-235B与Qwen3-VL-235B的极致延迟优化。通过PTPC FP8量化、TP8张量并行、MoE负载均衡及rocJPEG图像解码等技术,Qwen3-235B的TTFT和TPOT性能分别提升1.67倍与2.12倍,Qwen3-VL-235B分别提升1.62倍与1.90倍。相关优化代码已全面开源。
FireRed-OpenStoryline 今日正式开源,成为首个具备导演思维的视频剪辑Agent,将大模型能力从文本、图像拓展至视频剪辑领域。
inclusionAI 发布了 Ming-flash-omni 2.0 版本。该项目致力于通过开源与开放科学的方式,推动人工智能技术的进步与民主化。新版本意味着模型能力、效率或应用范围的进一步升级,延续了其降低AI技术门槛、促进广泛可及性与协作创新的核心目标。
Qwen-Image-2.0 发布,主打专业信息图表与照片级真实感图像生成。Qwen Studio 平台同步集成聊天、多模态理解、文档处理、网页搜索及工具调用等综合能力。
Runway 宣布完成 3.15 亿美元 E 轮融资,由 General Atlantic 领投,NVIDIA、Adobe Ventures 等参投。本轮资金将用于预训练下一代 world models 并拓展至新产品和行业。公司正在招聘。
H公司在Hugging Face发布博客,正式推出新一代模型Holo2。该模型在用户界面本地化任务上表现突出,实现了技术领先。其核心改进在于显著提升了多语言UI元素的识别与适配能力,能够更精准地处理图标、布局、文本标签等组件的文化适配与翻译。这一进展有望帮助全球应用和软件更高效地实现界面本地化,降低跨区域运营成本。
Kimi团队发布WorldVQA基准测试,评估多模态大语言模型视觉世界知识的事实准确性。数据集包含3,500个经多阶段人工验证的图像-问题对,涵盖自然、地理、文化等9个类别,区分头部与尾部知识分布。测试显示,即使是Kimi K2.5、Gemini-3-pro等前沿模型,整体准确率仅46%-47%,长尾视觉知识上常低于50%,揭示当前模型在事实可靠性方面的显著不足。
GLM-OCR 开源发布,0.9B 参数规模在 OmniDocBench V1.5 以 94.6 分取得 SOTA,擅长手写体、复杂表格、印章等场景结构化识别。兼容 vLLM、SGLang 和 Ollama 部署,推理延迟低,适合高并发与边缘计算,提供完整 SDK 支持一行命令调用。