Qwen Studio 发布新一代多模态检索模型 Qwen3-VL-Embedding 与 Qwen3-VL-Reranker,平台集成聊天机器人、图像视频理解、图像生成、文档处理、联网搜索、工具调用及 Artifacts 等全栈多模态能力。
Qwen Studio 发布新一代多模态检索模型 Qwen3-VL-Embedding 与 Qwen3-VL-Reranker,平台集成聊天机器人、图像视频理解、图像生成、文档处理、联网搜索、工具调用及 Artifacts 等全栈多模态能力。
xAI 完成 200 亿美元 E 轮融资,投资方包括 NVIDIA、Cisco 等。目前拥有约 6 亿月活用户,运营超 100 万 H100 GPU 等效算力的 Colossus 超算,正在训练 Grok 5。资金将用于基础设施建设和 AI 产品开发。
Qwen Studio 集成聊天机器人、图像与视频理解、图像生成、文档处理、联网搜索、工具调用及 artifacts 等全栈 AI 功能。
Qwen3-TTS 新增语音克隆与语音设计能力,Qwen Studio 集成聊天机器人、图像视频理解、图像生成、文档处理、联网搜索、工具调用及 artifacts 等综合服务。
小红书AIGC团队在NeurIPS2025上提出全新布局可控生成框架InstanceAssemble,专用于复杂场景下的Layout-to-Image任务。该框架通过从布局条件中引导图像生成,实现了对多对象位置、大小及空间关系的精确控制,解决了现有模型在密集布局下对象漏生、重叠等难题。
Mistral AI 发布 Mistral OCR 3,这是一款专为从各类文档中高保真提取文本与嵌入图像而设计的 OCR 模型。在表单、扫描文档、复杂表格和手写体处理等基准测试中,该模型的整体胜率达到 74%,超越了 Mistral OCR 2 以及企业级与 AI 原生 OCR 方案。作为一款体积更小的模型,其定价为行业领先的每 1,000 页 2 美元(通过 Batch API 可享 50% 折扣,即 1 美元)。开发者可通过 API(模型标识符 mistral-ocr-2512)进行集成,其输出为包含 HTML 表格标签的 markdown 格式,便于下游系统理解文档结构。该模型适用于高量级企业文档处理流水线。
Ming-Flash-Omni 在视觉、语音、图像、文本四种模态上同时实现了领先的理解与生成能力,覆盖音视图文全模态场景。该模型无需拆分为独立子模型即可统一处理多模态输入与输出,标志着全模态 AI 的重要进展。
智谱开源GLM-4.6V系列多模态模型,含106B-A12B基础版与9B轻量版Flash,支持128k tokens上下文。首次原生集成Function Call能力,支持图像、截图直接作为工具参数,并能理解工具返回的视觉内容。具备复杂文档理解、视觉网页搜索、前端代码生成及交互式编辑能力,适用于构建多模态Agent。已上架GitHub、Hugging Face及魔搭社区。
CrossVid 是首个系统性涵盖 4 个维度、10 个任务的跨视频推理测评基准,用于评估多模态大模型在跨视频场景下的综合推理能力,已被 AAAI 2026 收录。
Mistral AI 发布下一代 Mistral 3 系列模型。旗舰 Mistral Large 3 是稀疏 MoE 模型,拥有 41B 活跃参数和 675B 总参数,在 LMArena 开源非推理模型榜单排名第二。系列包含三款密集模型(Ministral 14B/8B/3B),在各自类别中提供最佳性价比,其中 14B 推理变体在 AIME '25 上达到 85% 准确率。所有模型以 Apache 2.0 协议开源,具备图像理解能力,现已在 Mistral AI Studio、Amazon Bedrock、Hugging Face 等多个平台上线。
Google DeepMind 发布 Nano Banana Pro 图像生成模型,基于 Gemini 3 Pro 构建,支持多语言可读文本直接渲染,可结合 Google Search 实时信息生成信息图表。该模型支持 14 张图像融合,保持 5 个人物形象一致性,输出 4K 分辨率。现已集成至 Gemini 应用、Google Ads、Google AI Studio 等产品,所有生成内容均嵌入 SynthID 水印以确保透明度。
关联讨论 2 条Google DeepMind:Blog(RSS)Ethan Mollick:One Useful Thing(RSS)AudioMCQ数据集包含57.1万个音频多选题,专为大型音频语言模型的后训练设计。该数据集创新性地提供了双重思维链注释,并引入音频贡献过滤机制以提升数据质量。在DCASE 2025挑战赛中,基于此数据集训练的模型获得第一名,展现了其在音频理解与推理任务上的显著效果。该资源已公开,旨在推动音频语言模型的研究与发展。
新论文分析了 AI 系统组织视觉世界的方式与人类的重大差异,旨在通过理解这些差异,让 AI 学会像人类一样观察和理解视觉信息。
北爱尔兰教育管理局 C2k initiative 完成六个月试点,发现将 Gemini 等生成式 AI 工具融入教学,可为参与教师平均每周节省 10 小时工作时间。
谷歌 MedGemma 系列新增多模态模型,专为健康 AI 开发设计。作为该系列迄今最强的开源版本,新模型具备更强大的医疗场景理解能力,为开发者提供先进的医疗人工智能技术支持,助力构建更精准的健康医疗解决方案。
Gemini 2.5 Flash-Lite 结束预览,达到生产级可用状态。这款高性价比模型在轻量体积下提供高质量输出,支持 100 万 token 超长上下文和多模态能力。
关联讨论 1 条Google DeepMind:Blog(RSS)与导演 Darren Aronofsky、Eliza McNitt 及超 200 人团队合作,采用 Veo AI 视频生成与真人实景拍摄结合的方式制作电影《ANCESTRA》。
AlphaEarth Foundations 新AI模型整合PB级地球观测数据,生成统一数据表示,以前所未有的精度革新全球测绘与监测。
利用人工智能技术,科学家能够从海量宇宙数据中提取深层信息,突破传统观测局限,揭示隐藏规律,从而以前所未有的深度感知和理解宇宙,持续拓展人类认知边界。
美团开源全模态模型LongCat-Flash-Omni,采用5600亿参数MoE架构(激活270亿),支持128K上下文与实时音视频交互。模型基于快捷连接MoE与零计算专家,配备轻量级编解码器及分块特征交错机制,通过课程式渐进训练提升效率。在OmniBench、WorldSense等基准测试中超越Qwen3-Omni与Gemini-2.5-Pro,在文档理解、语音识别及GUI控制等任务中达到领先水平。
关联讨论 1 条美团 LongCat:HuggingFace 新模型Gemini 应用原生图像编辑功能迎来重大升级,用户现可通过更新后的工具以全新方式变换图像,获得更强大的创意编辑能力。
Gemini 2.5 Computer Use 模型基于 Gemini 2.5 Pro 构建,专门用于驱动能与用户界面交互的 agent,现已通过 API 以预览版形式提供。
美团 LongCat 团队发布 LongCat-Flash-Omni 开源项目,致力于通过开源和开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 技术应用门槛,打破技术壁垒,但目前尚未披露具体模型架构、性能基准、参数规模及应用场景等详细技术规格。
Seed3D 1.0 基础模型支持从单张图像直接生成具备准确几何、对齐纹理与真实物理材质的 3D 资产,可直接集成至物理引擎用于机器人操作与仿真训练,无需复杂配置。该系统解决了现有世界仿真器在内容多样性与物理准确性之间的权衡难题,并支持将物体组合为连贯场景,实现可扩展的仿真就绪内容创作。
Anthropic可解释性团队分享了多项研究进展。研究发现,从Haiku 3.5到Sonnet 4.5等模型中存在跨模态视觉特征,能够识别ASCII艺术和SVG代码中编码的语义概念,如眼睛、嘴巴、狗、猫等。这些特征依赖于视觉描绘的上下文环境,例如,SVG圆形元素只有在位于激活“面部”特征的更大结构中时才会激活“眼睛”特征。在生成过程中对部分特征进行引导,可以对应修改文本艺术的语义,例如将ASCII表情从皱眉转为微笑,或为SVG面部添加皱纹。研究还发现模型存在类似“人脸幻想”的倾向,会将形状解释为动物绘图的组成部分。这些特征对人类手绘的SVG同样有效。
inclusionAI 发布了 Ming-UniVision 的代码。该项目提出了一种创新的连续统一分词器,旨在联合处理图像理解与生成任务。该技术试图将视觉识别和图像合成整合进一个统一的框架内,通过连续化的表示来桥接两类不同性质的视觉任务,有望提升多模态模型的效率和协同能力。此次代码开源意味着相关方法将可供社区研究、复现与应用。
Suno 推出全球首款生成式音频工作站 Suno Studio,将 AI 生成能力融入音乐创作核心。支持即时生成无限 stem 变体(人声、鼓点、合成器等),提供多轨时间线编辑、BPM 和音高调整等专业控制,可导出音频与 MIDI 文件至其他 DAW。兼容从业余爱好者到专业作曲家的各类创作者,桌面版现已向 Premier 用户开放。
小米开源其首个原生端到端语音大模型 Xiaomi-MiMo-Audio,被定位为语音开源领域的“LLaMA 时刻”,对标此前语音闭源领域的“GPT-3 时刻”。该模型具体参数、评测分数及开源协议尚未披露。
OpenRouter 现已上线 Gemini 2.5 Flash Image Preview,这是该平台首个图像生成模型,支持 SOTA 图像生成、角色一致性以及多图像输出。
UI-Venus 是一款本地 UI 智能体,仅以屏幕截图作为输入,即可执行精确的图形用户界面元素定位与高效导航。该代理无需依赖系统底层代码或辅助功能接口,直接通过视觉信息理解界面结构,实现自动化操作。其核心能力在于对任意应用或网页中的按钮、菜单、文本框等元素进行准确识别与交互,提升了跨平台任务执行的通用性与可靠性。
现可通过 URL 发送 PDF 文件以及使用语音输入功能,且适用于任意模型。
OpenRouter 平台现支持在应用中使用语音输入功能,并允许通过 URL 发送 PDF 文件。该功能适用于平台上的任意模型。
平台宣布为所有模型的应用新增音频输入与通过URL发送PDF文件的功能。用户现在可以直接使用语音与各类模型(如GPT、Claude、LLaMA)进行交互,同时支持通过链接直接上传PDF文档进行处理。这两项更新旨在提升多模态交互的便捷性,扩展了应用处理非文本输入和数据获取的方式,无需再依赖传统的文件上传步骤。
Mistral AI展示了如何通过LoRA微调技术,将Pixtral-12B视觉语言模型适配到卫星图像分析任务,从而显著提升模型在该专业领域的性能。该研究使用公开的Aerial Image Dataset进行测试,对比了微调前后的分类效果。未微调的基础模型在模糊类别上表现不佳且存在幻觉,而经过微调的模型将整体分类准确率从85.2%提升至94.1%,针对类似“游乐场”与“体育场”等易混淆类别的准确率也从63.0%大幅提升到88.5%,并解决了输出无效类别的幻觉问题。这项工作证明了领域特定微调对于挖掘通用大模型在垂直应用中潜力的有效性。
Mistral AI 为 Le Chat 推出五项重要更新:Deep Research(预览版)模式可快速生成结构化研究报告;语音模式启用新 Voxtral 模型实现自然对话;Think 模式由 Magistral 推理模型支持,提供原生多语言推理;Projects 功能可将相关对话组织至独立文件夹;并联合 Black Forest Labs 推出 Le Chat 内的高级图像编辑功能。用户现在可在 chat.mistral.ai 或移动应用中免费试用这些新功能。
NVILA 团队发布技术博客,详解如何在 SGLang 推理框架中集成新型视觉语言模型。文章以 NVILA 为实践案例,提供从模型适配、推理优化到部署的完整开发指南与代码实践。随着多模态大模型成为行业焦点,该方案填补了 SGLang 生态在视觉理解模型支持方面的文档空白,为开发者快速接入新 VLM 提供了标准化技术路径与最佳实践。