研究团队提出DSO方法,旨在缓解视觉语言模型决策中的社会偏见。该方法允许用户在模型部署时,通过单一标量参数直接、实时地控制偏见缓解程度,实现无需重新训练的动态调整。实验表明,DSO能在偏见指标上实现高达90%的改善,同时将性能损失控制在10%以内,有效平衡了偏见缓解与任务性能。这一技术为需要根据具体场景权衡公平性与效用的应用提供了灵活解决方案。
研究团队提出DSO方法,旨在缓解视觉语言模型决策中的社会偏见。该方法允许用户在模型部署时,通过单一标量参数直接、实时地控制偏见缓解程度,实现无需重新训练的动态调整。实验表明,DSO能在偏见指标上实现高达90%的改善,同时将性能损失控制在10%以内,有效平衡了偏见缓解与任务性能。这一技术为需要根据具体场景权衡公平性与效用的应用提供了灵活解决方案。
NVIDIA 发布了 Nemotron 3 Nano Omni 模型,这是一个专为处理长上下文多模态任务设计的轻量级模型。该模型能够同时理解并处理文档、音频和视频数据,旨在赋能新一代多模态智能体。其核心变化在于将长上下文能力与多模态理解结合到一个小型化模型中,提升了在复杂跨模态场景下的处理效率与应用灵活性。
Google Translate 迎来 20 周年,从 2006 年的一项 AI 实验起步,现已支持近 250 种语言。官方分享了 20 条相关趣闻,并介绍了用户可尝试使用的实用技巧与新功能,以展示其多年来的技术演进与服务扩展。
昆仑万维发布2026年一季度财报,营收25.7亿元,同比增长46%,为“4+3战略”落地首季。公司自研视频模型与音乐模型均登顶全球第一,但正文未披露具体模型名称及版本号。具体营收增长主要来自AI业务驱动,战略聚焦多模态大模型与AI应用生态。
StereoFoley是一个视频到音频的生成框架,能生成48kHz、语义对齐、时间同步且空间准确的立体声。现有视频生成音频模型大多局限于单声道或无法实现对象感知的立体声成像,主要受限于缺乏专业混音、空间准确的视频-音频数据集。该研究首先开发了一个从视频生成立体声的基础模型,在语义准确性上达到了与当前最先进V2A模型相当的性能。
研究提出了一种通过长时运动嵌入来高效生成运动学的方法,直接对从追踪器模型获取的大规模轨迹中学习到的嵌入进行操作,将场景动态建模效率提升了数个数量级。该方法能够根据文本提示或空间戳指定的目标,高效生成长而真实的运动序列,避免了传统全视频合成在探索多种可能未来时效率低下的问题。
(注:提供的正文内容仅有一句话,缺乏必要的具体信息,如研究数据、性能指标、模型版本或测试结果等,无法撰写符合 100-200 字要求且包含关键数字/指标的摘要。请提供完整正文以便提取关键信息点。)
Qwen3.6-27B 开源发布,采用270亿稠密参数,无需MoE路由,部署门槛更低。编程能力全面超越前代旗舰Qwen3.5-397B-A17B MoE,在SWE-bench Verified(77.2)、SWE-bench Pro(53.5)、Terminal-Bench 2.0(59.3)、SkillsBench(48.2)等基准上领先,深度思考能力媲美超大参数模型。原生支持多模态,可处理图像、视频与文本,支持视觉推理、文档理解和视觉问答,具备视觉语言思考与非思考模式。开源权重已上线Hugging Face与ModelScope,API即将在阿里云百炼上线,兼容OpenAI与Anthropic协议,即时对话可通过Qwen Studio体验。
阶跃 Step 3.5 Flash 大规模上车极氪8X,深度集成该模型的整车智能体超级 Eva 随车量产上市。超级 Eva 融合阶跃三款大模型:Step 3.5 Flash 作为核心大脑,提供模糊指令理解与多步骤任务规划;语音大模型带来低延迟、更自然的交互;视觉理解模型可感知车外环境并决策,如判断路况、找车位。即日起用户可在极氪8X驾驶场景中体验。未来超级 Eva 将覆盖更多车型。
LLaDA2.0-Uni是一个统一的多模态模型,具备对世界的理解与生成能力。该模型通过整合视觉、语言等多模态信息,实现了跨模态的语义理解和内容生成。其架构支持从图像理解到文本生成、跨模态检索等复杂任务,标志着多模态人工智能向更通用、统一的方向演进。
生数科技与阿里云签署战略合作协议,双方将共建“云+AI”全栈生态,推动多模态大模型与世界模型的产业落地。
Ming-flash-omni 模型具备全模态创作能力,能够同时完成照片中路人干扰的识别、自动修图、修图效果自评,并最终生成一段社交媒体推文,实现从视觉理解到内容发布的完整闭环。
美团发布原生多模态模型 LongCat-Next,将视觉与语音作为模型的固有输入输出模态,而非传统语言模型的外部插件。该模型旨在构建能够直接感知、理解并作用于真实世界的 AI 系统,强调多模态能力在底层架构中的原生融合,而非后期拼接。
Google 正式发布了 Gemma 4,这是一款前沿的多模态人工智能模型,其核心特点是能够在设备端本地运行。该模型通过开源方式发布,旨在推动人工智能技术的进步与民主化。Gemma 4 的“在设备端”能力意味着数据处理可在本地完成,无需持续连接云端,这有望提升响应速度、增强隐私保护并实现离线使用。此举是 Google 通过开源和开放科学来普及人工智能的持续努力的一部分。
Qwen3.6-Plus 定位真实世界 Agent 应用,Qwen Studio 平台集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具调用及 Artifacts 等全栈功能,覆盖多模态任务与复杂场景需求。
智谱发布GLM-5V-Turbo多模态Coding基座模型,原生支持图像、视频、设计稿理解及画框、截图、读网页等工具调用,上下文窗口达200k。采用新一代CogViT视觉编码器与30+任务协同强化学习,在保持纯文本编程能力的同时强化GUI Agent能力。与Claude Code、AutoClaw等框架深度协同,支持"图像即代码"前端复刻及GUI自主探索,提供开箱即用的官方Skills。
可灵AI生成清明主题视频,被评价为“最有人味的片子”。视频引发评论区大量用户分享自创的“纸手机”故事,展现AI与人文情感的碰撞。该作品由快手旗下可灵AI制作,突出AI在情感表达领域的突破。
IBM Granite团队发布了Granite 4.0 3B Vision模型,这是一个专为企业文档处理设计的紧凑型多模态大语言模型。该模型参数为30亿,具备视觉理解能力,能够同时处理文本和图像信息,特别针对报告、表格、图表等企业文档进行优化。其紧凑尺寸旨在降低部署和运行成本,使企业能够在资源受限的环境中高效实现文档智能分析、信息提取和知识管理。模型已在Hugging Face平台发布。
Qwen3.5-Omni发布,在215项基准上达到SOTA,并自然涌现出Vibe Coding能力,成为原生全模态新标杆。
Qwen Studio 发布,集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具使用及 Artifacts 功能,提供全模态 AI 一站式解决方案。
关联讨论 1 条Qwen:Blog Retrieval(API)当前前沿多模态大模型在标准胸部X光问答基准测试中,无需访问任何图像即可获得顶级排名。这一反常现象暴露出模型视觉理解能力的严重缺陷,表明其性能可能依赖数据偏见或文本线索而非真实的图像解析能力。研究揭示了现有视觉语言模型评估体系的深层漏洞,指出所谓"视觉理解"可能只是缺乏真实感知能力的幻觉。
Lyria 3 Pro 发布,支持生成更长音轨并具备结构感知能力,同时将集成至更多 Google 产品和平台。
Google 将 Lyria 3 Pro 扩展至更多产品,支持生成更长音轨,并集成至专业人士日常工作和创作工具中。
Lyria 3 音乐生成模型现已开放付费预览,开发者可通过 Gemini API 调用,或在 Google AI Studio 免费测试。
Suno发布v5.5模型,推出Voices、Custom Models与My Taste三大功能。Voices支持Pro及Premier订阅者录制或上传人声,经语音验证后仅限本人使用;Custom Models可基于用户原创曲库训练最多三个个性化模型;My Taste则面向所有用户,自动学习其音乐偏好。此次更新旨在同时服务专业音乐人与普通创作者,并为与音乐产业合作的下一代模型奠定基础。
Google XR 团队推出 Vibe Coding XR 工作流,结合 Gemini Canvas 与开源框架 XR Blocks,利用长上下文推理能力将自然语言提示在 60 秒内转化为可交互、支持物理效果的 WebXR 应用。该方案基于 WebXR、three.js 和 LiteRT.js 构建,支持手势交互与深度感知,可在桌面模拟环境或 Android XR 头显中实时预览。已展示的应用包括几何可视化数学辅导和交互式物理实验室,用户可通过捏合等手势操作 3D 对象,快速验证空间交互设计。
该工作流通过Gemini Canvas,借助高级提示词快速原型化MediaPipe Pose Landmarker等体感游戏机制。开发者可在Google AI Studio中优化原型,采用低延迟的“轻量”模型和稳定的追踪点(如肩部关节点)以确保游戏响应灵敏。最后,流程利用Gemini Code Assist将实验性代码重构为模块化、可用于生产的应用程序,使其能够支持多种多模态输入,从而显著简化了体感控制游戏的开发过程。
MiniMax 发布 Token Plan 订阅计划,该计划支持全模态模型,宣称是全球首个覆盖多模态能力的订阅服务。