当前最先进的文本到3D生成模型存在"潜在汇点陷阱":模型在特定区域对文本提示修改不敏感,导致无法通过改变输入文本来调整输出几何。这并非几何表达能力不足,而是对分布外文本指导的敏感性缺失。研究提出利用模型无条件生成先验,将几何表示与语言敏感性解耦以绕过该陷阱,实现了对分布外3D形状的高保真语义编辑,突破了现有3D流水线的局限性。
当前最先进的文本到3D生成模型存在"潜在汇点陷阱":模型在特定区域对文本提示修改不敏感,导致无法通过改变输入文本来调整输出几何。这并非几何表达能力不足,而是对分布外文本指导的敏感性缺失。研究提出利用模型无条件生成先验,将几何表示与语言敏感性解耦以绕过该陷阱,实现了对分布外3D形状的高保真语义编辑,突破了现有3D流水线的局限性。
阶跃 Step 3.5 Flash 大规模上车极氪8X,深度集成该模型的整车智能体超级 Eva 随车量产上市。超级 Eva 融合阶跃三款大模型:Step 3.5 Flash 作为核心大脑,提供模糊指令理解与多步骤任务规划;语音大模型带来低延迟、更自然的交互;视觉理解模型可感知车外环境并决策,如判断路况、找车位。即日起用户可在极氪8X驾驶场景中体验。未来超级 Eva 将覆盖更多车型。
研究团队推出RadAgent,一款用于胸部CT解读的工具使用型AI智能体。该系统通过逐步推理生成报告,提供可审查的决策轨迹与工具交互记录。相比3D VLM基线CT-Chat,其临床准确性macro-F1提升6.0分(36.4%)、micro-F1提升5.4分(19.6%),对抗鲁棒性提升24.7分(41.9%),并首次实现37.0%的忠实度指标,显著提升了放射学AI的透明度与可靠性。
研究团队提出 Switch-KD 视觉切换知识蒸馏框架,通过将学生模型的视觉输出接入教师模型的语言路径,在共享文本概率空间中实现跨模态知识迁移。该方法包含动态双向 Logits 差分损失函数,可自适应对齐关键概率区域并保持分布结构。实验表明,0.5B 参数的 TinyLLaVA 在无需修改架构的情况下,从 3B 教师模型蒸馏知识后,在 10 个多模态基准测试中平均性能提升 3.6 个百分点。
LLaDA2.0-Uni是一个统一的多模态模型,具备对世界的理解与生成能力。该模型通过整合视觉、语言等多模态信息,实现了跨模态的语义理解和内容生成。其架构支持从图像理解到文本生成、跨模态检索等复杂任务,标志着多模态人工智能向更通用、统一的方向演进。
harness框架通过AI Agent实现游戏内容全自动生成与验证。该系统基于SCP数据库扩展关卡,自动生成物品与任务道具,并集成AI绘图与TTS配音管线。核心创新在于内置沙盒环境(无头游戏模式),允许AI在命令行中自动验证关卡可玩性,根据约束条件修正数值。开发者强调,框架目前解决的是工程层面的"可玩性",而创意层面的"好玩性"仍需人工把控。项目后续将开源。
MM-WebAgent 是一个面向多模态网页生成的分层代理框架,通过分层规划与迭代自我反思协调 AIGC 元素生成,解决直接集成 AIGC 工具导致的风格不一致与全局连贯性问题。该框架联合优化全局布局、局部多模态内容及其集成,并配套推出多模态网页生成基准与多级评估协议。实验表明,MM-WebAgent 在多模态元素生成与集成方面优于代码生成及代理基线方法。
C-GenReg是一种无需训练的3D点云配准框架,利用世界基础模型将输入几何转换为多视图一致的RGB图像,借助视觉基础模型(VFM)在图像域提取密集对应关系,再通过深度图映射回3D空间。该方法采用"Match-then-Fuse"概率冷融合策略,将生成RGB分支与原始几何分支的对应后验进行融合,无需额外学习即可提供校准置信度。作为零样本即插即用方案,C-GenReg所有模块均无需微调,在室内3DMatch、ScanNet及室外Waymo基准测试中展现出卓越的跨域泛化能力,并首次在真实室外LiDAR数据上实现生成式配准。
研究团队发布"Mind's Eye"基准测试,涵盖8项视觉认知任务,依据"抽象-关系-转换"(A-R-T)分类体系评估多模态大语言模型的流体推理能力。结果显示,人类参与者准确率达80%,而顶尖模型不足50%。错误分析揭示,现有模型在视觉注意力分配、内部感知操作和底层概念抽象方面存在明显缺陷,表明当前多模态大语言模型的视觉空间推理能力仍显著落后于人类水平。
研究团队提出分层编解码器扩散Transformer模型 HiCoDiT,利用 RVQ 编解码器的分层结构解决现有视频到语音生成方法忽视语音层级特性的问题。该方法通过低级块基于唇形同步运动与面部身份建模说话人感知语义,高级块利用面部表情调节细粒度韵律动态,并引入双尺度自适应实例层归一化实现从粗到细的条件控制。实验表明,该模型在语音保真度和表现力上显著优于基线方法,代码与演示已开源。
研究团队推出LaviGen框架,将3D生成模型重新用于3D布局生成。该方法突破传统文本推断模式,直接在原生3D空间通过自回归过程显式建模物体几何关系与物理约束,生成连贯且符合物理规律的3D场景。团队还提出融合场景、物体与指令信息的改进版3D扩散模型,并采用双引导自推出蒸馏机制提升效率与空间精度。在LayoutVLM基准测试中,LaviGen的物理合理性较现有最优方法提升19%,计算速度加快65%。
Ready to make the most of notebooks in Gemini? Join @GoogleDeepMind Product Manager, Rebecca Zapfel, for a live demo on ...
字节跳动将其 AI 视频生成模型 Seedance 2.0 推向全球 100 多个国家,但美国不在此次发布范围内。这一排除可能源于该公司与好莱坞制片厂之间持续的版权纠纷。此次国际扩张标志着字节跳动在 AI 视频生成领域的全球布局取得进展,尽管其在美国市场仍面临法律障碍。
研究团队发布LingBot-Map,一款基于几何上下文Transformer(GCT)的流式3D重建基础模型。其创新注意力机制整合锚点上下文、姿态参考窗口与轨迹记忆,分别实现坐标定位、密集几何线索提取和长程漂移校正。该系统在518×378分辨率输入下保持约20 FPS的推理速度,可稳定处理超10,000帧的长序列,且流式状态紧凑。多项基准测试表明,其性能优于现有流式及迭代优化方法。
研究团队发布MERRIN基准,评估搜索增强智能体在嘈杂网络环境中的多模态证据检索与推理能力。该基准涵盖视频、音频等未充分探索模态,要求智能体在无明确模态提示的查询下检索复杂且常含噪声或冲突的证据。测试显示,10个模型(包括GPT-5.4-mini、Gemini 3/3.1及Qwen3系列)平均准确率仅22.3%,最佳达40.1%。研究发现,强智能体虽表现更优,但因过度探索导致资源消耗高而准确率提升有限,且相比人类存在信源选择低效和过度依赖文本模态的问题。
研究团队提出即插即用框架ROSE,通过引入互联网检索增强生成、文本与视觉提示增强及WebSense智能调度四大模块,解决多模态大语言模型在分割训练数据外新颖实体与需实时信息新兴实体时的知识滞后问题。同步构建的NEST基准测试用于评估此类场景。实验显示,ROSE在NEST基准上较Gemini-2.0 Flash检索基线提升19.2 gIoU,显著增强模型对实时网络信息的利用能力。
UI-Zoomer是一种无需训练的自适应放大框架,通过不确定性量化优化GUI定位任务。该方法利用置信度感知门控机制仅在定位不确定时触发放大,并基于方差分解动态计算每实例的裁剪半径,替代传统的固定尺寸统一裁剪。在ScreenSpot-Pro、UI-Vision和ScreenSpot-v2基准测试中,该方法分别实现最高13.4%、10.3%和4.2%的精度提升,显著改善小图标与密集布局的定位效果。
RE-Edit 是一个评估图像编辑系统隐式推理能力的多维度基准,包含五个推理维度(物理、环境、文化、因果、指代)和 1,000 个精心设计的样本。研究测试了十种开源和两种商用图像编辑模型,发现即使先进系统在满足隐含逻辑约束时也经常失败,尽管能生成高质量视觉内容。论文还提出了一种轻量级推理引导后编辑基线,初步探索了显式推理在模型无关方式下缓解此类错误的可能性。
研究团队提出WavAlign方法,针对端到端语音对话模型智能与表现力不足的问题,设计了模态感知自适应后训练方案。该方法将偏好更新约束至语义通道,通过显式锚定改善声学行为,并基于rollout统计动态调节混合比例以避免不可靠梯度。在多个语音对话基准测试及代表性架构上的评估显示,模型在语义质量和语音表现力方面均获得一致提升。
研究团队提出自适应视觉推理框架 AVR,将推理过程分解为视觉感知、逻辑推理和答案应用三个认知功能,使模型能根据问题难度动态选择完整推理、仅感知或直接答案三种输出格式。该框架采用改进的 FS-GRPO 算法训练,在确保准确性的同时鼓励选择最高效推理路径。实验显示,AVR 在多个视觉语言基准测试中将 token 使用量降低 50–90%,同时保持整体准确率,有效缓解了视觉推理模型的"过度思考"问题。
@sundarpichai @GeminiApp @antigravity Looks like Gemini Live soon! 🔥
研究团队提出Humanoid Transformer with Touch Dreaming(HTD)模型,整合基于强化学习的全身控制器与VR遥操作数据收集系统,解决接触丰富场景下的人形机器人操作难题。该方法将触觉作为与视觉、本体感觉同等重要的模态,通过"触觉梦境"机制训练模型预测未来触觉潜变量及手部关节力,从而学习接触感知表征。在插入、整理书籍、叠毛巾、铲猫砂、端茶等五项真实世界灵巧操作任务中,HTD平均成功率较强基线提升90.9%,其中潜空间触觉预测相比原始触觉数据可带来30%的额外性能增益。
研究团队发布涵盖 100 余种 Unicode 文字的 GlotOCR Bench 基准测试,包含干净与退化图像变体。评估显示,多数视觉语言模型仅能正确处理不到 10 种文字,最强前沿模型也难以泛化至 30 种以上。性能与文字级预训练覆盖率高度相关,面对陌生文字时模型会产生随机噪声或幻觉已知相似字符。该基准测试及渲染流程已开源。
研究团队发布SpotSound音频语言模型,针对长音频中的事件精确定位难题,提出可抑制幻觉时间戳的新型训练目标。同步推出SpotSound-Bench基准测试,目标事件占音频片段比例低于10%,模拟"大海捞针"的严苛真实场景。实验表明,该模型在时间定位基准上取得SOTA结果,同时在通用音频语言任务中保持稳健性能。相关代码、模型及数据集均已开源。
本文提出Distortion Graph(DG)任务,将图像对表示为基于区域的结构化拓扑,以图结构编码失真类型、严重程度及质量评分。工作贡献包括区域级数据集PandaSet、多难度基准PandaBench及高效架构Panda。实验表明,当前多模态大语言模型难以处理区域级失真,而基于PandaSet训练或DG提示可有效激发区域级理解能力,为细粒度结构化图像质量评估提供新方向。
针对移动GUI智能体忽视用户隐私个性化需求的问题,研究者提出轨迹诱导偏好优化框架TIPO。该方法通过偏好强度加权突出关键隐私步骤,并采用填充门控抑制对齐噪声,有效解决了隐私优先与效用优先用户间轨迹结构异质性导致的优化不稳定难题。在Privacy Preference Dataset上的测试显示,TIPO在保持任务可执行性的同时,实现65.60%成功率、46.22合规性得分和66.67%隐私区分度,显著优于现有优化方法。相关代码与数据集已开源。
生数科技与阿里云签署战略合作协议,双方将共建“云+AI”全栈生态,推动多模态大模型与世界模型的产业落地。
视觉-语言模型在组合推理中常受词序和属性绑定脆弱性困扰,源于对比预训练中缺乏区分细微语义变化的信息样本。本研究建立词汇具体性作为负样本有效性的决定因素,提出ConcretePlant方法系统操作感知概念,通过修改高具体性术语产生显著结构差异。针对InfoNCE梯度不平衡问题,提出Cement损失函数,采用基于边界的方法关联心理语言学分数与样本难度,动态校准惩罚强度。集成框架Slipform在组合评估基准、跨模态检索及线性探测任务上均达到最先进准确率。
多模态大语言模型在视觉中心任务中常因指令微调时视觉信息利用不足而表现欠佳。研究团队提出一种轻量级方法,将旋转预测、颜色匹配等经典自监督前置任务重构为图像-指令-回复三元组,无需人工标注或架构修改即可增强视觉指令微调。实验表明,仅在训练数据中注入3-10%的此类基于视觉的指令,就能在多个模型和基准测试上持续提升细粒度视觉推理性能。
研究团队提出Grid2Matrix(G2M)基准,通过颜色网格转矩阵任务评估视觉语言模型(VLMs)的细粒度视觉感知。研究发现VLMs在零样本端到端评估中呈现急剧早期崩溃,即使小网格也会完全失败。探测显示视觉编码器保留了充足网格信息,但最终语言输出存在显著损失,这种"可恢复特征"与"语言表达"间的鸿沟被定义为"数字失认症"。错误模式与网格单元和视觉补丁边界重叠密切相关,且模型扩展等策略无法彻底消除该缺陷。