小米AI实验室开源多语言语音克隆TTS模型OmniVoice,覆盖600余种语言。该模型采用极简双向Transformer架构,无需复杂结构即可实现文本到语音的直接转换。其语音合成质量超越同类主流模型,训练速度可达一天10万小时。关键设计包括全码本随机掩蔽策略和引入大语言模型预训练参数,显著提升训练效率与语音可懂度。测试显示,在多种语言中其相似度与可懂度超越多款商用系统,并对低资源小语种也能实现高质量合成。模型还支持自定义音色、带噪音频适配等实用功能。
腾讯混元联合多所高校开源了OpenSearch-VL多模态训练方案,旨在通过强化学习解决前沿多模态搜索智能体的高质量训练数据瓶颈。该方案提供了从数据构建、工具集成到训练算法的完整开源框架。其核心是构建了高质量数据管道,通过维基百科路径采样与模糊实体重写等技术,产出高质量数据集,抑制检索捷径,鼓励智能体进行多跳搜索与推理。工具环境集成了文本/图像搜索、OCR及多种图像处理功能。实验结果显示,其模型将基线平均得分从47.8显著提升至61.6。
研究团队推出完全开源的OpenSearch-VL方案,用于训练前沿多模态深度搜索智能体。该方案包含三大核心:通过维基百科路径采样、模糊实体重写和视觉定位构建的高质量训练数据集(包括用于微调的SearchVL-SFT-36k和用于强化学习的SearchVL-RL-8k);统一文本搜索、图像搜索、OCR及图像处理工具的多样化环境;以及能处理级联工具失败的多轮致命错误感知GRPO训练算法。基于此训练的智能体在七个基准测试中平均提升超过10分,在多项任务上达到与专有商业模型相当的水平。所有数据、代码和模型均将开源。
针对上下文学习视频编辑中的计算瓶颈,研究团队提出首个近无损稀疏框架ISA。该框架基于上下文令牌显著性低、查询锐度与近似误差相关两项发现,采用预选择策略修剪冗余上下文,并通过动态查询分组机制,将高误差查询路由至完整注意力、低误差查询路由至高效的零阶泰勒稀疏注意力。结合新建的170万高质量视频数据集,团队构建了LIVEditor模型。实验表明,该模型在注意力模块延迟降低约60%的同时,在多个评测基准上超越现有先进方法,实现了近无损加速并保持了视觉保真度。
针对交互式虚拟世界与具身智能中物理3D资产合成的瓶颈,现有方法多忽视功能性。本文提出PhysForge,一个由大规模四层物理标注数据集PhysDB支持的两阶段框架。第一阶段,视觉语言模型担任“物理架构师”,规划定义材料、功能与运动学约束的“分层物理蓝图”。第二阶段,基于物理的扩散模型通过新颖的运动体素注入机制,合成高保真几何与精确运动学参数。实验证明,PhysForge能生成功能合理、可直接仿真的资产,为交互式3D内容与具身智能体提供了强大的数据引擎。
海信大白闺蜜机 X8 Ultra 将于5月30日20:00开售,定价8499元。该产品采用32英寸4K面板,配备天鹅颈灵动系统和20000mAh电池,续航达15小时。存储组合为8GB+256GB,运行Android系统,支持Wi-Fi并集成摄像头。其主要功能覆盖护眼学习、家庭娱乐、智能AI助手、居家办公及健身追剧,同时支持AI健身、AI语音和K歌。
Adobe于5月6日在Acrobat中推出PDF Spaces功能,可将PDF、文档、链接等静态材料转化为交互式AI工作空间。该功能利用AI自动生成摘要、音频概览、品牌演示文稿及定制聊天机器人。接收者能与AI助手对话以快速获取信息并定位关键内容,适用于销售提案、市场营销和人力资源等场景。目前,该功能已在Acrobat Express和Acrobat Studio上线。
Relit-LiVE提出了一种无需相机姿态先验知识的视频重照明框架。其核心创新在于,将原始参考图像显式引入渲染过程,以恢复固有表示中丢失的关键场景信息;同时,通过单一扩散过程联合预测重照明视频与每帧对齐的环境光照图,增强了几何-光照对齐性,显著提升了动态光照和相机运动下的物理一致性与时间稳定性。实验表明,该方法在合成与真实场景基准测试中均优于现有先进方法,并支持场景渲染、材质编辑等下游应用。
针对密集手部接触估计任务,本文提出了一种无需训练、零样本的方法ContactPrompt,以利用多模态大语言模型(MLLMs)的推理能力。该方法通过引入详细的手部分割和基于部分的顶点网格表示,有效编码了3D手部几何结构。同时,采用多阶段结构化接触推理与部分条件化机制,逐步融合全局语义理解与细粒度几何分析,从而实现精确的顶点级接触定位。实验表明,该方法在无需任何训练的情况下,性能优于此前基于大规模数据集训练的有监督方法,展现了MLLMs处理复杂视觉任务的潜力。代码将公开。
本文介绍了X-OmniClaw,这是一个为安卓系统设计的统一移动智能体,旨在通过多模态理解与交互处理复杂任务。其架构整合了感知、记忆与行动三大模块:Omni Perception提供统一的多模态输入管道,整合UI状态、视觉上下文与语音,并分解为结构化意图表示;Omni Memory融合运行时工作记忆与本地数据提炼的长期个人记忆,以增强个性化与上下文感知;Omni Action采用结合XML元数据与视觉感知的混合落地策略,通过行为克隆与轨迹回放捕获用户导航技能,实现精确的直接访问执行。多场景演示表明,该系统能有效提升交互效率与任务可靠性,为下一代移动原生个人助手提供了实用蓝图。
多模态知识编辑旨在修正视觉语言模型的知识,但编辑后模型会出现“实体身份混淆”的系统性故障:仅文本查询时,会将原实体身份错误关联到新实体。研究构建了诊断基准EC-Bench,发现现有方法未能区分模型的图像-实体绑定知识与实体-关系知识,导致模型过度依赖实体关联作为捷径,使新实体名成为虚假标签。实验表明,将编辑限制在图像-实体处理阶段,能促使编辑更忠实作用于图像绑定,从而显著减少身份混淆。这为未来研究提供了方法论指导。
针对音乐驱动舞蹈视频生成任务,本文提出了MACE-Dance框架。该框架采用级联专家混合模型,包含运动专家与外观专家两个核心模块。运动专家基于BiMamba-Transformer混合架构的扩散模型及免引导训练策略,从音乐生成高表现力且运动学合理的3D舞蹈动作。外观专家通过解耦的运动-美学微调策略,在动作驱动下合成具有时空一致性和视觉身份保持的视频。研究同时构建了大规模数据集与评估标准,实验表明该框架在3D舞蹈生成与姿态驱动图像动画两项任务上均达到了最先进性能。代码已开源。
现代传感器生成丰富数据,但可穿戴或遥感设备受带宽和功耗限制。标准编解码器如JPEG为人类感知设计,不适用于机器任务和非传统模态;通用压缩方案未利用信号冗余,性能次优;生成神经编解码器参数多、数据需求大且模态特定,难以实用。为此,研究团队提出LiVeAction,一种轻量级、通用且非对称神经编解码器架构。其关键创新包括:采用类似FFT结构并缩减神经网络分析变换的规模和深度,以降低编码器复杂度;使用基于方差的码率惩罚替代对抗性和感知损失,以支持任意信号模态并简化训练。相比最先进生成分词器,LiVeAction在码率-失真性能上更优,且可实际部署于低功耗传感器。相关代码、实验和Python库已开源。
研究团队提出了理解导向的后训练框架UNO,旨在通过理解任务直接引导生成表征,以增强统一多模态模型中理解与生成组件间的协同。该框架整合了语义抽象(如图像描述)和结构细节(如视觉回归)目标,实现了从理解到生成的有效梯度流动。在图像生成与编辑任务上的实验表明,理解监督能显著提升生成质量,证实了理解对生成的催化作用。
4DThinker是首个让视觉语言模型通过动态潜在心理意象进行“4D思考”的框架,使其能在连续隐藏空间内模拟场景演变。该研究提出了一个从原始视频合成4D推理数据的可扩展无标注流程,并设计了动态意象微调方法,通过联合监督文本标记与4D潜在表征来锚定模型的动态视觉语义。在此基础上,4D强化学习利用基于结果的奖励处理复杂推理任务,并将策略梯度限制于文本标记以确保优化稳定。在多个动态空间推理基准测试中,4DThinker均显著优于现有基线模型。
xAI正式向企业开发者和团队推出Grok Imagine API的“Quality Mode”图像生成与编辑功能。该模式在真实性、文本渲染和创意控制上实现显著提升,能生成细节精细、纹理准确、场景逼真的图像,并具备清晰的多语言文本生成能力。在独立排行榜中,该API已位列顶级模型之列。定价为输入提示每次0.01美元,输出图像根据分辨率(1K或2K)每张费用在0.05至0.07美元之间。此功能适用于产品可视化、营销素材快速生成、用户内容风格创作等多种商业场景。
现有基准如VSI-Bench主要评估基础几何感知能力,但未能触及具身智能所需的高阶认知。为此,研究团队推出了空间功能智能基准SFI-Bench,该基准包含超过1700个问题,数据来源于多样化的第一人称室内扫描视频。SFI-Bench旨在系统评估多模态大模型从物体位置感知到功能意图理解的高级空间推理能力,标志着对智能体空间认知的评估从几何层面迈向功能层面。
字节跳动火山引擎发布豆包大模型家族首款全模态理解模型 Doubao-Seed-2.0-lite 升级版。该模型原生统一支持视频、图像、音频和文本理解,并能进行跨模态联合推理,在物理、医疗等学科推理及细粒度感知上表现超越此前Pro版本。音频方面支持19种语种转写及多语种互译,多项基准测试优于Gemini-3.1-Pro。同时,其Agent、Coding与GUI能力升级,能更稳定处理长任务、胜任深度开发,并实现界面理解与操作执行的闭环。新版本已在火山方舟上线,旨在为企业提供高性价比的全模态任务部署方案。
豆包基础模型 Doubao-Seed-2.0-lite 完成升级,新增全模态理解能力。升级后的模型支持全模态理解,可处理多种信息形式。此为火山引擎旗下模型的最新升级。
前沃尔玛电商业务CEO马克·劳尔在其餐饮平台Wonder中推出AI工具“Wonder Create”,用户可在不到一分钟内生成完整的虚拟餐厅品牌,包括名称、描述、图片及菜谱。Wonder平台采用“可编程烹饪平台”模式,配备机器人厨房与700种食材库,能灵活切换25种菜系。该创新旨在大幅降低餐饮创业门槛,让用户快速测试新菜品与品牌概念。
为系统评估交互式世界模型的物理交互能力,研究团队提出了iWorld-Bench基准测试。该基准包含一个33万视频片段的数据集,并精选了2100个涵盖多视角、天气与场景的高质量样本。针对现有模型交互模态不统一的问题,研究设计了一个统一的动作生成框架,构建了六类任务共4900个测试样本,以综合评估模型在视觉生成、轨迹跟随和记忆等方面的性能。通过对14个代表性模型的评估,研究揭示了当前关键局限,为未来方向提供了见解。相关排行榜已公开。
GLM-5V-Turbo作为一款原生多模态基础模型发布,旨在直接驱动多模态智能体。该模型在多项核心评测中表现优异,在MMBench基准测试上达到90.1分,在MathVista测试中取得78.5%的准确率,并在RealWorldQA基准上以87.3%的准确率超越了GPT-4o。其设计强调对视觉与语言信息的统一理解与生成能力,为构建更高效的端到端多模态智能体提供了新的模型基础。
地理空间推理模型通常依赖人工标注的边界框坐标进行监督,这限制了其在海量无标注遥感数据上的自我进化。为此,研究团队提出RemoteZero框架,它利用多模态大语言模型在判别区域语义方面的优势,以内在语义验证取代几何坐标监督,从而实现了无需边界框标注的训练。该框架支持迭代式自我进化,模型能够利用自身产生的验证信号从无标注影像中持续学习。实验表明,RemoteZero在定位任务上取得了与强监督方法相竞争的性能,展现了自验证训练在地理空间推理领域的潜力。
据报道,苹果计划在秋季发布的iOS 27等系统中,推出名为“Extensions”的新功能,允许用户自行选择已通过App Store集成的第三方AI模型(如谷歌、Anthropic的模型),来驱动设备上的文本生成、图像编辑等AI功能。此举将打破此前ChatGPT作为唯一第三方选项的独占地位。同时,Siri将支持更换不同音色以区分内外模型,并迎来独立App及更深度的系统整合。苹果将在App Store设立专区展示兼容应用,并对第三方模型生成的内容免责。
大型视觉语言模型因优化目标无法约束视觉轨迹,易产生语言偏见与幻觉。现有方法引入视觉专家的几何先验作为监督,但偏向几何精度且推理效用有限。为此,本研究提出感知流网络,通过解耦感知与推理建立自条件生成过程,并借助变分强化学习整合多维奖励与邻近几何塑造,从而在保持视觉可靠性的同时促进面向推理的感知行为。该方法具备可证明的性能保证,在V* Bench与MME-RealWorld-lite基准上分别取得90.6%与67.0%的分数,创造了新的性能记录。
MolmoAct2 是一个为实际部署设计的全开放动作推理模型,在五个方面取得进展。其核心是专为空间与具身推理训练的 VLM 骨干 MolmoER,基于 330 万样本语料库训练。团队发布了三个新数据集,包括迄今最大开放双手数据集 MolmoAct2-BimanualYAM(720 小时遥操作轨迹),并开源了动作分词器 OpenFAST。模型采用层间 KV 缓存条件化架构,嫁接连续动作专家,还引入自适应深度推理变体 MolmoThink,以极低延迟保持几何基础。在广泛实证研究中,MolmoAct2 在 7 个仿真与真实世界基准上超越 Pi-05 等基线,MolmoER 在 13 个具身推理基准上超过 GPT-5 和 Gemini Robotics ER-1.5。模型权重、训练代码与数据均已公开。
音频-视觉智能已成为人工智能的核心前沿领域,旨在让机器能够感知、生成并交互于多模态现实世界。在大模型时代,音频与视觉的联合建模愈发关键,不仅用于理解,更支持对动态时序信号的可控生成与推理。Meta MovieGen、Google Veo-3等最新进展凸显了业界与学界对统一音视频架构的关注。然而,该领域研究仍较为分散,任务多样、分类不一致、评估方法各异,阻碍了系统化比较与知识整合。本综述首次从大模型视角全面回顾音频-视觉智能,建立了统一的任务分类体系,涵盖理解、生成与交互三大方向,并综合了模态标记化、跨模态融合、自回归与扩散生成、大规模预训练等核心方法。同时,研究梳理了代表性数据集、基准与评估指标,指出同步性、空间推理、可控性与安全性等开放挑战。
评估人的动作完成质量(熟练度)对教学、康复等领域至关重要,但其挑战在于细微的时空差异分布于多视角视频中。本文针对Ego-Exo4D数据集提出三种创新方法:SkillFormer采用参数高效的判别式架构实现选择性多视角融合;PATS通过保留基础动作的局部密集片段来改进时序采样;ProfVLM则将任务重构为条件语言生成,通过门控跨视角投影器和紧凑语言模型,同时输出熟练度标签与专家风格反馈。这些方法仅需比视频Transformer基线少20倍的可训练参数和少3倍的训练周期,即达到最优准确率,推动了该任务从封闭集分类向可解释反馈生成的范式转变。
APEX是首个面向AI生成音乐的大规模多任务学习框架,旨在联合预测流行度与美学质量。该框架基于Suno和Udio平台的21.1万首歌曲(约1万小时音频)训练,利用自监督音乐理解模型MERT提取音频嵌入,同时预测基于参与度的流行度指标(播放量与点赞数)以及五个感知美学维度。在包含11个未见生成系统的Music Arena数据集上进行分布外评估发现,加入美学特征能持续提升人类偏好预测准确性,表明所学表征在不同生成架构间具备强泛化能力。美学质量与流行度共同揭示了AI生成音乐的互补价值。
为提升视觉-语言-动作模型在复杂现实任务中的功能覆盖,研究团队推出通用机器人策略RLDX-1。该模型基于多流动作变换器架构,整合运动感知、记忆决策与物理传感等异构模态,并辅以合成罕见场景数据、仿人操作学习流程及实时推理优化等系统设计。在仿真与真实测试中,RLDX-1全面超越前沿模型π_{0.5}和GR00T N1.6,尤其在ALLEX人形机器人任务上取得86.8%的成功率,显著高于对照模型的约40%,标志着其在接触密集型动态灵巧操作领域取得关键进展。
针对流式视频扩散模型的分布匹配蒸馏方法普遍均等对待所有输出,限制了质量提升。Stream-R1框架提出统一的奖励引导机制,从两个层面自适应重加权蒸馏目标:在序列间,依据预训练奖励分数对损失进行重缩放,让高可靠性序列主导优化;在序列内,利用同一奖励模型的反向传播生成像素级时空权重,将优化集中于预期增益最大的区域和帧。该方法在标准基准测试中,于视觉质量、运动质量和文本对齐方面均持续优于基线,且无需改变架构或增加推理开销。
JoyAI-Image是一个统一的多模态基础模型,集成了视觉理解、文本生成图像和指令引导的图像编辑功能。它通过空间增强的多模态大语言模型与多模态扩散变换器的耦合架构,实现了感知与生成的交互。其可扩展的训练方案融合了统一指令调优、长文本渲染监督及空间编辑信号,增强了模型的几何感知推理与可控视觉合成能力。实验表明,该模型在多项基准测试中达到领先或极具竞争力的性能。其核心在于通过增强理解、可控空间编辑和新视角推理之间的双向循环,推动模型向更强的空间智能演进,为下游应用提供了新路径。
豆包在免费模式外新增付费订阅服务,推出三档价格:标准版连续包月68元、包年688元;加强版连续包月200元、包年2048元;专业版连续包月500元、包年5088元。付费功能专注于复杂任务和生产力场景,如PPT生成、数据分析和影视制作,以满足专业用户对高价值任务的需求。免费版本将继续服务日常使用,官方表示相关方案仍在测试阶段,正式上线时会公布完整信息。
视频变分自编码器(VAE)通过隐空间建模提升生成效率,但重建优化未必改善生成性能。为此,本研究受预测性世界建模启发,提出预测性视频VAE(PV-VAE),引入统一的预测性重建目标。该方法在训练时随机丢弃未来帧,仅编码部分过去观测,并让解码器同时重建已观测帧与预测未来帧,从而使隐空间编码更具时间预测性的结构,增强对视频动态的连贯理解。在UCF101数据集上,PV-VAE相比Wan2.2 VAE收敛速度提升52%,FVD指标改善34.42。分析表明,该模型具有良好的可扩展性,其隐空间能有效捕捉时间连贯性与运动先验,在下游视频理解任务中也带来一致性能提升。
据报道,苹果下一代操作系统iOS 27将聚焦AI与性能提升。Siri将迎来诞生以来最重大的形态转变,被重塑为拥有独立App的聊天机器人,界面酷似iMessage,支持集成第三方智能体,并具备单指令处理多任务、跨App联动及文件分析等能力。同时,AI将深度整合至相机应用,新增独立的“Siri模式”,支持通过镜头实时识别食品营养信息、提取联系人等。照片编辑功能也将获得AI驱动的新工具。
国内首部AI原生动画院线电影《三星堆:未来往事》已获得公映许可证,即将登陆全国影院。该片深度结合三星堆古蜀文明与AI技术,以AI呈现文物,构建连接过去与未来的科幻世界。其概念预告片已在香港国际影视展亮相,创作脉络可追溯至2024年上线的同系列AI科幻短剧《三星堆·未来启示录》第一季,该短剧全网播放量已达1.6亿次。
GitHub上开源了“Understand Anything”项目,这是一个AI驱动的工具,旨在帮助用户理解和解释各类复杂概念与信息。该项目发布后在Hacker News社区获得102个积分,反映出科技开发者对其技术潜力的高度关注。工具可能整合自然语言处理等技术,以提升知识获取与理解的效率。
本文针对多模态大语言模型在非平稳环境中推理分布多样化且不可预测的挑战,提出将多源推理对齐视为概念漂移下的约束满足问题。我们设计了自主偏好优化框架,将模型间分歧作为动态负约束处理。该框架通过监督引导将目标模型投射到源模型能力联合中,再利用约束感知优化,通过多负Plackett-Luce目标抑制漂移轨迹,合成一致的共识流形。在胸部X射线解释任务上的实验表明,我们的70亿参数模型展现出卓越的鲁棒性,平均准确率甚至超过专有源模型。同时,我们发布了包含170,982条推理轨迹的大规模基准CXR-MAX,以推动相关研究。
研究团队提出了具身搜索与救援新任务,并发布首个综合性基准ESARBench,用于评估多模态大语言模型驱动的无人机智能体。该基准基于Unreal Engine 5和AirSim构建了四个从真实世界GIS数据映射的高保真、大规模开放环境,包含动态天气、昼夜变化和随机线索布置。基准包含600个基于真实救援案例建模的任务及一套评估指标。实验评估了从传统启发式方法到基于MLLM的导航智能体等多种基线,结果揭示了该任务在空间记忆、空中适应性及搜索效率与飞行安全权衡方面的关键瓶颈。