为构建真正统一的文本-图像序列生成模型,研究团队提出STARFlow2。该模型基于Pretzel架构,通过残差跳跃连接垂直交织预训练视觉语言模型流与TarFlow流,两者共享因果掩码。结合深浅流设计与统一的FAE潜在空间,STARFlow2实现了缓存友好的交错生成,文本与视觉输出可直接进入KV缓存而无需重新编码。实验证明,该模型在图像生成与多模态理解任务上均表现优异,验证了自回归标准化流作为统一多模态建模基础的可行性。
为构建真正统一的文本-图像序列生成模型,研究团队提出STARFlow2。该模型基于Pretzel架构,通过残差跳跃连接垂直交织预训练视觉语言模型流与TarFlow流,两者共享因果掩码。结合深浅流设计与统一的FAE潜在空间,STARFlow2实现了缓存友好的交错生成,文本与视觉输出可直接进入KV缓存而无需重新编码。实验证明,该模型在图像生成与多模态理解任务上均表现优异,验证了自回归标准化流作为统一多模态建模基础的可行性。
现有基准测试未能充分评估视觉证据在交错搜索轨迹中的作用。为此,研究团队推出InterLV-Search基准,专门评估语言与视觉证据在搜索过程中反复交错使用的智能体能力。该基准包含2,061个示例,涵盖主动视觉证据搜寻、受控离线及开放网络交错多模态搜索三个层级,并首次引入涉及多实体比较的多模态多分支样本。实验表明,当前最先进的多模态智能体在此任务上整体准确率仍低于50%,在视觉证据定位、搜索控制和多模态证据整合方面面临显著挑战。基准数据与评估代码已开源。
OpenAI 在 Realtime API 中推出三款新模型,将实时语音交互升级为可执行任务的界面。核心模型 GPT-Realtime-2 具备 GPT-5 级别的推理能力,支持边听边思考、并行调用工具并完成任务,关键升级包括前置语、128K上下文窗口和可控推理强度。搭配的 GPT-Realtime-Translate 支持70多种语言实时互译,GPT-Realtime-Whisper 提供低延迟流式转录。这些模型共同支持语音驱动行动、系统主动播报和跨语言对话三种应用范式,旨在构建下一代语音协作智能体。
Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...
本文通过多个案例阐述跳出原有系统或思维框架的重要性。从Claude转向GPT和Codex获得更好体验,用Gemini解决多模态难题,到重新思考买房目的而非细节,均显示换用更广视角能轻松化解原有困局。产品领域,Agent可能简化复杂SaaS;追觅割草机通过“做加法”定价成功。团队管理应聚焦成功本质,企业AI转型需审视未来存在性。引用《无穷的开始》和GEB指出,好的解释需更广理论覆盖原问题,系统自指导致不完备性,必须跳出才能突破。最终,视野开阔后,解决方案自然显现。
SuperSplat项目将3D Gaussian Splatting技术转化为大众可用的创作与分发平台。其核心功能是允许创作者一键开启文件下载,观众可直接获取Gaussian splat文件。平台支持附加多种CC 4.0许可证并自动生成署名,个人页面可集成社交链接,成为3D作品集。下载的文件能直接导入PlayCanvas引擎快速创建交互体验。该项目免费开源,旨在降低技术门槛,推动3DGS从实验室走向普通创作者的实际应用。
据报道,苹果内置摄像头的AirPods已进入设计验证测试(DVT)阶段,最快有望于今年9月作为其首款AI可穿戴设备发布。该产品左右耳机配备低分辨率摄像头,用于捕捉环境视觉信息,以支持升级版Siri实现视觉问答等功能。其整体外观类似AirPods Pro 3,但耳机柄因容纳摄像头而加长。产品原计划2026年发布,因Siri升级延迟而推迟,此次升级得益于与谷歌Gemini的技术合作。苹果还在探索其导航提醒等用途,并为缓解隐私担忧内置了数据上传指示灯。
据彭博社报道,苹果计划于2026年推出第三代AirPods,这将是其首款AI可穿戴设备。新款AirPods的每个耳塞均内置摄像头,作为Siri的“眼睛”捕捉低分辨率视觉信息,以实现视觉问答、情境感知提醒和地标导航等免提AI功能。产品设计类似AirPods Pro 3,带有隐私提示LED灯,但不支持手势控制。该产品已开发四年,目前处于后期测试阶段,硬件已基本定型,但最终发布取决于AI体验能否达到苹果标准。其发布将与基于Gemini重构的Siri及iOS 27的新视觉AI模式同步,是苹果包括智能眼镜、相机吊坠在内的更广泛AI硬件布局的一部分。
NEW: Apple's AirPods with cameras reach an advanced testing stage where the design and features have been nearly finaliz...
研究人员提出文本条件联合嵌入预测架构(TC-JEPA),通过引入图像描述文本作为条件信息来降低掩码特征预测中的视觉不确定性。该方法采用细粒度文本调节器,对输入文本标记计算稀疏交叉注意力,从而调制预测的图像补丁特征。与基于掩码特征预测的I-JEPA相比,TC-JEPA能够学习到语义更丰富的视觉表征,解决了原有方法因视觉不确定性导致的语义学习不足问题。
We know you're eager for voice updates in ChatGPT. Stay tuned, we're cooking.
OpenAI API 推出了新的实时语音模型,能够进行推理、翻译和语音转录。这些模型显著提升了语音交互的自然度与智能水平,支持实时处理与多语言转换。新功能旨在为开发者提供更强大的工具,以构建更流畅、更智能的语音应用体验。
小米AI实验室开源多语言语音克隆TTS模型OmniVoice,覆盖600余种语言。该模型采用极简双向Transformer架构,无需复杂结构即可实现文本到语音的直接转换。其语音合成质量超越同类主流模型,训练速度可达一天10万小时。关键设计包括全码本随机掩蔽策略和引入大语言模型预训练参数,显著提升训练效率与语音可懂度。测试显示,在多种语言中其相似度与可懂度超越多款商用系统,并对低资源小语种也能实现高质量合成。模型还支持自定义音色、带噪音频适配等实用功能。
腾讯混元联合多所高校开源了OpenSearch-VL多模态训练方案,旨在通过强化学习解决前沿多模态搜索智能体的高质量训练数据瓶颈。该方案提供了从数据构建、工具集成到训练算法的完整开源框架。其核心是构建了高质量数据管道,通过维基百科路径采样与模糊实体重写等技术,产出高质量数据集,抑制检索捷径,鼓励智能体进行多跳搜索与推理。工具环境集成了文本/图像搜索、OCR及多种图像处理功能。实验结果显示,其模型将基线平均得分从47.8显著提升至61.6。
研究团队推出完全开源的OpenSearch-VL方案,用于训练前沿多模态深度搜索智能体。该方案包含三大核心:通过维基百科路径采样、模糊实体重写和视觉定位构建的高质量训练数据集(包括用于微调的SearchVL-SFT-36k和用于强化学习的SearchVL-RL-8k);统一文本搜索、图像搜索、OCR及图像处理工具的多样化环境;以及能处理级联工具失败的多轮致命错误感知GRPO训练算法。基于此训练的智能体在七个基准测试中平均提升超过10分,在多项任务上达到与专有商业模型相当的水平。所有数据、代码和模型均将开源。
针对上下文学习视频编辑中的计算瓶颈,研究团队提出首个近无损稀疏框架ISA。该框架基于上下文令牌显著性低、查询锐度与近似误差相关两项发现,采用预选择策略修剪冗余上下文,并通过动态查询分组机制,将高误差查询路由至完整注意力、低误差查询路由至高效的零阶泰勒稀疏注意力。结合新建的170万高质量视频数据集,团队构建了LIVEditor模型。实验表明,该模型在注意力模块延迟降低约60%的同时,在多个评测基准上超越现有先进方法,实现了近无损加速并保持了视觉保真度。
针对交互式虚拟世界与具身智能中物理3D资产合成的瓶颈,现有方法多忽视功能性。本文提出PhysForge,一个由大规模四层物理标注数据集PhysDB支持的两阶段框架。第一阶段,视觉语言模型担任“物理架构师”,规划定义材料、功能与运动学约束的“分层物理蓝图”。第二阶段,基于物理的扩散模型通过新颖的运动体素注入机制,合成高保真几何与精确运动学参数。实验证明,PhysForge能生成功能合理、可直接仿真的资产,为交互式3D内容与具身智能体提供了强大的数据引擎。
海信大白闺蜜机 X8 Ultra 将于5月30日20:00开售,定价8499元。该产品采用32英寸4K面板,配备天鹅颈灵动系统和20000mAh电池,续航达15小时。存储组合为8GB+256GB,运行Android系统,支持Wi-Fi并集成摄像头。其主要功能覆盖护眼学习、家庭娱乐、智能AI助手、居家办公及健身追剧,同时支持AI健身、AI语音和K歌。
Adobe于5月6日在Acrobat中推出PDF Spaces功能,可将PDF、文档、链接等静态材料转化为交互式AI工作空间。该功能利用AI自动生成摘要、音频概览、品牌演示文稿及定制聊天机器人。接收者能与AI助手对话以快速获取信息并定位关键内容,适用于销售提案、市场营销和人力资源等场景。目前,该功能已在Acrobat Express和Acrobat Studio上线。
Relit-LiVE提出了一种无需相机姿态先验知识的视频重照明框架。其核心创新在于,将原始参考图像显式引入渲染过程,以恢复固有表示中丢失的关键场景信息;同时,通过单一扩散过程联合预测重照明视频与每帧对齐的环境光照图,增强了几何-光照对齐性,显著提升了动态光照和相机运动下的物理一致性与时间稳定性。实验表明,该方法在合成与真实场景基准测试中均优于现有先进方法,并支持场景渲染、材质编辑等下游应用。
针对密集手部接触估计任务,本文提出了一种无需训练、零样本的方法ContactPrompt,以利用多模态大语言模型(MLLMs)的推理能力。该方法通过引入详细的手部分割和基于部分的顶点网格表示,有效编码了3D手部几何结构。同时,采用多阶段结构化接触推理与部分条件化机制,逐步融合全局语义理解与细粒度几何分析,从而实现精确的顶点级接触定位。实验表明,该方法在无需任何训练的情况下,性能优于此前基于大规模数据集训练的有监督方法,展现了MLLMs处理复杂视觉任务的潜力。代码将公开。
本文介绍了X-OmniClaw,这是一个为安卓系统设计的统一移动智能体,旨在通过多模态理解与交互处理复杂任务。其架构整合了感知、记忆与行动三大模块:Omni Perception提供统一的多模态输入管道,整合UI状态、视觉上下文与语音,并分解为结构化意图表示;Omni Memory融合运行时工作记忆与本地数据提炼的长期个人记忆,以增强个性化与上下文感知;Omni Action采用结合XML元数据与视觉感知的混合落地策略,通过行为克隆与轨迹回放捕获用户导航技能,实现精确的直接访问执行。多场景演示表明,该系统能有效提升交互效率与任务可靠性,为下一代移动原生个人助手提供了实用蓝图。
多模态知识编辑旨在修正视觉语言模型的知识,但编辑后模型会出现“实体身份混淆”的系统性故障:仅文本查询时,会将原实体身份错误关联到新实体。研究构建了诊断基准EC-Bench,发现现有方法未能区分模型的图像-实体绑定知识与实体-关系知识,导致模型过度依赖实体关联作为捷径,使新实体名成为虚假标签。实验表明,将编辑限制在图像-实体处理阶段,能促使编辑更忠实作用于图像绑定,从而显著减少身份混淆。这为未来研究提供了方法论指导。
针对音乐驱动舞蹈视频生成任务,本文提出了MACE-Dance框架。该框架采用级联专家混合模型,包含运动专家与外观专家两个核心模块。运动专家基于BiMamba-Transformer混合架构的扩散模型及免引导训练策略,从音乐生成高表现力且运动学合理的3D舞蹈动作。外观专家通过解耦的运动-美学微调策略,在动作驱动下合成具有时空一致性和视觉身份保持的视频。研究同时构建了大规模数据集与评估标准,实验表明该框架在3D舞蹈生成与姿态驱动图像动画两项任务上均达到了最先进性能。代码已开源。
现代传感器生成丰富数据,但可穿戴或遥感设备受带宽和功耗限制。标准编解码器如JPEG为人类感知设计,不适用于机器任务和非传统模态;通用压缩方案未利用信号冗余,性能次优;生成神经编解码器参数多、数据需求大且模态特定,难以实用。为此,研究团队提出LiVeAction,一种轻量级、通用且非对称神经编解码器架构。其关键创新包括:采用类似FFT结构并缩减神经网络分析变换的规模和深度,以降低编码器复杂度;使用基于方差的码率惩罚替代对抗性和感知损失,以支持任意信号模态并简化训练。相比最先进生成分词器,LiVeAction在码率-失真性能上更优,且可实际部署于低功耗传感器。相关代码、实验和Python库已开源。
研究团队提出了理解导向的后训练框架UNO,旨在通过理解任务直接引导生成表征,以增强统一多模态模型中理解与生成组件间的协同。该框架整合了语义抽象(如图像描述)和结构细节(如视觉回归)目标,实现了从理解到生成的有效梯度流动。在图像生成与编辑任务上的实验表明,理解监督能显著提升生成质量,证实了理解对生成的催化作用。
4DThinker是首个让视觉语言模型通过动态潜在心理意象进行“4D思考”的框架,使其能在连续隐藏空间内模拟场景演变。该研究提出了一个从原始视频合成4D推理数据的可扩展无标注流程,并设计了动态意象微调方法,通过联合监督文本标记与4D潜在表征来锚定模型的动态视觉语义。在此基础上,4D强化学习利用基于结果的奖励处理复杂推理任务,并将策略梯度限制于文本标记以确保优化稳定。在多个动态空间推理基准测试中,4DThinker均显著优于现有基线模型。
xAI正式向企业开发者和团队推出Grok Imagine API的“Quality Mode”图像生成与编辑功能。该模式在真实性、文本渲染和创意控制上实现显著提升,能生成细节精细、纹理准确、场景逼真的图像,并具备清晰的多语言文本生成能力。在独立排行榜中,该API已位列顶级模型之列。定价为输入提示每次0.01美元,输出图像根据分辨率(1K或2K)每张费用在0.05至0.07美元之间。此功能适用于产品可视化、营销素材快速生成、用户内容风格创作等多种商业场景。
现有基准如VSI-Bench主要评估基础几何感知能力,但未能触及具身智能所需的高阶认知。为此,研究团队推出了空间功能智能基准SFI-Bench,该基准包含超过1700个问题,数据来源于多样化的第一人称室内扫描视频。SFI-Bench旨在系统评估多模态大模型从物体位置感知到功能意图理解的高级空间推理能力,标志着对智能体空间认知的评估从几何层面迈向功能层面。
作者利用豆包Seed2.0-lite全模态理解模型,重新实践了将长视频自动转换为图文博客的工作流。传统ASR+LLM方案因信息丢失严重而效果不佳,新方案的核心在于模型能同时理解视频的音频、画面和屏幕文字,进行联合推理,从而保留技术视频中的关键视觉信息(如代码、图表)。通过将多模态能力封装为可复用的Agent Skill,并采用四步最佳实践——视频切片、生成结构化素材、反查关键帧配图、生成终稿——解决了传统流程的上下文割裂问题,使输出更接近人类技术编辑的整理成果。