针对迭代检索增强生成在解析文本时存在的证据定位粗粒度与视觉语义丢失问题,本研究提出了“证据链”框架。该框架与检索器无关,直接利用视觉语言模型对检索到的文档截图进行推理,无需针对特定格式进行解析,并能输出精确的边界框以可视化完整推理链条。在Wiki-CoE和SlideVQA两个基准上的实验表明,经微调的Qwen3-VL-8B-Instruct模型表现稳健,在需要视觉布局理解的场景中显著优于基于文本的基线方法,为像素级可解释的iRAG提供了一个通用解决方案。代码已开源。
针对迭代检索增强生成在解析文本时存在的证据定位粗粒度与视觉语义丢失问题,本研究提出了“证据链”框架。该框架与检索器无关,直接利用视觉语言模型对检索到的文档截图进行推理,无需针对特定格式进行解析,并能输出精确的边界框以可视化完整推理链条。在Wiki-CoE和SlideVQA两个基准上的实验表明,经微调的Qwen3-VL-8B-Instruct模型表现稳健,在需要视觉布局理解的场景中显著优于基于文本的基线方法,为像素级可解释的iRAG提供了一个通用解决方案。代码已开源。
多模态点云补全中,硬投影易导致跨模态熵崩溃,阻碍视觉先验传播。为此,SplAttN提出一种新方法,以可微分高斯光栅化替代硬投影,将投影转化为连续密度估计,生成密集连续的图像平面表示。这避免了稀疏支持问题,改善了梯度流动与跨模态连接学习能力。实验显示,SplAttN在PCN和ShapeNet-55/34数据集上达到最先进性能。在KITTI真实场景基准测试中,反事实评估表明,SplAttN能保持对视觉线索的强健依赖,而基线模型则退化为对视觉移除不敏感的单模态模板检索器,验证了其有效建立跨模态连接。代码已开源。
近期多项进展展现了AI的巨大积极影响。医疗领域,Mayo Clinic的AI能通过常规CT提前最多三年检测胰腺癌,强生利用AI将新药线索生成时间减半。教育方面,哈佛研究显示AI导师使学生学习效果翻倍,泰国培训16万名教师惠及330万学生。农业上,AI能以约88%准确率预测害虫爆发。科研中,AI快速筛查NASA数据,新发现超一万颗系外行星候选。此外,香港推出AI洪水预报系统,Atlassian和Twilio等公司也因AI驱动业绩增长并上调预期。这些案例平衡了AI风险,凸显其创新潜力。
x.ai 正式发布了 Grok 4.3 模型,开发者可通过官方文档获取详细信息。该模型在 Hacker News 社区获得关注,相关帖子收获了 100 点热度。此次发布标志着 Grok 系列模型的持续迭代更新。
现代视频扩散模型擅长外观合成,但物理一致性不足,如物体漂移、碰撞不真实。PhyCo框架引入连续、可解释且基于物理的控制,整合三个核心组件:包含超过10万条模拟视频的大规模数据集,系统改变摩擦、恢复系数等属性;基于像素对齐物理属性图的ControlNet,对预训练扩散模型进行物理监督微调;以及VLM引导的奖励优化,通过微调视觉语言模型评估视频并提供可微分反馈。该方法使模型能通过调整物理属性生成物理一致且可控的视频,无需推理时模拟或几何重建。在Physics-IQ基准测试中,PhyCo显著提升物理真实感,人类研究证实其控制更清晰、更忠实。
MoCapAnything V2 提出了首个完全端到端的单目视频运动捕捉框架,用于驱动任意骨骼。该框架将视频到姿态、姿态到旋转两个模块设计为可学习且联合优化,解决了传统分解流程中旋转模糊与不可微逆运动学带来的限制。通过引入目标资产的参考姿态-旋转对与休息姿态,明确定义了旋转坐标系,将旋转预测转化为条件良好的问题。模型直接从视频预测关节位置,无需依赖网格中间表示,提升了鲁棒性与效率。实验表明,该方法在多个数据集上将旋转误差从约17度显著降低至约10度,在未见骨骼上可达6.54度,且推理速度比基于网格的方法快约20倍。
本文针对非专业低代码用户指令模糊、质量低的现实瓶颈,提出了首个多模态交互式网站生成基准InteractWeb-Bench。该基准通过四类用户智能体与基于人物角色的指令扰动,系统模拟了包含模糊、冗余和矛盾在内的多样化用户行为,并提供了一个支持澄清、实现、验证和提交统一行动的交互式执行环境,以实现迭代式意图细化与代码合成。大量实验表明,当前前沿的多模态大语言模型智能体仍受困于“盲目执行”模式,在意图识别与自适应交互方面存在明显局限。
本研究提出Eywa异构智能体框架,以扩展语言中心的大模型系统至更广泛的科学基础模型。该框架通过为领域专用基础模型增加语言模型推理接口,使语言模型能指导非语言数据模态的推断,从而让预测性基础模型参与高层推理与决策。Eywa可作为单智能体流程的直接替代,或嵌入现有多智能体系统,并支持基于动态规划的跨模态任务协调。实验覆盖物理、生命及社会科学领域,结果表明Eywa能提升涉及结构化与领域专用数据的任务性能,并通过与专用模型的协作减少对纯语言推理的依赖。
当前视觉生成模型在写实性、指令跟随等方面进展显著,但在空间推理、长程一致性与因果理解上仍面临挑战。研究主张从外观合成转向智能视觉生成,即生成基于结构、动态和因果关系的合理内容。为此提出了一个五级分类体系,标志着从被动渲染器到交互式、世界感知生成器的根本转变。关键技术驱动力包括流匹配、统一的理解-生成模型、数据策展与后训练等。现有评估常因过度强调感知质量而高估进展,忽视了结构与时序缺陷。结合基准评测与真实场景测试,该路线图为推进下一代智能视觉生成系统提供了以能力为中心的视角。
彭博社透露苹果计划推出名为“AirPods Ultra”的新旗舰耳机,定位高于AirPods Pro 3(国行1899元)。其最大亮点是内置红外摄像头,用于配合iOS 27的新版Siri提供环境视觉信息,强化AI交互。交互方式将移除压感柄,改为摄像头识别的手势控制。音频方面预计搭载全新H3芯片,以降低延迟、提升音质并为AI功能提供算力。该产品可能于2026年秋季与iPhone 18系列一同发布。
本期IT早报主要内容包括:追觅科技CEO要求全体员工开通社交媒体账号并发布视频;OPPO计划下半年推出效仿苹果风格的四曲面设计手机;iPhone 18 Pro系列或将迎来史上最大相机硬件升级。此外,极越汽车关联主体进入合并重整程序,DeepSeek发布多模态模型技术报告,央视曝光部分充电头功率虚标,宇树发布起售价2.69万元的双臂人形机器人,比亚迪与高德地图达成充电合作,支付宝等17家支付机构牌照获续展,华为鸿蒙新版本占比提升,以及小米大屏旗舰手机预计5月下旬发布。
本文提出定制化多模态角色扮演任务,旨在统一模型中协同实现角色人格、对话风格与视觉身份的定制,并保持跨模态输出的一致性。研究构建了包含20个角色的RoleScape-20数据集,并开发了名为UniCharacter的两阶段训练框架,包含统一有监督微调与角色特定组相对策略优化。仅需10张图像及对应交互样例,模型即可习得目标角色特征,并在文本与图像生成中展现一致的角色表现,训练约需100 GPU小时。实验表明,该方法显著优于现有方案,消融研究验证了其跨模态一致性设计与小样本定制策略的有效性。
本文提出了首个针对真实世界自然场景表格图像的问答基准WildTableBench。该基准包含从在线论坛和网站收集的402张高信息密度表格图像,以及涵盖五大类别、17种子类型的928个人工标注验证问题。研究对21个前沿的专有和开源多模态基础模型进行了评估,结果显示仅有一个模型准确率超过50%,其余模型准确率介于4.1%至49.9%之间。诊断分析进一步揭示了模型在结构感知和数值推理方面存在的持续弱点。该基准为深入评估和提升表格图像理解能力提供了重要的诊断工具。
针对大型多模态模型后训练中SFT阶段引发的分布漂移问题,研究团队提出了PRISM三阶段流程。它在监督微调与强化学习验证奖励之间,新增了一个基于在线策略蒸馏的显式分布对齐阶段。该阶段将对齐构建为策略与混合专家判别器之间的黑盒对抗游戏,由感知和推理专家提供解耦的纠正信号。团队使用来自Gemini 3 Flash的11.3万条高保真演示进行对齐。在Qwen3-VL上的实验表明,PRISM能持续提升下游强化学习性能,使4B和8B模型在多个基准上的平均准确率较基线分别提升4.4和6.0个百分点。
BlenderRAG是一个检索增强生成系统,能够从自然语言描述自动生成可执行的Blender代码。该系统基于一个包含500个经专家验证的多模态样本(文本、代码、图像)的数据集,覆盖50种物体类别。在代码生成过程中,系统通过检索语义相似的示例来引导大语言模型,从而将四大前沿模型的代码编译成功率从40.8%显著提升至70.0%,并将语义对齐度(CLIP相似度)从0.41提高到0.77。该方法无需对模型进行微调或使用专用硬件,可立即部署使用。相关数据集和代码已在GitHub开源。
针对自回归大视觉语言模型在生成长序列时出现的“视觉信号稀释”问题,研究团队提出了轻量级可学习模块“持久视觉记忆”。该模块作为前馈网络的并行分支集成到模型中,建立了一个与生成长度无关的检索路径,能直接提供视觉嵌入以维持精确的视觉感知,从而从结构上缓解深度生成固有的信号抑制。在Qwen3-VL模型上的实验表明,该模块以极小的参数开销带来了显著的性能提升,在4B和8B规模上均实现了平均准确率的稳定增长,尤其在需要持续视觉感知的复杂推理任务中表现突出。
针对大型视觉语言模型普遍存在的幻觉问题,研究提出在线自校准框架OSCAR。该方法利用模型自身判别能力高于生成能力的特点,通过蒙特卡洛树搜索和双粒度奖励机制构建偏好数据,并采用直接偏好优化进行迭代训练。实验表明,OSCAR在多个幻觉基准测试中取得最优性能,同时提升了模型的通用多模态能力,避免了传统离线对齐方法中存在的监督-感知失配问题。
本文提出生成式语言-图像预训练框架GenLIP,为多模态大语言模型设计了一种极简的视觉Transformer预训练方法。该框架直接使用语言建模目标训练ViT,使其根据视觉token预测语言token,无需构建对比批次或额外文本解码器。其优势在于结构简单、数据和模型规模可扩展性强,并在多项多模态基准测试中取得有竞争力或更优的结果。基于Recap-DataComp-1B中80亿样本训练后,GenLIP在使用更少预训练数据的情况下达到或超越了强基线模型。进一步在多分辨率图像上持续预训练后,模型在OCR和图表理解等细节敏感任务上表现进一步提升。
本文提出Map2World,一个创新的3D世界生成框架。它允许用户根据任意形状与尺度的自定义分割地图来生成3D世界,确保了全局尺度一致性与大范围环境的布局灵活性。该方法通过一个细节增强器网络来生成精细场景细节,在融入全局结构信息的同时保持整体场景连贯性。整个流程利用资产生成器的强先验知识,即使在场景生成训练数据有限的情况下,也能实现跨领域的稳健泛化。实验表明,本方法在用户可控性、尺度一致性和内容连贯性上显著优于现有方法。
UniVidX是一个利用视频扩散模型先验的统一多模态视频生成框架。它将像素对齐任务统一为共享多模态空间中的条件生成,核心设计包括:随机条件掩码,实现全向条件生成;解耦门控LoRA,为各模态引入独立适配器以保留骨干网络先验;跨模态自注意力,通过共享键值促进模态间信息交换。该框架在两个领域实例化:UniVid-Intrinsic用于RGB视频及其内在属性图;UniVid-Alpha用于混合RGB视频及其RGBA分层。实验表明,即使在少于1000个视频的小数据集上训练,模型也能在多种任务上达到先进性能,并能稳健地泛化到真实场景。
Google正式发布Gemini Embedding 2统一嵌入模型,该模型能将文本、图像、视频、音频和文档映射到同一语义空间。开发者可通过单请求处理交织多模态输入,显著提升智能RAG、视觉搜索等内容审核任务的性能。模型支持超100种语言,并提供任务特定前缀和马特廖什卡降维等特性,为构建复杂AI智能体提供高效精准的基础。
DeepSeek发布了多模态大模型及技术报告,提出创新的“基于视觉原语的思考”框架。该框架将点、边界框等视觉元素作为推理的基本单元,旨在解决多模态模型在空间参照任务中存在的“参照鸿沟”核心问题,使模型能将抽象认知锚定到图像的具体坐标上。尽管模型规模紧凑且图像标记预算较低,其在多项挑战性计数和空间推理基准测试上的性能,可与GPT-5.4等前沿模型相媲美。
Qwen Studio 发布了一个集成了多种功能的综合平台。该平台的核心功能包括智能聊天机器人、图像与视频理解、图像生成以及文档处理。此外,它还整合了网络搜索能力,支持工具调用,并能生成可用的“工件”或成果物。这一系列功能旨在通过一个统一的界面,全面解码并释放人工智能在不同模态任务中的潜力。
索尼获批一项AI动态关卡生成专利。系统通过分析玩家行为判断其策略倾向(如潜行或进攻),并生成匹配的初始关卡。其核心是“反向挑战”机制:当玩家在擅长领域持续成功时,系统会切换关卡类型,针对其优势提出新挑战,以打破静态进度。同时,系统内置情绪监测,一旦检测到玩家过度受挫,会自动回调难度至适配其个人风格的状态。该技术旨在通过“支持-挑战-回调”的动态循环,平衡游戏挑战性与用户体验,防止玩家流失。
GLM-5V-Turbo是一个为多模态智能体设计的原生基础模型。其核心创新在于将多模态感知深度整合为推理、规划、工具使用和执行的核心组件,而非语言模型的附属接口。本报告概述了其在模型设计、多模态训练、强化学习、工具链扩展及与智能体框架集成等方面的系列改进。这些改进使其在多模态编码、视觉工具使用和基于框架的智能体任务中表现出色,同时保持了有竞争力的纯文本编码能力。开发过程强调了多模态感知的中心地位、分层优化方法以及可靠的端到端验证,为构建多模态智能体提供了实践启示。
FASH-iCNN是一个基于1991-2024年间15个品牌87,547张Vogue秀场图像训练的多模态系统,旨在将隐含的时尚美学逻辑转化为可检视的文化信号。该系统能根据服装图像识别其所属品牌、年代与色彩传统。纯服装模型在品牌识别上准确率达78.2%,年代识别达88.6%,特定年份识别为58.3%(平均误差仅2.2年)。分析表明,纹理与亮度是编辑身份的核心载体:移除颜色仅使品牌识别准确率下降10.6个百分点,而移除纹理则导致37.6个百分点的显著下降。该系统将编辑文化视作明确信号,揭示每个预测背后编码的特定品牌、编辑理念与历史时刻。
微软于4月29日宣布,为拥有Microsoft 365 Copilot许可的用户在Windows、macOS及iOS平台的OneNote应用推出AI功能更新。新版内置Copilot AI突破纯文本限制,新增对表格、图像及标签的理解与分析能力。例如在规划旅行时,AI可综合分析行程表格、检查清单和景点照片,智能排查行程漏洞并提供优化建议。该更新通过服务器端推送自动部署,用户无需手动更新,只需确保设备版本符合要求即可。
苹果计划在 iOS 27 版相机应用中新增 Siri 模式,整合 Visual Intelligence 功能。该模式将与现有拍照模式并列显示,使智能视觉能力更易访问。功能包括扫描食品营养标签记录卡路里数据并同步至健康应用,识别名片信息添加联系人,以及扫描活动门票和会员卡生成数字版本存入钱包。此前需长按按钮激活的隐蔽操作被直接集成,提升用户使用便捷性。
研究团队发布了EDU-CIRCUIT-HW数据集,包含1300多份大学STEM课程的真实学生手写解答。该研究利用专家核对的转录文本与评分报告,同步评估了多种多模态大语言模型的上游识别准确性与下游自动评分性能。评估发现,模型识别的手写内容中存在大量潜在错误,表明其在高风险教育场景中用于自动评分等理解型任务的可靠性不足。一项案例研究表明,通过识别错误模式进行预先检测与纠正,仅需极少人工干预(例如将3.3%的作业交由人工评分),即可有效提升AI评分系统的鲁棒性。代码与数据集已开源。
当前多模态大语言模型在交互范式上存在瓶颈,感知与响应分离且缺乏主动性。MiniCPM-o 4.5 通过 Omni-Flow 统一流式框架,将多模态输入输出对齐到共享时间轴,实现实时全双工全模态交互,支持同时感知与响应,并能基于对动态场景的连续理解主动发出提醒或评论。该模型参数量为 90 亿,在视觉语言能力上接近 Gemini 2.5 Flash,在全模态理解上超越 Qwen3-Omni-30B-A3B,且语音生成更优、计算效率显著更高。得益于高效的架构设计和推理优化,模型可在内存小于 12GB 的边缘设备上实现实时全双工全模态交互。
现有驾驶世界模型多专注于未来场景生成,而大语言模型虽具推理能力却无法预测几何演变,导致语义理解与物理模拟之间存在鸿沟。为此,我们提出HERMES++,一个将3D场景理解与未来几何预测集成于单一框架的统一模型。其核心设计包括:利用BEV表征整合多视角空间信息;引入LLM增强的世界查询以促进知识迁移;设计“当前-未来链接”来弥合时序差距,使几何演变基于语义上下文;以及采用联合几何优化策略,整合显式约束与隐式正则化以确保结构完整性。在多个基准测试中,HERMES++在未来的点云预测和3D场景理解任务上均超越专用方法,展现出卓越性能。模型与代码已开源。
Haiku是一个基于多重免疫荧光数据训练的三模态对比学习模型,整合了空间蛋白质组、H&E组织病理图像和临床数据。该模型在来自1,606名患者、涵盖11种器官类型的3,218个组织切片上训练,实现了三模态跨模态检索,在下游分类、生存预测等任务中超越单模态基线。其创新性在于支持仅通过临床文本描述进行零样本生物标志物推断,并引入反事实预测框架,能在固定组织形态下通过修改临床元数据揭示与癌症进展相关的微环境分子变化,为连接分子测量与临床背景提供了系统分析工具。
研究团队开发了一套手语伪标注流程,以解决高质量标注数据匮乏对AI手语翻译发展的限制。该流程以手语视频和英文文本为输入,输出包括时间区间在内的可能注释排序集合,涵盖手势词、手指拼写单词和手语分类器。新发布的ASL STEM Wiki和FLEURS-ASL等数据集虽包含数百小时专业译员数据,但因标注成本过高仅实现部分标注。该自举方法旨在显著提升大规模手语数据的利用效率。
本月发布聚焦视频生成、工作空间、智能体SDK与重排序模型。多家公司推出前沿大模型,包括GPT、Claude和LLaMA系列的新版本。核心变化体现在模型多模态能力增强,特别是视频生成功能成为竞争焦点。部分新模型在标准基准测试中性能提升超过15%,同时上下文窗口扩展至百万token级别。开发者工具方面,新的智能体SDK支持更复杂的任务编排,而重排序模型显著提升了检索精度。
据报道,苹果正加速研发其首款智能眼镜,预计与Meta Ray-Bans等产品竞争。该产品定位并非完整AR设备,核心聚焦于拍摄、语音助手和手势控制。硬件上配备两颗摄像头:高分辨率主摄用于拍照录像,低分辨率广角镜头则用于手势识别并为Siri提供环境视觉。为保障续航与轻薄,眼镜不内置显示屏及LiDAR等模块,并采用醋酸纤维材料提升佩戴舒适度。系统将搭载更智能的Siri,支持拍照、通话及环境交互。产品可能于2026年晚些时候预览,2027年正式上市。
微信朋友圈正进行灰度改版,将文字描述移至配图上方,并新增“时间轴相册”入口。追觅正式回应造车质疑,宣布其高端新能源品牌“星空计划”首款概念车零百加速0.9秒,采用“华为模式”合作造车,量产车计划于2027年上市。小米下一代自研芯片“玄戒O3”信息曝光,主频突破4GHz。DeepSeek大模型正灰度测试具备多模态识别能力的“识图模式”。此外,比亚迪方程豹钛7 EV闪充版上市,福特改装版Mustang创下全美400米加速最快电车纪录。
AI推理市场正快速分化,各模态如文本、图像、视频和音频发展出独立推理技术栈。自ChatGPT发布后,NVIDIA数据中心收入三年内增长17倍,凸显市场爆发。分化根本原因在于工作负载差异:图像视频生成需高计算力,长上下文消耗更多内存,边缘设备则受功耗限制。市场按延迟分为实时、近实时和批量三层;按模态分为文本、图像视频音频;按部署分为云端和边缘。Hugging Face上已有超9万个图像生成模型,整个AI推理市场规模预计约1000亿美元,这种专业化趋势正为各细分领域创造领导者机会。
Nvidia 发布了开源多模态模型 Nemotron 3 Nano Omni,该模型能够处理文本、图像、视频和音频。其引人关注之处不仅在于性能表现,更在于其训练数据的构成。模型的部分训练数据来源于 Qwen、GPT-OSS、Kimi 和 DeepSeek OCR 等多个知名项目,这揭示了构建现代多模态模型所需数据集的多样性与复杂性。
DeepSeek已灰度测试“识图模式”,新增多模态图片理解功能,用户可上传图片并获取描述。该模式与“快速模式”“专家模式”并列,并非简单OCR文字识别。部分测试用户反馈响应速度很快,类似flash;但亦有用户遇到“识图模式暂不可用”提示。网络响应内容显示该功能模型类型为“vision”,状态为“图片理解功能内测中”。
Anthropic公司发布了Claude for Creative Work,这是其AI助手Claude的创意专用版本,专注于优化创意任务。该发布在Hacker News上获得102点社区评分,显示高度关注。新工具增强了创意能力,包括改进的文本生成、构思辅助和设计支持,旨在提升写作、艺术、营销等领域的效率和质量。