5月29日

16:30

HuggingFace Daily Papers（社区热门论文）

自监督视觉模型与扩散模型提取的2D基础特征在语义对应任务中有效，但缺乏显式3D意识，易混淆对称物体的两侧、重复部件及视觉相似结构。新框架引入3D基础模型先验，使用SAM3D估计物体几何与位姿，并通过渲染比较优化进行细化。随后，基于估计位姿将PartField描述符从重建几何渲染至图像平面，生成几何感知特征图以补充DINO与Stable Diffusion特征，同时利用重建形状上的测地距离可靠过滤候选对应。该方法以过滤后的匹配为监督，训练一个轻量级适配器。与以往依赖位姿标注和粗略几何的后训练方法不同，此框架自动获取实例级3D结构并用于指导对应学习。实验表明，该方法在减少人工几何监督的同时提升了语义对应性能。

arXiv GitHub 多模态论文/研究

15:43

公众号：腾讯元宝

元宝助手正式入驻QQ浏览器，底层模型升级至Hy3 preview

元宝助手正式入驻QQ浏览器，搜索栏、划词等AI入口全面升级为元宝助手，底层模型同步升级至Hy3 preview。新功能包括搜索栏唤起提问、跨标签读取多个网页与文件、拍照搜题分步解析、长网页一键转音频，以及写作、改文章、出图等。元宝助手已同步嵌入微信、腾讯会议、QQ音乐等腾讯系应用，Mac版本已更新，其他版本逐步放量。

产品更新多模态搜索

14:30

HuggingFace Daily Papers（社区热门论文）

面向可验证的多模态深度研究：一个用于交错式报告生成的多智能体框架

大语言模型已将智能体从深度搜索推进至能生成长篇报告的深度研究。然而，可验证的多模态深度研究仍面临挑战。为此，研究提出了Ptah，一个多智能体框架。它通过规划、研究和写作阶段，协调从用户查询到网页报告的生成全流程，其中智能体负责构建计划、收集证据并维护视觉记忆。一个验证智能体确保整个流程的事实依据和跨模态一致性。研究还引入了PtahEval评估协议。实验表明，Ptah能生成比基线更可靠、视觉信息更丰富、更实用的多模态报告。

智能体 arXiv 多模态论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

同事件精选70

Qwen-VLA：统一跨任务、环境与机器人形态的视觉-语言-动作建模

Qwen-VLA是一个统一的具身基础模型，将Qwen的视觉-语言建模从感知、理解与推理扩展至连续动作和轨迹生成。它通过基于DiT的动作解码器实现，使用包含机器人操作轨迹、人类第一人称示范、仿真及导航数据等在内的大规模数据进行联合预训练。为支持多种平台，引入了感知载体感知的提示条件机制，并将操作、导航与轨迹预测统一到一个框架中。实验显示，Qwen-VLA-Instruct在多个基准上表现优异，例如在LIBERO达到97.9%，在真实世界ALOHA实验中平均分布外成功率为76.9%。

具身智能多模态论文/研究

同一事件，精选展示《Qwen-VLA：从理解世界到付诸行动》

推荐理由：Qwen-VLA 让一个模型同时搞定操作、导航和轨迹，在具身智能统一化上迈出了关键一步。虽然还停在实验室阶段，但 97.9% LIBERO 和真实世界泛化结果证明这条路走得通，做机器人的值得认真读。