5月18日

08:00

HuggingFace Daily Papers（社区热门论文）

LatentUMM 是一个旨在提升统一多模态模型（UMMs）跨模态一致性的框架。研究指出，模型在理解与生成功能间的不一致，根源并非缺乏共享表征，而是映射到和出潜在空间的变换缺乏显式对齐。该框架包含两个阶段：第一阶段进行双潜在对齐，在模态层面使用更强的嵌入模型施加跨模态语义约束，在容量层面强制双向一致性；第二阶段通过随机潜在展开和偏好优化来稳定潜在动态，以保留更好的语义一致性。实验表明，LatentUMM 在不同架构上均能持续提升多模态一致性。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

See What I Mean：对齐视觉与语言表示以实现视频细粒度对象理解

本文提出SWIM（See What I Mean）训练策略，旨在使模型仅通过文本提示即可实现细粒度对象理解，无需显式的视觉提示（如掩码或点）。研究分析发现，预训练多模态大语言模型（MLLMs）的跨模态注意力存在系统性偏差：属性词在视觉模态产生清晰、局部的激活，而物体名词的模式则较为弥散。为解决此问题，研究构建了NL-Refer数据集。SWIM通过提取物体名词的多层交叉注意力图并与真实掩码进行空间一致性约束。实验表明，该方法显著提升了文本-视觉对齐，在相关基准测试上优于基于视觉提示的方法。代码与数据已开源。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

OmniPro：全模态主动流式视频理解综合基准

OmniPro是首个联合评估全模态感知、主动响应和多样化视频理解任务的基准。它包含2700个人工验证样本，覆盖9个子任务、3个认知层级和6项基础能力，其中84%样本依赖语音或非语音音频信号，并标注模态隔离标签。该基准引入探测和在线双模式评估协议，以全面测试内容理解和主动能力。对11个模型的评估揭示：音频信号能提升性能但模型利用效率差异大；性能随时间下降，长程鲁棒性不足；非语音音频感知仍是当前最薄弱环节。

多模态视频论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

Stable Audio 3

Stability AI 发布了名为 Stable Audio 3 的快速潜在扩散模型家族，包含小、中、大三个版本，专注于可变长度音频的生成与编辑。该模型能够生成数分钟长的音频，并支持修复功能，可对音频进行针对性编辑或续写短录音。其核心是新型语义声学自编码器，能将音频映射至紧凑潜在空间，在保证高保真度的同时鼓励语义结构形成。通过对抗性后训练，模型在加速推理、减少步骤数的同时提升了音频质量和提示词遵循度。该模型基于授权及 Creative Commons 数据训练，在 H200 GPU 上生成音频耗时不足 2 秒，在 MacBook Pro M4 上仅需数秒。目前，官方已开源可在消费级硬件运行的小型和中型模型权重及其训练推理流程。

arXiv 多模态端侧论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

大型音频语言模型：泛化、可信度与展望

本综述探讨了大型音频语言模型在推动通用听觉智能方面的进展与挑战。文章指出，其能力提升速度已远超可信框架的构建，通过端到端架构和连续声学信号整合，攻击面显著扩大。研究建立了涵盖跨模态越狱、潜在声学后门及生物特征隐私泄露的信任度风险分类体系，并从幻觉、鲁棒性、安全、隐私、公平与认证六个维度进行评估，揭示了成熟攻击手段与不足防御之间的严重失衡。为此，报告提出采用“纵深防御”架构、因果听觉世界建模及内在表征工程等路径，以弥合性能与可信智能间的差距。相关项目已在GitHub公开。

arXiv 多模态安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ESI-Bench：迈向闭合感知-行动循环的具身空间智能

研究提出了ESI-Bench基准，用于评估具身空间智能。该基准基于OmniGibson平台，涵盖10个任务类别，要求智能体主动决策以调动感知、移动和操作能力，在交互中收集证据。实验表明，主动探索显著优于被动观察，但随机多视角采集常引入噪声。研究发现，模型失败主因是“动作盲目”，即不佳的动作选择导致观测质量低下并引发连锁错误。尽管显式3D表征对深度推理有稳定作用，但不完美的3D表示会扭曲空间关系，效果反而差于2D基线。人类研究进一步揭示，与人类基于证据修正信念不同，模型倾向于过早做出高置信度决策，暴露了仅靠改进感知或交互无法弥合的元认知差距。

arXiv 具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

面向统一多模态模型的语义生成调优

为解决统一多模态模型中视觉理解与生成任务训练脱节的问题，本文首次系统性地探索了生成式后训练方法，并提出“语义生成调优”范式。研究发现，以图像分割为代表的高层语义任务，可作为有效的生成代理，显著弥合理解与生成之间的隔阂；而低层纹理任务反而会干扰模型。该方法通过分割任务生成结构化语义，来对齐和协同多模态能力。机制分析表明，SGT能提升特征线性可分性并优化注意力分配。实验显示，SGT在主流基准测试中持续提高了模型的多模态理解能力与生成保真度。

arXiv 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Aurora：基于工具使用智能体的统一视频编辑框架

小米团队推出的Aurora是一个智能体驱动的视频编辑框架。它通过将工具增强的视觉语言模型（VLM）智能体与统一的视频扩散转换器相结合，能够将用户模糊或不完整的编辑请求，转化为结构化的编辑计划，从而有效解决现实场景中常见的信息不足或空间定位不清等问题。该框架通过监督与偏好数据训练VLM智能体，使其可完成完整的编辑规划、参考图选择及指令优化。引入的AgentEdit-Bench基准测试表明，Aurora在多项任务上优于仅依赖指令的基线模型，且该智能体具有良好的可迁移性。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Artifact-Bench：评估MLLMs在检测与评估AI生成视频瑕疵方面的表现

研究团队提出了Artifact-Bench，一个用于评估多模态大语言模型（MLLMs）检测与分析AI生成视频瑕疵能力的综合基准。该基准构建了一个涵盖写实、动画和CG风格视频的三级真实感瑕疵分类体系，并在此基础上定义了三项任务：真实与AI生成视频分类、成对真实感比较、细粒度瑕疵识别。对19个主流MLLMs的实验表明，这些模型在瑕疵感知与推理上存在显著局限，许多模型在挑战性场景中表现接近甚至低于随机水平，且其判断与人类感知偏好存在明显偏差，凸显了其作为通用AI视频真实感评估器的可靠性不足。

arXiv 多模态视频论文/研究

5月17日

21:43

Google DeepMind：Blog（RSS）

精选63

让了解网络内容的创建和编辑过程变得更简单

平台宣布扩展其内容透明工具，旨在让用户更便捷地追溯网络内容的创建与编辑历史。这项更新将适用于社交媒体平台、网页内容等多个场景，帮助用户识别信息的修改痕迹，提升数字内容的透明度。

Google 产品更新多模态安全/对齐

推荐理由：Google 把 SynthID 水印和 C2PA 凭证推向搜索、Chrome 和 API，普通人也能随手查「这是 AI 做的吗？」，这对虚假信息是实际的约束。

21:32

The Decoder：AI News（RSS）

World Action Models 让机器人在行动前能够模拟后果

World Action Models 旨在解决当前机器人AI的一个根本弱点：传统模型仅学习动作与摄像头图像的匹配，而无法理解动作如何导致世界状态变化。一项新研究梳理了约百篇论文，归纳出两种架构路径。其关键优势在于，这些模型能从不含机器人动作标签的日常视频中学习，而此类数据对传统机器人AI几乎无用。这使机器人具备了在行动前模拟后果的能力。

具身智能多模态论文/研究

16:44

IT之家（RSS）

AMD 游戏引擎专利曝光：画个草图 AI 就能帮你做游戏

AMD一项名为“基于人工智能的游戏与渲染引擎”的专利曝光，计划推出一款完全依托AI打造的游戏引擎。该引擎旨在通过神经外推、智能超采样等技术，在生成逼真游戏画面的同时大幅降低算力消耗。其核心特点是允许开发者仅绘制简易草图轮廓，AI便能据此从零生成精细的游戏画面与内容，可承接传统游戏引擎的各类运算处理工作。目前该技术具体开放时间未定，但展现了AI颠覆游戏开发流程的潜力。

图像生成多模态行业动态

15:59

The Decoder：AI News（RSS）

Oppo 开源 Android AI 代理 X-OmniClaw，无需离开手机即可调用摄像头、屏幕与语音

Oppo 的 Multi-X 团队发布了开源 AI 代理 X-OmniClaw，该代理可直接在 Android 设备上运行。它整合摄像头、屏幕和语音输入，在真实应用程序中实时处理任务。系统主要依赖本地传感器执行操作，仅将推理任务交由云端计算。用户的操作路径可被克隆为可复用技能，代理下次能通过深度链接直接跳转到应用深层页面，无需重复操作。

智能体多模态开源/仓库端侧

10:44

IT之家（RSS）

小米 YU7 全新配色"火山灰"官图公布，5 月底发布

小米 YU7 汽车全新配色“火山灰”官图公布，灵感源于晨雾下的火山地貌。该配色采用高纯度灰调设计，叠加纳米级矿物颗粒，呈现细腻而有层次的金属质感，风格沉稳内敛。实车已陆续进店，覆盖全国361家门店。新车计划于5月底正式发布。

其他多模态

08:00

HuggingFace Daily Papers（社区热门论文）

Soap2Soap：基于多智能体协作的长片电影级视频重制

Soap2Soap是一个用于系列级长视频重制的多智能体框架，旨在解决其中的身份漂移、背景突变与语义侵蚀等问题。该框架通过一个双桥一致性机制来维持长期一致性：使用场景感知的JSON剧本作为持久的语义骨架，并在场景和镜头层级动态分配视觉参考锚点。它通过批量关键帧一致性技术在合成前抑制漂移，并利用闭环验证智能体对身份、稳定性和对齐进行审计。实验表明，该方法在长程一致性与叙事保真度上显著优于商业视频生成API。

智能体 arXiv 多模态视频

08:00

HuggingFace Daily Papers（社区热门论文）

全双工多模态交互评估基准

现有研究缺乏对实时双工全模态交互的系统评估。为此，本文提出Omni-DuplexEval基准，包含660个带人工标注的视频，涵盖实时描述和主动提醒两大场景共9个现实任务，所有问题均为开放式。研究同时引入了基于LLM-as-a-Judge的自动评估框架，能够联合评估响应内容与时机。实验表明，当前最优模型在主动提醒任务上表现不佳，最佳模型总体得分仅39.6%，揭示了模型在协调响应时机与内容质量方面的核心挑战。

arXiv 多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

LiteFrame：提升视频大语言模型帧处理能力的高效视觉编码器

针对视频大语言模型处理长视频时视觉Token激增的瓶颈，本文指出传统后处理式压缩将延迟转移到了视觉编码器。为此，我们提出了LiteFrame，一种高效视觉编码器。其核心是压缩Token蒸馏训练框架，指导一个紧凑的学生模型直接预测大教师模型生成的高密度时空压缩表示，从而避免冗余计算。结合语言模型适配后，该方案构建了新的延迟-精度帕累托前沿：与基线相比，它将端到端延迟降低了35%，可处理帧数提升8倍，同时在多个基准上提高了视频理解的平均准确率，为固定算力下理解更长视频提供了新途径。

多模态视频论文/研究

5月16日

18:42

IT之家（RSS）

刘伟：米哈游在 AI 方面投入规模"3 年最多 1000 亿"，如果没成算放一个大烟花

米哈游创始人刘伟透露，公司计划在未来三年内投入最多1000亿元用于AI基础大模型研发，并称即使失败也当作“放一个大烟花”。他强调，坚定投入算力与规模是打造顶级模型的必要条件。刘伟认为，AI将推动游戏体验走向“完全个性化”，实现“千人千面”，即游戏能实时生成定制内容，为每位玩家提供独特体验。他预计三年内此类游戏将出现，米哈游正朝此方向探索。

多模态大佬观点

09:01

Hacker News 热门（buzzing.cc 中文翻译）

伦敦警方首次在抗议活动中部署人脸识别技术

伦敦警方在抗议活动中首次部署实时人脸识别技术。该系统通过监控车顶摄像头扫描人群，并与警方监视名单进行比对，名单包含因严重暴力犯罪被通缉或曾伤害警察的人员。一旦匹配，警方将进行拦截和身份核查。此举旨在预防犯罪，但引发了对隐私权、集会自由及技术准确性的担忧。批评者指出该技术存在偏见和误认风险，并可能对公众权利产生“寒蝉效应”。

多模态政策/监管

08:00

HuggingFace Daily Papers（社区热门论文）

EVA01：基于Mixture-of-Transformers的统一原生3D理解与生成框架

论文提出EVA01框架，扩展多模态大语言模型以原生方式整合3D网格理解、生成和上下文感知编辑。它基于Mixture-of-Transformers架构，将模型解耦为预训练的理解专家和结构镜像的生成专家，通过共享的全局自注意力与硬模态路由进行耦合。结果显示，EVA01在文本到3D生成保真度上达到最先进水平，并解锁了具有身份保持能力的鲁棒长上下文多轮几何编辑功能，这是无状态重建流程无法实现的。

arXiv 图像生成多模态论文/研究

06:50

Google DeepMind：Blog（RSS）

精选75

Gemini 3.5：具备行动能力的前沿智能

Google发布了Gemini 3.5模型，该模型专注于提升执行复杂任务的能力。其核心特点是支持“代理式工作流”，即能够像助手一样自主规划并执行一系列多步骤、复杂的操作，旨在将先进的语言理解与实际问题解决能力相结合。

智能体 DeepMind Google 多模态

关联讨论 19 条

推荐理由：Gemini 3.5 Flash 把前沿级智能体和编程能力塞进了极低延迟和成本，四倍于竞品速度的同时基准表现超过 3.1 Pro，这可能是今年对开发者最实用的基座模型之一。

06:31

Hacker News 热门（buzzing.cc 中文翻译）

Image-blaster：仅凭一张图片即可生成3D场景、特效和网格

Image-blaster是一款开源工具，能够仅凭单张输入图片自动生成对应的3D场景、特效和网格模型。该项目已在GitHub平台发布，获得了开发者社区的关注，在Hacker News上收获了102个投票。这一技术简化了3D内容创作流程，有望降低相关领域的制作门槛。

图像生成多模态开源/仓库

5月15日

20:42

IT之家（RSS）

光帆科技旗下"行业首款带摄像头 AI 耳机"正式发布，首发价 1799 元起

光帆科技发布行业首款搭载摄像头的AI耳机——光帆全感AI耳机。该产品单耳重11克，采用开放式耳挂设计，双侧配备200万像素双目摄像头，可实时识别环境并提供主动智能服务。其耳机盒集成指纹解锁与4G eSIM模块，支持脱离手机独立使用。续航方面，耳机通话可达9小时，音乐播放15小时，配合充电盒总续航至高90小时。产品提供多种套装，耳机本体首发价1799元起。

产品更新多模态

17:49

HuggingFace Daily Papers（社区热门论文）

ViMU：视频隐喻理解基准测试

研究团队推出了首个系统评估前沿模型视频潜文本理解能力的基准ViMU。该基准旨在测试视频理解模型能否超越对物体、动作等表层内容的识别，推断视频中蕴含的隐喻、讽刺与社会意义。ViMU要求模型基于多模态证据进行推理，回答开放式与选择题，且所有问题均设计为无提示类型，确保模型在作答前无法获取关键证据。这标志着视频理解评估从字面感知迈向深层语义解读的重要一步。

arXiv 多模态论文/研究

17:42

IT之家（RSS）

华为 896 线激光雷达太贵！余承东曾想挑战用摄像头实现小物体识别避障功能，但因后者能力有限放弃

在鸿蒙智行智界V9发布会上，华为展示了乾崑896线双光路图像级激光雷达。这是全球量产线束规格最高的激光雷达，单帧点云量是128线雷达的7倍，使车辆感知迈入“图像级”。它能精准识别路面石块等异形障碍物并主动避让，对14厘米高度物体的远距离识别、低反射率目标识别距离提升190%，异型障碍物识别距离提升77%。余承东坦言该雷达成本高昂，曾考虑仅用摄像头实现类似功能，但发现摄像头能力有限，无法及早识别小物体。华为的目标是超越人类驾驶员的安全水平。

多模态端侧行业动态

16:42

IT之家（RSS）

余承东官宣鸿蒙智行旗舰 MPV 智界 V9 首批升级华为乾崑智驾 ADS 5，全系标配 38 个传感器

在鸿蒙智行首款旗舰 MPV 智界 V9 发布会上，华为余承东宣布该车型将首批升级华为乾崑智驾 ADS 5。智界 V9 全系标配 38 个传感器，可智能判断道路场景并自主操作，支持 60 EFLOPS 云端 AI 算力、WEWA 2.0 架构和 6 重冗余系统。自 4 月 22 日预售以来，车辆小定量已突破 40000 台，共推出四款配置，价格区间为 39.98 万至 52.98 万元。

产品更新多模态端侧

16:42

IT之家（RSS）

中国信通院启动人工智能终端智能化分级测试工作，涉及手机、电脑、眼镜、电视、汽车座舱等

中国信通院近日启动首轮人工智能终端智能化分级标准符合性检测，测试时间为2026年5月13日至6月30日。该测试依据新发布的《人工智能终端智能化分级》国家标准，该标准将终端智能化水平划分为L1至L4四个等级，智能化依次提高。测试覆盖手机、电脑、电视、眼镜、汽车座舱、音箱和耳机等七类产品。标准采用“2+N”架构，由小米、华为等企业参与起草，旨在推动人工智能终端生态安全有序发展。

多模态政策/监管端侧行业动态

13:49

HuggingFace Daily Papers（社区热门论文）

通过闭环验证推理解锁复杂视觉生成

针对文本到图像模型在复杂语义生成上的局限，研究团队提出了闭环视觉推理框架。该框架通过自动数据引擎进行步骤级视觉验证，合成可靠推理轨迹，并采用代理提示强化学习解决长上下文优化不稳定问题。为降低迭代去噪导致的高延迟，框架引入Δ-Space权重合并方法，将每步推理成本降至仅需4次噪声估计前向传播。实验表明，该框架在多项基准测试中超越现有开源模型，性能接近专有商业模型，实现了复杂视觉生成的通用测试时扩展能力。

图像生成多模态推理论文/研究

11:49

HuggingFace Daily Papers（社区热门论文）

SANA-WM：高效的分钟级世界模型，实现高清长视频生成与精准相机控制

SANA-WM是一个26亿参数的高效开源世界模型，专为生成一分钟720p高清视频设计，具备精确的6自由度相机控制能力。其核心创新包括：混合线性注意力机制实现高效长上下文建模；双分支相机控制确保轨迹精准跟随；两阶段生成流程提升视频质量与一致性；以及从公开视频中提取精确位姿的鲁棒标注流程。该模型仅使用约21.3万个视频片段训练，在单GPU上即可生成60秒视频，其量化蒸馏版本在RTX 5090上仅需34秒完成去噪。在基准测试中，其动作跟随准确性优于先前开源基线，并在保持相当画质的同时，吞吐量提升36倍。

具身智能多模态视频论文/研究

11:49

HuggingFace Daily Papers（社区热门论文）

合成分层设计数据能否提升分层设计解构效果？

本研究探讨纯合成数据对平面设计分层解构的效用。基于前沿的CLD框架，团队构建了合成数据集SynLayers，并利用视觉语言模型生成文本监督与自动化推断输入。关键发现包括：纯合成数据训练效果优于PrismLayersPro等非可扩展方案；性能随数据规模增加持续提升，在约5万样本处增益趋于饱和；合成数据能平衡控制图层数量分布，避免现实数据中的图层失衡问题。这项以数据为中心的研究为可扩展的分层设计编辑系统提供了实践基础。

arXiv 图像生成多模态论文/研究

11:49

HuggingFace Daily Papers（社区热门论文）

DiffusionOPD：扩散模型中在线策略蒸馏的统一视角

DiffusionOPD 提出一种基于在线策略蒸馏的扩散模型多任务训练范式，以解决多任务强化学习中的交叉干扰与失衡问题。该方法先独立训练任务专属教师模型，再沿学生自身采样轨迹将能力蒸馏至统一学生，从而解耦单任务探索与多任务整合。理论层面，研究将 OPD 框架从离散标记推广至连续状态马尔可夫过程，推导出闭式逐步 KL 目标，通过均值匹配统一随机 SDE 与确定性 ODE 优化，其解析梯度相比传统 PPO 类策略梯度具有更低方差与更好泛化性。实验表明，DiffusionOPD 在训练效率和最终性能上均超越多奖励强化学习与级联强化学习基线，并在全部评估基准上取得领先结果。

arXiv 多模态数据/训练论文/研究

11:49

HuggingFace Daily Papers（社区热门论文）

MemLens：大型视觉语言模型多模态长时记忆基准测试

研究团队推出MEMLENS基准，系统评估大型视觉语言模型在多模态多轮对话中的长时记忆能力。该基准包含789个问题，涵盖五大记忆能力，并在四种标准上下文长度下测试。评估27个长上下文模型和7个记忆增强代理后发现：长上下文模型在短对话中表现良好但随对话延长性能下降；记忆代理长度稳定性好但损失视觉保真度。多轮推理任务将多数系统性能限制在30%以下，表明需结合长上下文注意力与结构化多模态检索的混合架构。

多模态论文/研究评测/基准

11:02

蚂蚁 inclusionAI：HuggingFace 新模型

精选56

蚂蚁集团提出 ARGenSeg-8B：基于自回归图像生成模型的图像分割框架

蚂蚁集团推出 ARGenSeg-8B，一种将多模态理解与像素级感知统一的自回归图像生成分割框架。它利用多模态大语言模型（MLLM）输出视觉 token，并通过通用 VQ-VAE 解码为分割掩码，使分割完全依赖 MLLM 的像素级理解。采用 next-scale-prediction 策略并行生成视觉 token，降低推理延迟。在多个分割数据集上超越此前最优方法，推理速度显著提升。论文已被 NeurIPS 2025 接收，模型已发布在 HuggingFace。

Hugging Face 多模态开源/仓库模型发布

推荐理由：蚂蚁提出用自回归生成做分割，把理解和像素级感知统一到一个框架里，多个数据集SOTA且速度更快，做CV的值得看看。

10:48

HuggingFace Daily Papers（社区热门论文）

PhyMotion：面向物理基础人体视频生成的结构化3D运动奖励机制

针对视频生成中人体运动真实性评估的难题，本研究提出PhyMotion，一种结构化细粒度运动奖励机制。该方法从生成视频中恢复3D人体网格，并将其置于MuJoCo物理模拟器中，从运动学合理性、接触平衡一致性与动态可行性三个维度进行综合评估。实验表明，PhyMotion与人类判断的相关性优于现有奖励模型。在基于强化学习的后训练中，优化该奖励能显著提升自回归与双向视频生成器的运动真实感，在自动指标与人类盲测中均取得改进（Elo增益+68），且各评估维度提供互补信号，训练开销适度。

多模态论文/研究

10:48

HuggingFace Daily Papers（社区热门论文）

ATLAS：一个功能词元，兼作智能体操作与潜在视觉推理单元

针对视觉推理中直接生成图像计算成本高、代理方法存在切换延迟、潜在方法泛化性差等问题，本研究提出ATLAS框架。其核心是引入“功能词元”这一离散单元，它同时作为智能体操作和潜在视觉推理单元。每个词元对应一个内化的视觉操作，无需视觉监督，仍作为标准词元存在于词表中，可通过下一词元预测生成。这避免了生成冗余的中间视觉内容，且与标准的可扩展SFT和RL训练兼容。为应对RL中功能词元的稀疏性问题，研究引入了潜在锚定GRPO（LA-GRPO）以稳定训练。实验表明，ATLAS在多项挑战性基准测试中取得了优异性能，并保持了良好的可解释性。

arXiv MCP/工具多模态推理

10:48

HuggingFace Daily Papers（社区热门论文）

MemEye：面向多模态智能体长期记忆的视觉中心化评估框架

针对多模态智能体长期记忆评估中视觉证据留存与使用不足的问题，本文提出MemEye评估框架。该框架从视觉证据粒度（场景级至像素级）与证据使用方式（单一至演化合成）两个维度构建评估体系，并建立了涵盖8个生活场景任务的新基准。通过对13种记忆方法与4种视觉语言模型的评估，研究发现现有架构在保留细粒度视觉细节及对状态变化进行时序推理方面仍存在困难。结果表明，有效的长期多模态记忆依赖于证据路由、时序跟踪与细节提取能力。

智能体 arXiv 多模态论文/研究

09:41

IT之家（RSS）

AI 音乐应用 Suno 上线苹果 CarPlay，丰富你的驾车听歌体验

本周，AI音乐生成应用Suno与聚合电台应用Zeno Radio正式登陆苹果CarPlay平台。Suno允许用户通过文字提示生成完整音乐，其CarPlay界面分为“资料库”和“探索”两部分，便于播放个人作品及社区内容。Zeno Radio则聚合了传统电台与播客，涵盖音乐、新闻、儿童节目等多种分类。这两款新应用标志着CarPlay第三方生态持续扩展，为驾驶场景提供了更丰富的音频创作与收听选择。

产品更新多模态

08:00

HuggingFace Daily Papers（社区热门论文）

VideoSeeker：通过原生代理工具调用激励实例级视频理解

VideoSeeker是一种新范式，旨在解决大型视觉语言模型在视频实例级时空定位上精度不足、依赖文本提示且感知与推理割裂的问题。该范式通过视觉提示和代理推理，使模型能按需主动感知并检索相关视频片段。研究构建了四阶段全自动数据合成流水线以生成高质量数据，并通过冷启动监督和强化学习内化工具调用与主动感知能力。实验显示，模型在实例级视频理解任务上平均性能提升13.7%，超越GPT-4o等闭源模型，且在通用视频基准上展现可迁移性，相关数据集与代码将开源。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

GRASP：基于多人非语言交互的社会推理学习

针对多模态大语言模型在多人视频中难以识别交互关系的问题，研究团队提出了GRASP数据集。该数据集包含29万个问答对，源自4.6万个视频共749小时，建立了涵盖注视、指示性手势及其组合推理的16类分类体系。同时发布配套评估基准GRASP-Bench，并提出社会情境奖励学习信号，利用这些细粒度事件引导模型推理交互参与者。实验表明，该方法提升了GRASP-Bench性能，并保持了在相关视频问答基准上的零样本能力。

多模态推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

使用稀疏自编码器实现CLIP模型的鲁棒和可解释微调

针对CLIP在微调时易因分布偏移而鲁棒性下降的问题，本文提出SAE-FT方法。该方法仅作用于视觉表征，利用稀疏自编码器识别预训练模型中的语义特征，并在微调中约束这些特征的变化，从而在防止灾难性遗忘的同时提升可解释性。实验表明，SAE-FT计算高效且透明，在ImageNet及相关分布偏移基准上达到或超越现有最优性能，代码已公开。

arXiv 多模态数据/训练论文/研究