全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「多模态」清除

5月16日周六

17:08Rohan Paul46AI伴侣机器人实现拟人化情感交互

10:42AYi76xAI将Grok集成至Hermes Agent，用户可零成本扩展AI能力

09:01Hacker News 热门（buzzing.cc 中文翻译）57伦敦警方首次在抗议活动中部署人脸识别技术

08:54ginobefun62BestBlogs 早报 · 2026-05-16 · AI 工程方法 / Abridge 医疗智能层 / Imagen 2.0

08:54ginobefun46#BestBlogs 早报 2026-05-16：AI作为深度协作的"思考伙伴"

08:00HuggingFace Daily Papers（社区热门论文）49EVA01：基于Mixture-of-Transformers的统一原生3D理解与生成框架

06:50Google DeepMind：Blog（RSS）75精选Gemini 3.5：具备行动能力的前沿智能

06:31Hacker News 热门（buzzing.cc 中文翻译）64Image-blaster：仅凭一张图片即可生成3D场景、特效和网格

04:09DogeDesigner69Grok 现可直接连接开源自我提升代理 Hermes Agent

02:05Ethan Mollick57AI提示工程应去魅，高效沟通胜似咒语

02:04AK55PhyMotion推出物理驱动人体视频生成框架

5月15日周五

23:09Kling AI61戛纳倒计时 | Kling AI大会主讲阵容揭晓！

20:42IT之家（RSS）50光帆科技旗下"行业首款带摄像头 AI 耳机"正式发布，首发价 1799 元起

20:07MiniMax (official)56MiniMax全面覆盖多模态技术

18:27向阳乔木63面壁智能发布高效小参数视觉语言模型MiniCPM-V 4.6

17:49HuggingFace Daily Papers（社区热门论文）68ViMU：视频隐喻理解基准测试

17:42IT之家（RSS）53华为 896 线激光雷达太贵！余承东曾想挑战用摄像头实现小物体识别避障功能，但因后者能力有限放弃

16:42IT之家（RSS）49余承东官宣鸿蒙智行旗舰 MPV 智界 V9 首批升级华为乾崑智驾 ADS 5，全系标配 38 个传感器

16:42IT之家（RSS）59中国信通院启动人工智能终端智能化分级测试工作，涉及手机、电脑、眼镜、电视、汽车座舱等

15:33Alibaba Cloud50AI代理主导K-POP MV制作接近零人工干预

13:49HuggingFace Daily Papers（社区热门论文）69通过闭环验证推理解锁复杂视觉生成

11:49HuggingFace Daily Papers（社区热门论文）62SANA-WM：高效的分钟级世界模型，实现高清长视频生成与精准相机控制

11:49HuggingFace Daily Papers（社区热门论文）49合成分层设计数据能否提升分层设计解构效果？

11:49HuggingFace Daily Papers（社区热门论文）59DiffusionOPD：扩散模型中在线策略蒸馏的统一视角

11:49HuggingFace Daily Papers（社区热门论文）68MemLens：大型视觉语言模型多模态长时记忆基准测试

11:02蚂蚁 inclusionAI：HuggingFace 新模型56精选蚂蚁集团提出 ARGenSeg-8B：基于自回归图像生成模型的图像分割框架

10:48HuggingFace Daily Papers（社区热门论文）64PhyMotion：面向物理基础人体视频生成的结构化3D运动奖励机制

10:48HuggingFace Daily Papers（社区热门论文）67ATLAS：一个功能词元，兼作智能体操作与潜在视觉推理单元

10:48HuggingFace Daily Papers（社区热门论文）59MemEye：面向多模态智能体长期记忆的视觉中心化评估框架

10:18SenseTime70同事件精选SenseNova-U1空间智能突破，开源最大空间问答数据集同一事件，精选展示《商汤发布信息图生成模型升级，增强多项核心能力》

09:51Berryxia.AI75精选牛津大学博士后开源视频翻译工具Violin，支持多语言翻译与视频对话

09:51Berryxia.AI74开源视频翻译工具Violin发布，支持多语言与交互

09:41IT之家（RSS）43AI 音乐应用 Suno 上线苹果 CarPlay，丰富你的驾车听歌体验

08:51Berryxia.AI72开源3D生成工具包：单张图片快速构建可交互3D世界

08:00HuggingFace Daily Papers（社区热门论文）54VideoSeeker：通过原生代理工具调用激励实例级视频理解

08:00HuggingFace Daily Papers（社区热门论文）61GRASP：基于多人非语言交互的社会推理学习

08:00HuggingFace Daily Papers（社区热门论文）56使用稀疏自编码器实现CLIP模型的鲁棒和可解释微调

08:00HuggingFace Daily Papers（社区热门论文）55解锁视觉语言模型中的稠密度量深度估计

08:00HuggingFace Daily Papers（社区热门论文）73精选PAGER：弥合点精确几何图形界面控制中的语义-执行鸿沟

08:00HuggingFace Daily Papers（社区热门论文）64WorldAct：将单体式3D世界激活为以对象为中心的可交互场景

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月16日

17:08

Rohan Paul@rohanpaul_ai

46

这是Melody，专为AI陪伴设计的人形机器人。专门针对社交与情感交流进行调校。能保持眼神接触、回忆上下文并处理对话。通过面部驱动器与皮肤材料，使表情反馈灵敏且类人。 https://x.com/XNews24_7/status/1951822670561202542/video/1

产品更新具身智能多模态

10:42

AYi@AYi_AInotes

76

xAI将Grok集成至Hermes Agent，用户可零成本扩展AI能力

xAI宣布，Grok订阅用户现可一键通过OAuth登录，将服务直接集成到开源个人代理Hermes Agent中使用，无需额外付费或复杂配置。xAI并未自建代理生态，而是将Grok作为“即插即用”大脑嵌入成熟的Hermes Agent中，此举大幅降低了开发与推广成本。集成后，Hermes Agent在原有长期记忆、多平台连接等功能基础上，增强了Grok的推理、生图、生视频与语音能力，用户体验显著提升。这意味着用户仅凭现有订阅，即可获得一个完全可控的本地AI代理。xAI表示更多开源代理集成即将到来，Grok正从X平台聊天工具转型为更广泛的AI生态通用大脑。

xAI: You can now use your @grok subscription inside @NousResearch Hermes Agent. http://x.ai/news/grok-hermes

智能体 xAI 产品更新多模态

09:01

Hacker News 热门（buzzing.cc 中文翻译）

57

伦敦警方首次在抗议活动中部署人脸识别技术

伦敦警方在抗议活动中首次部署实时人脸识别技术。该系统通过监控车顶摄像头扫描人群，并与警方监视名单进行比对，名单包含因严重暴力犯罪被通缉或曾伤害警察的人员。一旦匹配，警方将进行拦截和身份核查。此举旨在预防犯罪，但引发了对隐私权、集会自由及技术准确性的担忧。批评者指出该技术存在偏见和误认风险，并可能对公众权利产生“寒蝉效应”。

多模态政策/监管

08:54

ginobefun@hongming731

62

BestBlogs 早报 · 2026-05-16 · AI 工程方法 / Abridge 医疗智能层 / Imagen 2.0

本期早报通过三个深度案例，展现AI应用正从单点任务转向系统集成。Google工程师将AI作为“思考伙伴”，将复杂决策时间从数天压缩至数小时；医疗AI公司Abridge通过处理海量就诊，为医生每周节省10-20小时，并构建临床智能层；OpenAI则复盘了Imagen 2.0的巨大生成量及未来路线图。核心趋势在于利用AI重构工作流程与系统设计。

智能体 OpenAI 多模态现象/趋势

08:54

ginobefun@hongming731

46

#BestBlogs 早报 2026-05-16：AI作为深度协作的"思考伙伴"

本期早报探讨了AI从编程助理向“思考伙伴”的演进。案例包括Google工程师在多语言客户端开发中与AI协同理解与设计系统；Abridge公司利用海量问诊数据构建医疗智能理解层；以及OpenAI复盘Imagen 2.0在文本渲染和多语言支持上的进展，并展望“创意智能体”的未来。这些实践展示了AI正以更深入、融合的方式参与专业协作。

Google OpenAI 多模态大佬观点

08:00

HuggingFace Daily Papers（社区热门论文）

49

EVA01：基于Mixture-of-Transformers的统一原生3D理解与生成框架

论文提出EVA01框架，扩展多模态大语言模型以原生方式整合3D网格理解、生成和上下文感知编辑。它基于Mixture-of-Transformers架构，将模型解耦为预训练的理解专家和结构镜像的生成专家，通过共享的全局自注意力与硬模态路由进行耦合。结果显示，EVA01在文本到3D生成保真度上达到最先进水平，并解锁了具有身份保持能力的鲁棒长上下文多轮几何编辑功能，这是无状态重建流程无法实现的。

arXiv 图像生成多模态论文/研究

06:50

Google DeepMind：Blog（RSS）

精选75

Gemini 3.5：具备行动能力的前沿智能

Google发布了Gemini 3.5模型，该模型专注于提升执行复杂任务的能力。其核心特点是支持“代理式工作流”，即能够像助手一样自主规划并执行一系列多步骤、复杂的操作，旨在将先进的语言理解与实际问题解决能力相结合。

智能体 DeepMind Google 多模态

关联讨论 19 条X：Google AI (@GoogleAI)Google Blog：AI（RSS）X：Sundar Pichai (@sundarpichai)Google DeepMind：Blog（RSS）The Verge：AI（RSS）X：Google DeepMind (@GoogleDeepMind)Google Developers Blog（RSS）The Decoder：AI News（RSS）IT之家（RSS）X：Berry Xia (@berryxia)X：Jeff Dean (@JeffDean)X：Gemini (@GeminiApp)Hacker News 热门（buzzing.cc 中文翻译）X：Google AI for Developers (@googleaidevs)X：Rohan Paul (@rohanpaul_ai)X：Logan Kilpatrick (@OfficialLoganK)X：Ethan Mollick (@emollick)X：阿易 AI Notes (@AYi_AInotes)X：Kim (@kimmonismus)

推荐理由：Gemini 3.5 Flash 把前沿级智能体和编程能力塞进了极低延迟和成本，四倍于竞品速度的同时基准表现超过 3.1 Pro，这可能是今年对开发者最实用的基座模型之一。

06:31

Hacker News 热门（buzzing.cc 中文翻译）

64

Image-blaster：仅凭一张图片即可生成3D场景、特效和网格

Image-blaster是一款开源工具，能够仅凭单张输入图片自动生成对应的3D场景、特效和网格模型。该项目已在GitHub平台发布，获得了开发者社区的关注，在Hacker News上收获了102个投票。这一技术简化了3D内容创作流程，有望降低相关领域的制作门槛。

图像生成多模态开源/仓库

04:09

DogeDesigner@cb_doge

69

Grok 现可直接连接开源自我提升代理 Hermes Agent

Grok 现已支持直接连接至开源、自我提升的个人代理 Hermes Agent。所有 Grok 订阅用户均可立即使用 Grok 4.3 进行高级推理与对话，享受 Grok Text-to-Speech 提供的自然语音响应，以及通过 Grok Imagine 在代理内生成图像和视频。用户只需通过 Grok OAuth 登录即可启用，无需复杂设置。这标志着向真正个性化、持续在线、能记忆用户并代表用户行事的 AI 代理迈出了关键一步。更多开源代理集成即将推出。

智能体 xAI 产品更新多模态

02:05

Ethan Mollick@emollick

57

推文展示了Runway新推出的Agent模式能根据简短文本描述构建复杂故事，虽不完美但效果显著。作者借此强调，与AI协作不应将其"提示"过程神秘化，反对使用含义模糊的随机斜杠命令等"魔法咒语"式交互。核心观点是，用户应像管理者一样，以清晰、结构化的格式直接提出需求，而非扮演依赖晦涩咒语的巫师，使AI协作回归高效、直观的本质。

Ethan Mollick: Stop turning prompting into magic spells (and yes, this includes random slash commands with obscure outcomes). Let this ...

智能体产品更新多模态

02:04

AK@_akhaliq

55

PhyMotion 基于物理结构化的3D运动奖励用于物理基础的人类视频生成

多模态视频论文/研究

5月15日

23:09

Kling AI@Kling_ai

61

戛纳倒计时 | Kling AI大会主讲阵容揭晓！

2026年戛纳电影节Kling AI大会将汇聚三位世界级电影制作人，展示他们运用Kling AI技术创作的标杆作品。中国动画导演魏立将分享AI生成动画《Born of the Tide》；Jon Erwin将解析为Amazon Prime制作的剧集《House of David》；Eekjun Yang则将介绍院线电影《RAPHAEL》的创作过程。三位讲者将深入探讨Kling AI在电影制作中的幕后应用，共同探索AI为影视创作带来的新可能性。活动定于2026年5月18日15:30至17:30，在戛纳影节宫主舞台举行。

多模态行业动态视频

20:42

IT之家（RSS）

50

光帆科技旗下"行业首款带摄像头 AI 耳机"正式发布，首发价 1799 元起

光帆科技发布行业首款搭载摄像头的AI耳机——光帆全感AI耳机。该产品单耳重11克，采用开放式耳挂设计，双侧配备200万像素双目摄像头，可实时识别环境并提供主动智能服务。其耳机盒集成指纹解锁与4G eSIM模块，支持脱离手机独立使用。续航方面，耳机通话可达9小时，音乐播放15小时，配合充电盒总续航至高90小时。产品提供多种套装，耳机本体首发价1799元起。

产品更新多模态

20:07

MiniMax (official)@MiniMax_AI

56

❤️🔥MiniMax贯通所有模态

1LittleCoder💻: Minimax 🔥🔥🔥 shipping across modalities

产品更新多模态

18:27

向阳乔木@vista8

63

面壁智能推出仅1.3B参数的视觉语言模型MiniCPM-V 4.6。该模型采用LLaVA-UHD v4技术，将视觉编码成本降低55%，专为消费级和移动硬件优化，支持高效边缘部署。其在关键多模态和Artificial Analysis基准测试中，性能超越了Gemma4-E2B-it和Qwen3.5-0.8B等更大模型，且仅消耗后者2.5%的token预算。在处理高分辨率图像时，其首token生成时间比Qwen3.5-0.8B快2.2倍，在单张RTX 4090上的token吞吐量约为后者的1.5倍。模型已在Hugging Face、ModelScope等平台开源发布。

OpenBMB: 1/5 MiniCPM-V 4.6 (1.3B) is now live 🚀🚀 High-res visual processing, optimized for consumer-grade and mobile hardware. ...

多模态模型发布端侧

17:49

HuggingFace Daily Papers（社区热门论文）

68

ViMU：视频隐喻理解基准测试

研究团队推出了首个系统评估前沿模型视频潜文本理解能力的基准ViMU。该基准旨在测试视频理解模型能否超越对物体、动作等表层内容的识别，推断视频中蕴含的隐喻、讽刺与社会意义。ViMU要求模型基于多模态证据进行推理，回答开放式与选择题，且所有问题均设计为无提示类型，确保模型在作答前无法获取关键证据。这标志着视频理解评估从字面感知迈向深层语义解读的重要一步。

arXiv 多模态论文/研究

17:42

IT之家（RSS）

53

华为 896 线激光雷达太贵！余承东曾想挑战用摄像头实现小物体识别避障功能，但因后者能力有限放弃

在鸿蒙智行智界V9发布会上，华为展示了乾崑896线双光路图像级激光雷达。这是全球量产线束规格最高的激光雷达，单帧点云量是128线雷达的7倍，使车辆感知迈入“图像级”。它能精准识别路面石块等异形障碍物并主动避让，对14厘米高度物体的远距离识别、低反射率目标识别距离提升190%，异型障碍物识别距离提升77%。余承东坦言该雷达成本高昂，曾考虑仅用摄像头实现类似功能，但发现摄像头能力有限，无法及早识别小物体。华为的目标是超越人类驾驶员的安全水平。

多模态端侧行业动态

16:42

IT之家（RSS）

49

余承东官宣鸿蒙智行旗舰 MPV 智界 V9 首批升级华为乾崑智驾 ADS 5，全系标配 38 个传感器

在鸿蒙智行首款旗舰 MPV 智界 V9 发布会上，华为余承东宣布该车型将首批升级华为乾崑智驾 ADS 5。智界 V9 全系标配 38 个传感器，可智能判断道路场景并自主操作，支持 60 EFLOPS 云端 AI 算力、WEWA 2.0 架构和 6 重冗余系统。自 4 月 22 日预售以来，车辆小定量已突破 40000 台，共推出四款配置，价格区间为 39.98 万至 52.98 万元。

产品更新多模态端侧

16:42

IT之家（RSS）

59

中国信通院启动人工智能终端智能化分级测试工作，涉及手机、电脑、眼镜、电视、汽车座舱等

中国信通院近日启动首轮人工智能终端智能化分级标准符合性检测，测试时间为2026年5月13日至6月30日。该测试依据新发布的《人工智能终端智能化分级》国家标准，该标准将终端智能化水平划分为L1至L4四个等级，智能化依次提高。测试覆盖手机、电脑、电视、眼镜、汽车座舱、音箱和耳机等七类产品。标准采用“2+N”架构，由小米、华为等企业参与起草，旨在推动人工智能终端生态安全有序发展。

多模态政策/监管端侧行业动态

15:33

Alibaba Cloud@alibaba_cloud

50

一支主要由AI代理执导的K-POP MV？🎤✨ 使用Wan2.7和HappyHorse构建SPECTRA。代理负责生成、迭代和剪辑--由阿里巴巴云MVP Shun Fujiyoshi @GhostyAIpp监督质量把控并处理重制。尚未实现零接触。但已非常接近。 🎞️ 观看MV：https://youtu.be/CwDxsTWy1Ak 📖 完整开发博客：https://int.alibabacloud.com/m/1000412982/ 🚀 HappyHorse八折优惠：https://int.alibabacloud.com/m/1000412936/

智能体多模态教程/实践

13:49

HuggingFace Daily Papers（社区热门论文）

69

通过闭环验证推理解锁复杂视觉生成

针对文本到图像模型在复杂语义生成上的局限，研究团队提出了闭环视觉推理框架。该框架通过自动数据引擎进行步骤级视觉验证，合成可靠推理轨迹，并采用代理提示强化学习解决长上下文优化不稳定问题。为降低迭代去噪导致的高延迟，框架引入Δ-Space权重合并方法，将每步推理成本降至仅需4次噪声估计前向传播。实验表明，该框架在多项基准测试中超越现有开源模型，性能接近专有商业模型，实现了复杂视觉生成的通用测试时扩展能力。

图像生成多模态推理论文/研究

11:49

HuggingFace Daily Papers（社区热门论文）

62

SANA-WM：高效的分钟级世界模型，实现高清长视频生成与精准相机控制

SANA-WM是一个26亿参数的高效开源世界模型，专为生成一分钟720p高清视频设计，具备精确的6自由度相机控制能力。其核心创新包括：混合线性注意力机制实现高效长上下文建模；双分支相机控制确保轨迹精准跟随；两阶段生成流程提升视频质量与一致性；以及从公开视频中提取精确位姿的鲁棒标注流程。该模型仅使用约21.3万个视频片段训练，在单GPU上即可生成60秒视频，其量化蒸馏版本在RTX 5090上仅需34秒完成去噪。在基准测试中，其动作跟随准确性优于先前开源基线，并在保持相当画质的同时，吞吐量提升36倍。

具身智能多模态视频论文/研究

11:49

HuggingFace Daily Papers（社区热门论文）

49

合成分层设计数据能否提升分层设计解构效果？

本研究探讨纯合成数据对平面设计分层解构的效用。基于前沿的CLD框架，团队构建了合成数据集SynLayers，并利用视觉语言模型生成文本监督与自动化推断输入。关键发现包括：纯合成数据训练效果优于PrismLayersPro等非可扩展方案；性能随数据规模增加持续提升，在约5万样本处增益趋于饱和；合成数据能平衡控制图层数量分布，避免现实数据中的图层失衡问题。这项以数据为中心的研究为可扩展的分层设计编辑系统提供了实践基础。

arXiv 图像生成多模态论文/研究

11:49

HuggingFace Daily Papers（社区热门论文）

59

DiffusionOPD：扩散模型中在线策略蒸馏的统一视角

DiffusionOPD 提出一种基于在线策略蒸馏的扩散模型多任务训练范式，以解决多任务强化学习中的交叉干扰与失衡问题。该方法先独立训练任务专属教师模型，再沿学生自身采样轨迹将能力蒸馏至统一学生，从而解耦单任务探索与多任务整合。理论层面，研究将 OPD 框架从离散标记推广至连续状态马尔可夫过程，推导出闭式逐步 KL 目标，通过均值匹配统一随机 SDE 与确定性 ODE 优化，其解析梯度相比传统 PPO 类策略梯度具有更低方差与更好泛化性。实验表明，DiffusionOPD 在训练效率和最终性能上均超越多奖励强化学习与级联强化学习基线，并在全部评估基准上取得领先结果。

arXiv 多模态数据/训练论文/研究

11:49

HuggingFace Daily Papers（社区热门论文）

68

MemLens：大型视觉语言模型多模态长时记忆基准测试

研究团队推出MEMLENS基准，系统评估大型视觉语言模型在多模态多轮对话中的长时记忆能力。该基准包含789个问题，涵盖五大记忆能力，并在四种标准上下文长度下测试。评估27个长上下文模型和7个记忆增强代理后发现：长上下文模型在短对话中表现良好但随对话延长性能下降；记忆代理长度稳定性好但损失视觉保真度。多轮推理任务将多数系统性能限制在30%以下，表明需结合长上下文注意力与结构化多模态检索的混合架构。

多模态论文/研究评测/基准

11:02

蚂蚁 inclusionAI：HuggingFace 新模型

精选56

蚂蚁集团提出 ARGenSeg-8B：基于自回归图像生成模型的图像分割框架

蚂蚁集团推出 ARGenSeg-8B，一种将多模态理解与像素级感知统一的自回归图像生成分割框架。它利用多模态大语言模型（MLLM）输出视觉 token，并通过通用 VQ-VAE 解码为分割掩码，使分割完全依赖 MLLM 的像素级理解。采用 next-scale-prediction 策略并行生成视觉 token，降低推理延迟。在多个分割数据集上超越此前最优方法，推理速度显著提升。论文已被 NeurIPS 2025 接收，模型已发布在 HuggingFace。

Hugging Face 多模态开源/仓库模型发布

推荐理由：蚂蚁提出用自回归生成做分割，把理解和像素级感知统一到一个框架里，多个数据集SOTA且速度更快，做CV的值得看看。

10:48

HuggingFace Daily Papers（社区热门论文）

64

PhyMotion：面向物理基础人体视频生成的结构化3D运动奖励机制

针对视频生成中人体运动真实性评估的难题，本研究提出PhyMotion，一种结构化细粒度运动奖励机制。该方法从生成视频中恢复3D人体网格，并将其置于MuJoCo物理模拟器中，从运动学合理性、接触平衡一致性与动态可行性三个维度进行综合评估。实验表明，PhyMotion与人类判断的相关性优于现有奖励模型。在基于强化学习的后训练中，优化该奖励能显著提升自回归与双向视频生成器的运动真实感，在自动指标与人类盲测中均取得改进（Elo增益+68），且各评估维度提供互补信号，训练开销适度。

多模态论文/研究

10:48

HuggingFace Daily Papers（社区热门论文）

67

ATLAS：一个功能词元，兼作智能体操作与潜在视觉推理单元

针对视觉推理中直接生成图像计算成本高、代理方法存在切换延迟、潜在方法泛化性差等问题，本研究提出ATLAS框架。其核心是引入“功能词元”这一离散单元，它同时作为智能体操作和潜在视觉推理单元。每个词元对应一个内化的视觉操作，无需视觉监督，仍作为标准词元存在于词表中，可通过下一词元预测生成。这避免了生成冗余的中间视觉内容，且与标准的可扩展SFT和RL训练兼容。为应对RL中功能词元的稀疏性问题，研究引入了潜在锚定GRPO（LA-GRPO）以稳定训练。实验表明，ATLAS在多项挑战性基准测试中取得了优异性能，并保持了良好的可解释性。

arXiv MCP/工具多模态推理

10:48

HuggingFace Daily Papers（社区热门论文）

59

MemEye：面向多模态智能体长期记忆的视觉中心化评估框架

针对多模态智能体长期记忆评估中视觉证据留存与使用不足的问题，本文提出MemEye评估框架。该框架从视觉证据粒度（场景级至像素级）与证据使用方式（单一至演化合成）两个维度构建评估体系，并建立了涵盖8个生活场景任务的新基准。通过对13种记忆方法与4种视觉语言模型的评估，研究发现现有架构在保留细粒度视觉细节及对状态变化进行时序推理方面仍存在困难。结果表明，有效的长期多模态记忆依赖于证据路由、时序跟踪与细节提取能力。

智能体 arXiv 多模态论文/研究

10:18

SenseTime@SenseTime_AI

同事件精选70

主推文赞扬了创新者在前沿领域的探索。引用的推文具体指出，SenseNova-U1在空间智能能力上取得进展，其关键基准测试表现超越了Qwen3.5等强劲基线。同时，团队开源了目前最大的空间问答数据集SenseNova-SI-8M，并邀请业界在CVPR会议进行线下交流。

Zhongang Cai: Excited to have contributed to the spatial intelligence capabilities of SenseNova-U1, surpassing strong baselines such a...

多模态开源生态数据/训练论文/研究

同一事件，精选展示《商汤发布信息图生成模型升级，增强多项核心能力》

推荐理由：商汤的 SenseNova-U1 在空间智能基准上压过 Qwen3.5，还顺手开源了目前最大的空间 QA 数据集 SenseNova-SI-8M，搞具身智能和多模态的可以直接抱走数据。

09:51

Berryxia.AI@berryxia

精选75

牛津大学博士后开源视频翻译工具Violin，支持多语言翻译与视频对话

牛津大学博士后Kevin Lin开源视频翻译工具Violin，旨在打破高质量视频内容的语言壁垒。该工具将语音识别、大语言模型翻译与语音合成整合为自动化流水线，支持多语言互译与个性化翻译风格调整，例如将学术报告转化为儿童易懂版本。用户还能直接与视频内容进行对话并获取相关答案。Violin提供Web应用、命令行界面和Agent Skill三种使用方式，所有功能基于MIT协议开源，由Together Compute提供技术支持，适用于内容创作、教育及多模态智能体开发等领域。

Kevin Lin: 🌟Introducing🎻Violin - an Open-source Video Translation Skill. 📹Video is the dominant medium on the internet, yet most...

GitHub 多模态开源/仓库语音

推荐理由：视频翻译过去得拼几个 API，Violin 一个开源 Skill 把 ASR、翻译、TTS 全通了，还加上视频对话和风格定制，做多语言内容传播的必须收藏。

09:51

Berryxia.AI@berryxia

74

牛津大学博士后Kevin Lin开源了视频翻译工具Violin，可将视频自动进行语音识别、LLM翻译和语音合成，打破语言壁垒。工具支持个性化翻译风格，并能基于视频内容进行问答交互。它提供Web应用、CLI命令行及Agent Skill（如Claude Code skill）多种使用方式，默认利用Together AI的免费额度，也支持OpenAI等API。该项目旨在推动高质量视频内容的全球化传播。

Berryxia.AI: 兄弟们,这个可以啊!赶紧装起来! Kevin Lin,牛津大学博士后,前Meta和Microsoft研究员,刚刚把Violin这个开源视频翻译Skill放了出来。视频已经是互联网绝对主流的内容形式。可绝大多数高质量讲座、演讲、播客却被单...

多模态开源生态教程/实践视频

09:41

IT之家（RSS）

43

AI 音乐应用 Suno 上线苹果 CarPlay，丰富你的驾车听歌体验

本周，AI音乐生成应用Suno与聚合电台应用Zeno Radio正式登陆苹果CarPlay平台。Suno允许用户通过文字提示生成完整音乐，其CarPlay界面分为“资料库”和“探索”两部分，便于播放个人作品及社区内容。Zeno Radio则聚合了传统电台与播客，涵盖音乐、新闻、儿童节目等多种分类。这两款新应用标志着CarPlay第三方生态持续扩展，为驾驶场景提供了更丰富的音频创作与收听选择。

产品更新多模态

08:51

Berryxia.AI@berryxia

72

开源3D生成工具包：单张图片快速构建可交互3D世界

开发者@neilsonks开源了一套专为Claude Code设计的完整3D生成工具包。该工具能将输入的单张图片自动拆解，生成包含环境、网格、物理、灯光和音频的全套可交互3D场景。其流程首先利用图像与3D生成技术提取物体并生成高质量网格，随后移除物体以得到静态背景，最后为整个场景添加物理模拟、实时灯光和环境音效。配套查看器支持对生成物体的点击编辑与一键导出。此工具将以往需数天的2D转3D工作流程缩短至几分钟，适用于游戏开发、世界构建和产品可视化等项目。项目已在GitHub开源。

neilson: open-sourcing a 3D gen toolkit for Claude Code input image → environment, meshes, physics, lighting, & audio

Anthropic GitHub 产品更新多模态

08:00

HuggingFace Daily Papers（社区热门论文）

54

VideoSeeker：通过原生代理工具调用激励实例级视频理解

VideoSeeker是一种新范式，旨在解决大型视觉语言模型在视频实例级时空定位上精度不足、依赖文本提示且感知与推理割裂的问题。该范式通过视觉提示和代理推理，使模型能按需主动感知并检索相关视频片段。研究构建了四阶段全自动数据合成流水线以生成高质量数据，并通过冷启动监督和强化学习内化工具调用与主动感知能力。实验显示，模型在实例级视频理解任务上平均性能提升13.7%，超越GPT-4o等闭源模型，且在通用视频基准上展现可迁移性，相关数据集与代码将开源。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

GRASP：基于多人非语言交互的社会推理学习

针对多模态大语言模型在多人视频中难以识别交互关系的问题，研究团队提出了GRASP数据集。该数据集包含29万个问答对，源自4.6万个视频共749小时，建立了涵盖注视、指示性手势及其组合推理的16类分类体系。同时发布配套评估基准GRASP-Bench，并提出社会情境奖励学习信号，利用这些细粒度事件引导模型推理交互参与者。实验表明，该方法提升了GRASP-Bench性能，并保持了在相关视频问答基准上的零样本能力。

多模态推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

使用稀疏自编码器实现CLIP模型的鲁棒和可解释微调

针对CLIP在微调时易因分布偏移而鲁棒性下降的问题，本文提出SAE-FT方法。该方法仅作用于视觉表征，利用稀疏自编码器识别预训练模型中的语义特征，并在微调中约束这些特征的变化，从而在防止灾难性遗忘的同时提升可解释性。实验表明，SAE-FT计算高效且透明，在ImageNet及相关分布偏移基准上达到或超越现有最优性能，代码已公开。

arXiv 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

解锁视觉语言模型中的稠密度量深度估计

DepthVLM框架通过为大型语言模型主干附加轻量级深度头，并采用统一视觉-文本监督范式与两阶段训练策略，将单一视觉语言模型转化为原生稠密几何预测器。该模型能在单次前向传播中生成全分辨率深度图与语言输出，推理效率更高。实验表明，其性能显著超越现有视觉语言模型和领先的纯视觉模型，并提升了复杂三维空间推理能力。所有代码与模型检查点将公开。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选73

PAGER：弥合点精确几何图形界面控制中的语义-执行鸿沟

研究针对需要点级精度的几何图形界面控制任务，揭示了现有视觉-语言模型存在的语义-执行鸿沟：通用模型动作类型准确率高但任务成功率极低。为此，我们构建了包含4,906个问题、超过22.4万次像素级动作的PAGE Bench基准，并提出了拓扑感知智能体PAGER。该智能体通过依赖结构规划与像素级执行分解任务，结合像素接地监督调优与精度对齐强化学习，将任务成功率提升至最强通用基线的4.1倍，步骤成功率从GUI专用智能体的不足9%提高到62%以上，实现了点精确GUI控制的新突破。

智能体多模态推理论文/研究

推荐理由：GUI agent一直绕着精确点击走，这篇直接硬碰硬，把成功率从6%拉到62%，做CAD自动化或工业软件的团队可以重点关注。

08:00

HuggingFace Daily Papers（社区热门论文）

64

WorldAct：将单体式3D世界激活为以对象为中心的可交互场景

针对Marble等生成式系统创建的3D世界存在静态、不可编辑且交互性有限的问题，本文提出WorldAct框架。该框架利用多模态智能体引导场景分解，识别可操作对象，并重建几何对齐的物体级网格以支持交互，同时通过3D修复技术还原背景环境。转化后的场景在保持全局连贯性的前提下，支持物体级编辑、碰撞感知操控以及具身任务执行。实验证明，WorldAct能比原始生成场景实现更丰富的交互，为构建可编辑、可交互的3D世界模型提供了可行方案。

具身智能多模态论文/研究

1…32 333435 36…50