5月22日

11:14

HuggingFace Daily Papers（社区热门论文）

多模态大语言模型在需要人格感知的人机交互中应用广泛，但现有评估仅关注大五人格分数的预测。本研究提出了一个新的接地人格推理任务，并发布了包含1104个视频的MM-OCEAN数据集。研究通过三层评估框架对27个模型进行测试，发现一个关键的“偏见鸿沟”：在所有模型中，有51%的正确评分并未基于检索到的行为线索，且整体证据归因率仅在0-33.5%之间。这表明模型往往只是“猜对”了分数，而非基于正确的推理依据，为未来提升模型的接地社交认知能力指明了方向。

arXiv 多模态论文/研究评测/基准

11:14

HuggingFace Daily Papers（社区热门论文）

Maestro：基于强化学习的层级化模型-技能编排框架

Maestro是一个用于多模态任务的强化学习编排框架。它通过训练一个轻量策略，动态组合冻结的专家模型与双层技能库，实现步骤级的实时决策：何时调用专家、选择何种模型-技能组合，以及何时终止。在十个代表性多模态基准测试中，仅4B参数的Maestro平均准确率达70.1%，超越了GPT-5和Gemini-2.5-Pro。其策略可泛化至未见过的模型和技能，无需重新训练；在扩展外部专家后，仍显著优于闭源基线，同时保持高效率和低延迟。代码已开源。

智能体 MCP/工具多模态论文/研究

11:09

IT之家（RSS）

全球首款眼神交互仿生人"小月"拍卖：起拍价 1 元，春晚蔡明机器人"姊妹款"

全球首款眼神交互仿生人“小月”（型号X-Head 1）于5月22日上架京东拍卖，起拍价1元，需缴纳500元保证金，将于当晚8点开拍。该产品由松延动力推出，重7.5公斤，拥有24个自由度，可实现交互对话，并具备口型、眼神及情绪等多模态交互能力，其核心仿生技术承袭自春晚亮相的同款机器人“蔡明”。官方标价为9.9万元。

产品更新具身智能多模态

10:14

HuggingFace Daily Papers（社区热门论文）

伯尼尼：基于潜在语义规划的视频扩散模型

本文提出了Bernini，一个用于视频生成与编辑的统一框架。该框架创新性地将多模态大语言模型与扩散模型分工协作：MLLM负责在ViT嵌入空间预测目标语义表示，扩散模型则依据此语义规划及文本特征合成像素。为处理多视觉输入，模型引入了分段感知三维旋转位置编码，并结合思维链推理，显著提升了从理解到生成的转化能力。该架构支持模块化训练与轻量协同优化，在多项视频生成与编辑基准测试中均取得最优表现。

Hugging Face 多模态视频论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

Sensor2Sensor：面向自动驾驶的跨形态传感器数据转换

针对自动驾驶系统训练所需高保真、多样化数据不足的难题，研究提出了Sensor2Sensor方法。该方法能将行车记录仪等来源的非结构化单目视频，转化为包含多视角相机图像与LiDAR点云的高保真多模态传感器数据。其核心在于利用4D高斯溅射技术将真实自动驾驶日志转换为视频风格，从而解决缺乏配对训练数据的挑战，并结合扩散模型完成生成式转换。评估表明，该方法能将复杂的真实场景有效转化为可用数据，为自动驾驶开发解锁了海量的外部数据源。

多模态数据/训练论文/研究

09:08

IT之家（RSS）

极空间私有云 Z425 轻享版发布：八盘位、万兆网口，首发价 6699 元起

极空间于5月21日发布Z425轻享版私有云服务器，首发价6699元起，国补后到手价5637.61元起。该产品搭载英特尔酷睿Ultra 5 125H处理器，采用八盘位设计（4个SATA与4个M.2 SSD），最大支持160TB存储容量。标配8GB DDR5内存可扩展至128GB，并配备万兆有线网口与双雷电4接口。其“AI空间”功能提供自然语义搜索、音视频摘要生成及智能分类等能力。

产品更新多模态

08:37

Google Gemini@GeminiApp

同事件精选82

Gemini Omni来了，我们本周看到了许多令人惊叹的创作。以下是一些杰出作品 👇

Google 多模态模型发布

同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

推荐理由：Google 的 GPT-4o 时刻终于来了，Gemini Omni 原生多模态的体验比想象中更惊艳，普通人也能随手出大片。

08:13

Berryxia.AI@berryxia

苹果数字人面部捕捉技术再突破，逼真度迈向新高

苹果Persona团队在WWDC26前发布新论文，展示了面部捕捉与动画技术的最新进展。从演示来看，其在眼部微表情、头部细微动作和皮肤质感等细节上实现了显著提升，使数字形象的真实感进一步增强，已超越简单“数字头像”，趋近于可信的“数字分身”。这类突破对AR/VR、游戏和远程协作等领域的沉浸式体验至关重要，能够有效打破虚拟交互中的“不真实感”。苹果持续重仓该技术赛道，相关论文与演示视频已公开。

Jonathan Cooper: Apple's Persona team continuing to do amazing work with face capture and animation. New paper released ahead of WWDC26 h...

多模态视频论文/研究

08:08

IT之家（RSS）

Mac 版 Codex 更新 Appshots 功能，窗口可直接"喂"给 AI

OpenAI 更新了桌面版 Codex，Mac 版新增 Appshots 功能。用户可通过快捷键（Command键）直接截取当前应用窗口并发送给 AI，该功能不仅能读取可见内容，还能获取窗口中未显示的文字信息，旨在简化调试和设计等工作流程。同时，/goal 命令结束实验阶段正式转正，允许用户设定长期目标，Codex 将持续执行任务直至达成里程碑。此次更新还包括优化内置浏览器性能、支持 Business 用户团队间共享自定义插件，以及为管理者扩展了包含活跃用户、Token 使用量等维度的分析数据面板。

OpenAI 产品更新多模态编码

08:08

IT之家（RSS）

允许订阅用户创作 AI 翻唱、Remix 音乐，Spotify 与环球音乐达成合作

Spotify与环球音乐集团达成授权协议，未来将允许其付费订阅用户利用AI技术创作翻唱歌曲与混音作品。该功能旨在为音乐人和创作者开辟版税之外的新增收入来源，但具体财务条款及参与授权计划的艺人名单暂未公布。受此消息及市场对其营收增长预期影响，Spotify股价近日上涨16%。

产品更新多模态行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

SPACENUM：重新审视视觉语言模型的空间数值理解

SPACENUM 是一个统一框架，考察空间探索中的动态数值转换与空间推理中的静态布局两种设定。通过 Num2Space 和 Space2Num 双向任务，评估视觉语言模型（VLM）在视觉空间结构与语言数值表征之间的映射能力。实验表明，当前 VLM 在两种设定下均接近随机猜测，严重依赖浅层空间线索，无法建立稳定的坐标感知表征。显式推理仅带来边际提升，微调可部分改善空间数值理解。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

BrainCause：从激活到因果--发现人脑中的因果视觉表征

BrainCause 是一个自动化框架，结合生成模型与脑模型，通过合成受控刺激并进行因果测试来验证人脑中的神经表征。给定目标概念，框架构建由概念图像、去除目标概念的反事实编辑图像及相关干扰项组成的刺激集，利用图像到 fMRI 编码模型预测脑反应，识别对目标概念具有特异性的表征。该方法在预测和实测 fMRI 数据上成功复现已知功能定位，并发现数十个概念的新候选表征。关键结论：仅凭激活强度不足以证明表征存在，缺乏因果验证会导致大量假阳性定位。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

One-Forcing：实现稳定的单步自回归视频生成

针对现有少步自回归视频生成方法在单步设置下面临的质量下降与训练不稳定问题，One-Forcing提出了一种将DMD目标与辅助GAN损失相结合的方法。该方法实现了高质量且高效的单步视频生成。在VBench评测中，它取得了83.76的总分，达到单步因果视频生成的最先进水平，并与强大的多步方法性能相当。研究表明，One-Forcing仅用chunkwise模型三分之一的训练成本，就能稳定实现单步帧级自回归生成。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

HorizonStream：面向流式三维重建的长时域注意力

HorizonStream 将几何传播形式化为证据影响核，并将其分解为长时域和短时域因子。长时域因子采用几何线性注意力学习通道级衰减率，实现几何证据的有界、多时间尺度传播。短时域因子结合几何局部注意力与时空旋转位置编码，执行可靠三维匹配并抑制注意力尖峰。最终，通过度量读出 token 从持久几何状态中恢复稳定尺度与刚性位姿。该模型仅用 48 帧片段训练，即可在恒定内存与线性时间下，稳定泛化至超过 10,000 帧的序列，达到了流式三维重建的先进性能。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PhotoFlow：智能体化的3D虚拟摄影任务

PhotoFlow是一个用于闭环相机搜索的Director-Reviewer-Reflector智能体系统，能在预制3D场景中自主推断合适的摄影角度并生成最终图像。该系统包含VPhotoBench基准测试，涵盖47个Blender场景和141个基于语言的摄影任务。实验表明，在六轮渲染预算的设置下，PhotoFlow在多种基线方法中取得了最强的外部质量对齐表现和成功率。这是首个将基于语言的虚拟摄影转化为可执行智能体任务的工作，展示了以LLM为核心的智能体在同时涉及3D推理与美学判断的设置中，已能生成高质量摄影作品。

具身智能图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Geo-Align：基于度量几何奖励的视频生成对齐

针对现有摄像机控制视频重渲染方法因缺乏真实多视角数据而泛化能力有限的问题，Geo-Align 提出了首个专门用于此任务的强化学习框架。该框架基于预训练模型，通过尺度感知的感知奖励进行优化。其核心是引入度量3D估计器从生成视频中提取精确摄像机轨迹，并显式惩罚旋转与平移的偏差。同时，设计了基于真实条件视频和合成目标轨迹的数据管道策略，摆脱了对配对数据的依赖。实验表明，Geo-Align 在精确摄像机控制与视觉保真度上均优于现有的监督学习基线。

arXiv 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

StepAudio 2.5 技术报告

StepAudio 2.5 是一个统一的音频-语言基础模型，能在自动语音识别（ASR）、语音合成（TTS）和实时语音交互三个任务上达到或超越专业系统水平。其核心在于将文本与音频置于共享表示空间，通过数据构建、优化目标和解码约束的差异化设置实现任务专精。该模型的后训练范式以任务定制的强化学习（RLHF）为核心机制，并配合专门的解码策略，将共享主干塑造成三种操作模式：ASR分支提升转录效率；TTS分支实现可控、富有表现力的合成；实时分支则达成低延迟、角色一致的对话。在标准基准测试中，StepAudio 2.5 在三项任务上均取得最优结果，证明单一基础模型能够有效内化语音理解、生成和实时交互的不同部署目标。

多模态推理论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

SCOPE：在可玩环境中模拟跨游戏操作以实现FPS世界模型

针对FPS游戏中高频重叠控制信号的处理难题，SCOPE方法在预训练视频扩散模型的每个Transformer块中插入条件模块。它将特征重塑为逐像素时序序列，使每个位置能基于局部视觉内容计算动作响应，从而无需分割标签即可分离作用域内效应与作用域外生成。同时发布的CrossFPS数据集是首个包含帧对齐动作遥测的多游戏FPS数据集，由7款游戏的69K片段构成，提供10-DoF控制器信号。该模型学习通用的视觉到动作映射，而非游戏特定模式，实现了对未见场景的零样本迁移。实验验证了SCOPE具备强动作响应性、精确作用域分离能力与有效的跨游戏泛化性能。

arXiv 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

GenRecon：连接生成先验用于多视角三维场景重建

该方法提出一种高保真多视角三维场景重建方案，核心是将重建过程与强大的生成式3D先验紧密耦合。具体做法是将场景划分为多个空间局部重叠的区块进行条件化3D生成，并提出一种基于投影的条件机制，将多视角图像特征提升为与生成模型对齐的、空间锚定的连贯3D表示。该方法以Trellis.2等前沿生成模型为基础，将其对象级能力推广至场景级别，最终生成可编辑的PBR网格重建结果。在室内环境重建任务上，其保真度优于现有尖端方法16%。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ETCHR：通过编辑以明确和利用推理

多模态大语言模型在视觉推理中面临纯文本思维链的瓶颈。现有“以图像思考”方法受限于固定工具箱或生成噪声图像。ETCHR是一种与理解模型解耦的、问题条件的感知推理图像编辑器，针对语言端与生成端两个缺陷进行两阶段训练：先通过监督微调进行推理模仿，再使用VLM奖励进行推理增强。该编辑器可免训练方式适配不同开源与闭源多模态大语言模型。在五个任务族上的评估显示，ETCHR分别将通义千问（Qwen3-VL-8B）的平均Pass@1从55.95提升至60.77，Gemini-3.1-Flash-Lite从65.08提升至70.55，以及月之暗面（Kimi K2.5）从76.55提升至81.16。

多模态推理论文/研究

06:05

MarkTechPost（RSS）

Cohere发布Command A+：适用于智能体工作流的218B稀疏MoE模型，最少需两块H100 GPU运行

Cohere发布开源模型Command A+，采用218B参数稀疏混合专家架构，整合了此前四个Command A变体。该模型支持智能体工作流，在W4A4量化配置下仅需两块H100 GPU即可运行，支持48种语言，并首次具备多模态推理能力。

智能体多模态模型发布

05:05

🚨 AI News | TestingCatalog@testingcatalog

OpenAI宣布Codex在macOS平台推出重要更新，核心功能为"Appshots"。该功能允许用户通过快捷键快速将任何应用窗口的完整上下文（包括屏幕截图与可访问文本）附加至Codex对话线程，从而为AI提供更全面的工作背景信息。此外，本次更新还包括浏览器端的新版注释编辑器、默认启用的/goal命令，以及现已支持分享的插件功能。Appshots已向所有Mac端用户开放。

OpenAI Developers: It's Codex Thursday, and yes, we have updates for you. First up: Appshots, a new way to bring the context of what you're...

OpenAI 产品更新多模态编码

04:38

小互@xiaohu

OpenAI Codex新增Appshots功能，窗口上下文一键传输

OpenAI为Codex推出Appshots功能，允许用户将Mac上任意窗口的实时上下文传输至AI。通过双击Command键，Codex不仅能获取当前窗口截图，还可读取完整文本内容（包括未滚动显示的部分）。该功能旨在简化开发、设计等工作流，用户无需手动复制代码或截图，即可让AI直接理解如VS Code、Figma、Notion等界面的代码结构、页面内容或设计框架，实现工作界面的智能共享。

智能体 OpenAI 产品更新多模态

04:02

Greg Brockman@gdb

OpenAI为Codex应用推出"Appshots"新功能，用户可通过快捷键（如Mac的Command-Command）将当前应用窗口的截图与文本内容直接附加到对话中，从而为AI提供更全面的上下文信息，包括屏幕外内容。该功能现已在Mac端全套餐开放，企业版访问权限也将很快推出。此外，Codex还新增了面向企业和商业场景的功能，如token使用分析和插件共享，以增强协作与数据分析能力。

OpenAI Developers: It's Codex Thursday, and yes, we have updates for you. First up: Appshots, a new way to bring the context of what you're...

OpenAI 产品更新多模态编码

04:02

TechCrunch：AI（RSS）

Spotify与环球音乐集团达成协议，允许粉丝创作AI歌曲封面和混音

Spotify与环球音乐集团达成合作，向其Premium高级订阅用户提供AI生成的歌曲封面与混音创作工具。通过该功能，粉丝可以基于原曲创作个性化版本，而参与合作的原创艺术家将从相关播放收入中获得分成。这标志着音乐产业对AI二次创作商业模式的一次重要探索。

多模态行业动态

03:36

ViggleAI@ViggleAI

精选66

介绍Fight Anyone 3D🥊一款3D派对格斗游戏，可能是上班时玩起来最爽的游戏。上传任何人的照片 → 一个可玩的3D格斗角色，带有语音、个性+招牌动作，由Viggle自研游戏引擎+模型打造。公测期间100%免费+赠送20张礼品卡。玩得越多，赢得越多！和同事对战。和朋友对战。和任何人对战。链接+教程+更多内容见下方推文串 ↓

产品更新图像生成多模态

推荐理由：Viggle把「上传照片生成3D格斗角色」做成了免费派对游戏，有声音有个性，交互感拉满，是近期最适合摸鱼的产品，但AI含量主要在娱乐侧，别当生产力工具。

02:26

Chubby♨️@kimmonismus

1/ 我最近在体验 SenseNova U1，这是 @SenseTime_Al 发布的原生多模态模型系列。它基于一种名为 NEO-unify 的架构构建，该架构在一个统一系统中同时处理图像和文本。这与通常在不同组件间传递任务的方式有很大不同。请看这个帖子 🧵：

多模态评测/基准

01:31

The Verge：AI（RSS）

Polyend 推出售价 299 美元的 AI 吉他效果器 Endless

音乐设备制造商 Polyend 发布了名为 Endless 的 AI 吉他效果器，售价 299 美元。该设备内置 ARM 处理器，搭载名为 Playground 的 AI 代理系统，用户可通过文本提示词，由多个协作 AI 代理实时生成并部署自定义吉他音效，并支持与实体效果板搭配使用。这款产品标志着 AI 技术开始向专业音乐硬件渗透，将复杂的音色生成变得更直接、可编程。

产品更新多模态

01:26

Hacker News 热门（buzzing.cc 中文翻译）

在配备Gemma4-31B（50GB交换分区）的2021款MacBook上本地索引一年的视频

技术博客记录了一项本地处理实验：在配备50GB交换分区的2021款MacBook上，使用Gemma4-31B大语言模型成功完成了一整年视频的本地索引任务。该成果在技术社区Hacker News上获得102个积分，显示了消费级设备运行大模型进行长周期媒体处理的可行性。

Google 多模态教程/实践端侧

00:33

Google Developers Blog（RSS）

精选75

推出 Gemini for Home 赋能服务提供商与硬件合作伙伴

Google 通过推出全栈 Gemini AI 解决方案扩展其智能家居生态系统。该方案集成了先进的摄像头智能、自然语言查询功能和日常活动摘要能力。它为服务提供商和硬件制造商提供了现成的参考设计与API，使其无需大量研发投入即可构建主动式、品牌化的智能家居服务。该计划旨在超越基础设备控制，迈向能够理解情境并实时响应用户需求的AI原生智能家居。

Google 产品更新多模态端侧

推荐理由：Google 把 Gemini 塞进智能家居，直接给硬件商和 ISP 提供交钥匙方案，这一步可能比 Nest 当年更有侵略性，做智能家居的得留意了。

00:30

歸藏(guizang.ai)@op7418

剪映海外版宣布跟 Gemini 合作了未来可以在这边里使用剪映的编辑功能去编辑图像视频，但是没有说具体的合作方式和上线时间

CapCut: CapCut is partnering with @GeminiApp . Soon, users will be able to edit images and videos directly within the Gemini app...

Google 产品更新多模态

00:07

美团 LongCat：HuggingFace 新模型

精选73

LongCat-Video-Avatar-1.5：升级版音频驱动数字人视频生成框架

美团LongCat团队发布了LongCat-Video-Avatar-1.5，一个专注于音频驱动数字人视频生成的开源框架。其核心升级在于采用Whisper-Large音频编码器，显著优化了唇部动态的流畅度与自然度。该版本实现了精准的唇形同步、全身时序稳定性以及长视频中的身份一致性，并能泛化应用于动漫、动物及多人交互等复杂场景。通过基于DMD2的步蒸馏技术，模型仅需8步即可高效推理。团队还构建了一个涵盖多场景、多语言的人工评估基准，通过大规模主观评分与专家分析，验证了其在多项关键维度上的优异性能。

Hugging Face 图像生成多模态开源/仓库

关联讨论 1 条

推荐理由：美团把数字人模型升级到1.5版，换了Whisper做音频编码，唇形同步比之前自然不少，而且开源了训练代码，做电商直播和虚拟博主的朋友可以直接拿过来跟商业方案掰手腕。

5月21日

20:59

🚨 AI News | TestingCatalog@testingcatalog

Google宣布与视频编辑应用CapCut达成合作，将后者的图像和视频编辑功能直接整合进其AI模型Gemini中。这意味着用户未来将能在一个对话式AI平台内完成更复杂的创意内容编辑。此次合作被视为AI工具与专业创意软件融合的重要一步，旨在打造更无缝、智能的创作工作流。双方均认为，这是未来创作工具走向一体化、对话式体验的开端。

CapCut: CapCut is partnering with @GeminiApp . Soon, users will be able to edit images and videos directly within the Gemini app...

Google 产品更新多模态

16:59

IT之家（RSS）

嫦娥六号补上关键"碎片"，我国团队成功绘制最精确月球化学成分图

中国科学院团队利用嫦娥六号从月球背面带回的1935.3克样本，结合AI模型校准遥感数据，成功绘制出迄今最精确的月球全球化学成分图。新地图修正了月背高地成分认知，显示其富铝、富钙，低铁、低钛，并重新界定了南极-艾特肯盆地边界，表明撞击挖掘范围更广。该研究为未来月球探测，特别是南极-艾特肯盆地的探索，提供了关键科学导航图。

其他多模态

15:59

IT之家（RSS）

字节火山引擎火山剧创 1.0 正式上线，短剧制作周期缩短 80% 以上

字节跳动旗下火山引擎正式上线了一站式AIGC短剧创作平台——火山剧创1.0。该平台深度适配自研模型，依托多智能体架构，可提供从剧本解析到成片预览的端到端智能解决方案，号称将短剧制作周期缩短80%以上，并实现“导演级控片”能力。平台在每个核心环节均向用户开放编辑权限，确保创作控制权。此次升级还新增了企业级协作功能，包括提示词编辑、IP资产库完善及团队积分管理。

产品更新多模态视频

15:59

IT之家（RSS）

腾讯会议"AI 同传"功能上线：可模仿用户音色、时延低于 3 秒

腾讯会议正式上线“AI 同传”功能。该功能无需插件或外接设备，每位参会者均可独立开启，支持模仿发言人音色，实现发言与翻译几乎同步，时延低于3秒。用户可调节同传与原声音量，并已与原有的文字转写、会中字幕功能打通，支持可听、可译、可见、可记的多维度跨语言会议体验。

产品更新多模态语音

15:27

MarkTechPost（RSS）

一个模型，三种模态：字节跳动发布 Lance 用于图像与视频的理解、生成和编辑

字节跳动智能创作实验室发布了Lance，这是一款开源的原生统一多模态模型。它能够在单一框架内，同时处理图像与视频的理解、生成和编辑三大任务。该模型仅需激活30亿参数，实现了用一个轻量级模型统一处理多种视觉内容创作与理解的需求。

图像生成多模态开源生态模型发布

14:10

HuggingFace Daily Papers（社区热门论文）

OCTOPUS：基于八面体参数化与最优平方误差量化的Transformer优化KV缓存

本文提出了OCTOPUS，一种用于Transformer长上下文推理的新型KV缓存压缩方法。它通过联合量化旋转后的坐标三元组来优化现有旋转编码器的性能。其核心在于将每个三元组的方向通过八面体参数化映射至正方形，并对量化坐标与三元组范数实施最优平方误差量化，从而实现了一种仅依赖于键总维度的严格非均匀比特分配策略。实验表明，OCTOPUS在文本、视频和音频任务上，在所有测试的比特宽度和指标上均达到或超越了此前的旋转编码器，并在极端压缩时优势尤为显著。此外，其融合Triton实现能在线重建键值，不引入额外的解码带宽或延迟。

arXiv 多模态推理论文/研究

13:58

IT之家（RSS）

小鹏刘先明：特斯拉 FSD 入华是好事，能形成良性竞争，欢迎这种高水平对比

特斯拉宣布其监督版FSD可在中国使用。小鹏集团通用智能中心负责人刘先明表示，FSD入华是好事，能形成良性竞争并推动行业进步。他指出小鹏的优势在于中国本地化场景适配与本土数据积累。双方目前均采用纯视觉辅助驾驶路线。小鹏集团董事长何小鹏设定目标，计划在今年8月在中国市场实现其VLA智驾系统的综合能力全面超越特斯拉FSD。

多模态大佬观点

13:10

HuggingFace Daily Papers（社区热门论文）

IndusAgent：用智能工具强化开放词汇工业异常检测

针对多模态大语言模型在工业异常检测中因领域错配与幻觉推断导致的性能瓶颈，本文提出了IndusAgent框架。该框架构建了整合多尺度视觉信息与专家知识的结构化数据集，并通过动态调用外部工具（如动态裁剪、特征增强）主动解析视觉模糊。引入门控强化学习联合优化分类、定位与工具使用效率，在五个工业基准测试中实现了零样本性能的最先进水平，展现出优异的泛化能力。

智能体多模态数据/训练论文/研究