全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「多模态」清除

5月30日周六

03:38Josh Woodward47Gemini App 新增视频编辑功能示例展示

03:06Google Gemini74精选Gemini Omni可将草图变为现实

02:14The Decoder：AI News（RSS）47Google 修复了多个导致配额消耗过快的 Gemini 使用限制漏洞

01:40Suno28Compton牛仔融合西海岸说唱与乡村音乐

01:38Google Blog：AI（RSS）74同事件精选Gemini Omni 与 Gemini 3.5 的 11 个实战展示同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

00:45AK55三模态动态引导的机器人感知新思路

00:34Berryxia.AI69PaddleOCR-VL 1.6 发布，文档解析SOTA提升

00:30HuggingFace Daily Papers（社区热门论文）69小而可信：时间序列异常检测的高效视觉语言推理

00:30HuggingFace Daily Papers（社区热门论文）64DynaFLIP：通过三模态动态引导表示重新思考机器人感知

00:15AK62Qwen-VLA：统一视觉语言动作建模

00:15TechCrunch：AI（RSS）38Kiwibot 的 AI 驱动智能喂鸟器是我的新后院伙伴

00:07Google AI64Gemini架构师分享AI前沿探索幕后故事

5月29日周五

23:34Berryxia.AI66开源：基于Three.js的盛唐长安3D世界与AI语音交互项目

23:13Qwen：Blog Retrieval（API）66精选Qwen-VLA：从理解世界到付诸行动

22:34Berryxia.AI68开源项目：Three.js打造3D盛唐长安互动世界

21:30HuggingFace Daily Papers（社区热门论文）61EarlyTom：早期Token压缩实现快速视频理解

21:30OpenBMB53MiniCPM-V 4.6在矿业与企业场景的实际应用案例

21:10StepFun68Step 3.7 Flash 开放权重模型现已上线 Kilo

17:44公众号：通义实验室（千问）64精选通义实验室发布教程：在 Android 手机部署 MCP 感知服务器

17:21IT之家（RSS）74精选小米开源可控视频音效生成模型 ControlFoley，让声音"按你想要的来"

16:45Rohan Paul56Google优化Gemini配额管理，解决用量耗尽问题

16:34Berryxia.AI57Opus 4.8 实现两轮对话生成基础 CAD 模型

16:30HuggingFace Daily Papers（社区热门论文）60PhyGenHOI：动态人-物交互的物理感知4D生成

16:30HuggingFace Daily Papers（社区热门论文）54几何 matters： 3D基础先验用于学习语义对应

15:43公众号：腾讯元宝41元宝助手正式入驻QQ浏览器，底层模型升级至Hy3 preview

15:15Rohan Paul23Google omni被低估了

14:39SenseTime27SenseTime高管：香港有条件成可信AI中心，已与警方合作

14:30HuggingFace Daily Papers（社区热门论文）65面向可验证的多模态深度研究：一个用于交错式报告生成的多智能体框架

12:40StepFun71阶跃星辰Step 3.7 Flash在ZenMux平台上线

11:40StepFun71Step 3.7 Flash上线OpenRouter，支持多模态与智能体工作流

11:40StepFun72阶跃星辰 Step 3.7 Flash 多模态模型上线 ModelScope

11:29HuggingFace Daily Papers（社区热门论文）70同事件精选Qwen-VLA：统一跨任务、环境与机器人形态的视觉-语言-动作建模同一事件，精选展示《Qwen-VLA：从理解世界到付诸行动》

11:29HuggingFace Daily Papers（社区热门论文）61AdaState：用于流式视频生成的自我演化锚点

11:29HuggingFace Daily Papers（社区热门论文）63超越3D视觉问答：将3D空间先验注入视觉语言模型以增强几何推理

11:29HuggingFace Daily Papers（社区热门论文）63神经物体运动学：NeuROK

11:29HuggingFace Daily Papers（社区热门论文）60局部模态替换：实现更深度融合的视觉语言模型

11:29HuggingFace Daily Papers（社区热门论文）75精选WorldMemArena：通过行动-世界交互循环评估多模态智能体记忆

11:06OpenRouter69阶跃星辰Step 3.7 Flash上线OpenRouter

10:44PixVerse6515秒动画IP预告片制作全流程分享

10:32Berryxia.AI72Claude Opus 4.8 在 ZenMux 平台开启免费体验

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月30日

03:38

Josh Woodward@joshwoodward

47

用我们的 Omni 模型编辑视频 🤯 以下是过去 24 小时里吸引我注意的 10 个创意示例…… 在 @GeminiApp 和 @FlowbyGoogle 中试试看

Google 产品更新多模态视频

03:06

Google Gemini@GeminiApp

精选74

Gemini Omni甚至能将简单的草图变为新的现实。在Gemini应用中亲自尝试。上传一段有人画圆的视频，然后输入这个提示词：当我画完这个圆时，它变成了___。

Google 产品更新多模态

关联讨论 1 条X：Gemini (@GeminiApp)

推荐理由：Google 把「画个圈然后说变什么」做成了真功能，创意交互的门槛又低了，普通用户随手就能玩，但本质是锦上添花，不是核心能力跃迁。

02:14

The Decoder：AI News（RSS）

47

Google 修复了多个导致配额消耗过快的 Gemini 使用限制漏洞

一个漏洞导致 Google Gemini 应用中的 Omni 视频仅一两个就会消耗完整个使用配额。Google 已修复该漏洞，Ultra 订阅用户现在获得双倍的视频生成次数，失败的请求也不再计入配额消耗。此外，Google 计划围绕其他使用情况增加更多透明度。

Google 产品更新多模态视频

01:40

Suno@suno

28

将西海岸说唱与乡村音乐融合，Compton牛仔

其他多模态

01:38

Google Blog：AI（RSS）

同事件精选74

Gemini Omni 与 Gemini 3.5 的 11 个实战展示

Google 在 2026 年 Google I/O 大会上发布了新一代多模态模型 Gemini Omni 与 Gemini 3.5，并同步提供了 11 个视频，集中演示了这两款模型在实际场景中的能力。

Google 多模态模型发布视频

同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

推荐理由：Google 官方放出的这组视频演示，直接展示了 Gemini Omni 和 3.5 的实际表现，比参数和 benchmark 更直观，做多模态应用的可以逐帧研究。

00:45

AK@_akhaliq

55

DynaFLIP 通过三模态动态引导的表征重新思考机器人感知

arXiv 具身智能多模态论文/研究

00:34

Berryxia.AI@berryxia

69

PaddleOCR-VL 1.6 发布，文档解析SOTA提升

飞桨发布了PaddleOCR-VL 1.6版本。该版本在OmniDocBench评测基准上取得了96.33%的新SOTA成绩，在该榜单及Real5-OmniDocBench上均排名第一。在表格、经典文本和稀有字符识别能力上均有显著提升，并增强了印章检测与图表理解能力。该版本与1.5版本架构完全兼容，实现了零迁移成本，方便直接部署使用，旨在为大语言模型和检索增强生成等系统提供更高质量的输入数据。

PaddlePaddle: 🚀PaddleOCR-VL 1.6 Officially Released! We are thrilled to announce the official release of PaddleOCR-VL 1.6 - this vers...

多模态开源生态模型发布

00:30

HuggingFace Daily Papers（社区热门论文）

69

小而可信：时间序列异常检测的高效视觉语言推理

针对大语言模型或多模态模型在时间序列异常检测中表现不佳的问题，研究者构建了高质量基准VisAnomBench。该基准基于公开时间序列数据集，并利用多个大型视觉语言模型的输出进行了增强。基于此，他们开发了参数高效的视觉语言模型VisAnomReasoner，专用于该任务。实验显示，VisAnomReasoner在VisAnomBench上的异常定位更准确，精确度和F1值分别比所有基线模型高出至少21.23和23.87个百分点。在TSB-AD-U基准上的额外实验也验证了其出色的跨基准泛化能力，精确度和F1值分别提升了9.57和13.39个百分点。

arXiv 多模态论文/研究

00:30

HuggingFace Daily Papers（社区热门论文）

64

DynaFLIP：通过三模态动态引导表示重新思考机器人感知

DynaFLIP 是一个动力学感知的多模态预训练框架，旨在将运动理解能力前置到感知阶段。该框架利用异构的人类与机器人视频构建图像-语言-3D光流三元组作为训练监督信号，以单纯形体积最小化为核心思想，结合余弦正则化与对比学习目标，优化单一图像编码器在共享超球面空间中的对齐。分析表明，该模型能聚焦于对机械臂操作至关重要的控制相关区域。其生成的视觉表示可作为可复用骨干网络，在多种下游策略（包括视觉语言动作模型）中均优于基线。在分布外场景下，性能提升高达 +22.5%。

具身智能多模态论文/研究

00:15

AK@_akhaliq

62

Qwen-VLA 跨任务、环境与机器人具身的统一视觉语言动作建模

具身智能多模态开源生态论文/研究

00:15

TechCrunch：AI（RSS）

38

Kiwibot 的 AI 驱动智能喂鸟器是我的新后院伙伴

Kiwibot 推出一款 AI 驱动的智能喂鸟器，用户可以通过配套应用记录并收集遇到的鸟类物种，玩法类似在 Pokémon 中收集宝可梦。

多模态端侧评测/基准

00:07

Google AI@GoogleAI

64

聆听Gemini的架构师们回顾他们持续推动AI前沿的旅程，本期Release Notes节目。 @JeffDean、@koraykv、@OriolVinyalsML和@NoamShazeer一同出镜，分享模型背后团队的幕后故事，以及他们如何见证愿景的实现。

Google 多模态大佬观点

5月29日

23:34

Berryxia.AI@berryxia

66

这是一个用Three.js搭建的盛唐长安3D互动世界，接入Agora技能实现核心实时语音交互功能。用户可与NPC对话、与李白对诗、玩诗词小游戏，并参观珍宝馆和AI展馆。开发者耗时两周、花费800刀完成，现已开源。

Berryxia.AI: 🔥我尼玛,兄弟们,这下真的是爆肝了。已经开源在GitHub了,记得Star一波啊! 我肝了2周+花费了800刀干出来的项目~😭 自己可以真实去体验,文旅馆的真的都可以搞一搞! 一个用 3D 渲染技术three.JS 搭起来的盛唐长安互...

多模态开源/仓库语音

23:13

Qwen：Blog Retrieval（API）

精选66

Qwen-VLA：从理解世界到付诸行动

通义千问推出通用视觉-语言-动作模型Qwen-VLA，基于Qwen多模态骨干，将视觉感知、语言理解与空间推理扩展至连续动作生成和轨迹预测。训练分四阶段：文本到动作预训练（T2A）、持续预训练（CPT）、监督微调（SFT）和强化学习（RL）。在LIBERO上达97.9%，Simpler-WidowX达73.7%，RoboTwin-Easy/Hard达86.1%/87.2%，匹配或超越专精模型。数据涵盖超10,000小时公共机器人轨迹、1,000+小时内部真实轨迹及800万+合成仿真轨迹。

具身智能多模态模型发布

关联讨论 1 条公众号：通义实验室（千问）

推荐理由：Qwen-VLA 把机器人操作、导航和跨实体控制统一进一个模型，在多个基准上打平甚至超越专用模型，这是通用具身智能的一个重要信号，但离实际可用还有距离。

22:34

Berryxia.AI@berryxia

68

开源项目：Three.js打造3D盛唐长安互动世界

作者开源了一个使用3D渲染技术Three.js搭建的盛唐长安互动世界项目。项目核心功能是接入Agora Skills，实现了实时语音互动。用户可以在虚拟世界中与NPC对话、与李白对诗、玩诗词小游戏、进入珍宝馆欣赏诗画，以及逛AI展馆体验古今融合。作者透露该项目花费了2周开发时间及800美元成本，现已托管在GitHub上并开放体验。

多模态开源/仓库语音

21:30

HuggingFace Daily Papers（社区热门论文）

61

EarlyTom：早期Token压缩实现快速视频理解

视频大语言模型在视频理解中能力强，但处理海量视觉token效率低下。现有方案多在预填充后期压缩，未优化视觉编码器本身。研究指出视觉编码对时间首token（TTFT）延迟贡献大，因此压缩应提前。为此提出EarlyTom，一个免训练的压缩框架，它在视觉编码器内部执行早期视觉token压缩，并引入解耦的空间token选择策略。在单卡A100 GPU上运行LLaVA-OneVision-7B时，EarlyTom将TTFT最高降低2.65倍，FLOPs减少高达61%，同时保持与全token基线相当的准确度，提升了部署实用性。

多模态论文/研究部署/工程

21:30

OpenBMB@OpenBMB

53

🚀 一个1.3B模型在矿山现场和企业办公室处理实际工作--比你的标注团队更快。开发者Jingdong分享的一个近期社区案例，探索了使用MiniCPM-V 4.6进行： ✅实验室图像中的矿样计数 ✅现场图像中的车辆检测与计数 ✅航拍地图中的矿区识别 ✅Go代码完整性检查以下是实际发生的情况🧵

多模态教程/实践

21:10

StepFun@StepFun_ai

68

Step 3.7 Flash 现已在 @kilocode 上线！开放权重，随时可运行。感谢快速集成 🙏

Kilo: StepFun's Step 3.7 Flash is one of the best open-weight models you can run right now, and it's live in Kilo. A multimoda...

智能体多模态开源/仓库模型发布

17:44

公众号：通义实验室（千问）

精选64

通义实验室发布教程：在 Android 手机部署 MCP 感知服务器

通义实验室发布教程，演示如何在 Android 手机上部署 MCP 感知服务器，使手机具备本地视觉与听觉分析能力。核心基于端侧 MNN 推理引擎和 Qwen3-VL 2B 模型（约 1.3GB），摄像头与麦克风采集的音视频在本地实时转化为结构化 JSON，再通过 MCP Tool 供 Claude Code 等云端 Agent 远程调用。整个过程不上传原始数据，仅传输语义提取结果。项目已开源，实测可识别红绿灯状态等场景。

MCP/工具多模态教程/实践端侧

推荐理由：如果你做Agent总觉得AI对物理世界是瞎子，这篇教程就是解药。把Qwen3-VL塞进手机当本地眼睛，不传原始视频只给结构化文字，隐私友好又能被Claude直接调用。

17:21

IT之家（RSS）

精选74

小米开源可控视频音效生成模型 ControlFoley，让声音"按你想要的来"

小米大模型应用团队发布开源可控视频音效生成模型 ControlFoley，旨在解决创作中的可控性难题。该模型统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。ControlFoley 在 VGGSound-Test 等多个 benchmark 上取得开源 SOTA 表现，其代码、模型权重和在线 Demo 均已开放。

多模态开源生态模型发布语音

推荐理由：小米开源的 ControlFoley 把视频音效生成从“看画面配声音”推进到“按意图来”，开源 SOTA 且直接提供 Skill，做视频创作的可以上手试试。

16:45

Rohan Paul@rohanpaul_ai

56

Google针对Gemini应用配额问题推出多项修复。主要修复了一个导致1-2个Omni视频即耗尽部分用户配额的bug，Ultra用户的Omni生成次数提升至2倍。Pro提示词现在设有每提示配额上限，失败的请求不再计入配额。Flash-Lite模型免费使用且不占用配额。此外，系统将记住用户选择的模型，除非用户主动更改或达到配额上限。更详细的用量分析和提醒功能即将推出。

Josh Woodward: We've heard your feedback about hitting limits too quickly on @GeminiApp. We're rolling out several fixes to make your q...

Google 产品更新多模态

16:34

Berryxia.AI@berryxia

57

Opus 4.8 实现两轮对话生成基础 CAD 模型

用户展示使用 Opus 4.8 模型，仅通过约两轮自然语言对话即可生成基础 3D CAD 模型（如球体、圆圈等），初步演示效果良好，但离工业级应用尚有距离。该成果呼应了 AI 辅助设计从代码生成向自然语言直接驱动三维建模的演进趋势。

Berryxia.AI: 大家越来越叼了! 从原来的Coding软件已经无法满足大家的胃口了,现在都是开始自然文本-3D CAD 来Coding了。

Anthropic 多模态教程/实践

16:30

HuggingFace Daily Papers（社区热门论文）

60

PhyGenHOI：动态人-物交互的物理感知4D生成

PhyGenHOI是一个用于生成物理准确、视觉逼真的4D人-物交互场景的新框架。给定静态3D人体和目标物体的3D高斯表示，该框架旨在合成人体与物体主动交互的动态场景。它将人体建模为由运动扩散模型驱动的语义智能体，物体则通过物质点方法模拟为物理智能体，并以3D高斯作为统一可微表示。交互通过三个耦合机制监督：时间同步的窗口吸引力损失、碰撞触发的接触驱动重模拟，以及增强接触保真度的遮罩视频-SDS目标。实验证明，PhyGenHOI能生成物理一致的交互，性能优于基线方法。

arXiv 具身智能多模态论文/研究

16:30

HuggingFace Daily Papers（社区热门论文）

54

几何 matters： 3D基础先验用于学习语义对应

自监督视觉模型与扩散模型提取的2D基础特征在语义对应任务中有效，但缺乏显式3D意识，易混淆对称物体的两侧、重复部件及视觉相似结构。新框架引入3D基础模型先验，使用SAM3D估计物体几何与位姿，并通过渲染比较优化进行细化。随后，基于估计位姿将PartField描述符从重建几何渲染至图像平面，生成几何感知特征图以补充DINO与Stable Diffusion特征，同时利用重建形状上的测地距离可靠过滤候选对应。该方法以过滤后的匹配为监督，训练一个轻量级适配器。与以往依赖位姿标注和粗略几何的后训练方法不同，此框架自动获取实例级3D结构并用于指导对应学习。实验表明，该方法在减少人工几何监督的同时提升了语义对应性能。

arXiv GitHub 多模态论文/研究

15:43

公众号：腾讯元宝

41

元宝助手正式入驻QQ浏览器，底层模型升级至Hy3 preview

元宝助手正式入驻QQ浏览器，搜索栏、划词等AI入口全面升级为元宝助手，底层模型同步升级至Hy3 preview。新功能包括搜索栏唤起提问、跨标签读取多个网页与文件、拍照搜题分步解析、长网页一键转音频，以及写作、改文章、出图等。元宝助手已同步嵌入微信、腾讯会议、QQ音乐等腾讯系应用，Mac版本已更新，其他版本逐步放量。

产品更新多模态搜索

15:15

Rohan Paul@rohanpaul_ai

23

Google omni确实被低估了。

Google 多模态大佬观点

14:39

SenseTime@SenseTime_AI

27

SenseTime高管：香港有条件成可信AI中心，已与警方合作

SenseTime高管Lewis Fung表示，香港凭借先进基础设施、多模态基础模型和生态伙伴合作，有条件成为可信AI创新中心。他近日出席数码港与警方智能 policing 联合 AI 实验室启动活动，分享了AI在网络安全、公共安全与智慧城市方面的应用。SenseTime将继续与伙伴合作推动可信AI发展，打造更智慧安全的香港。

多模态行业动态

14:30

HuggingFace Daily Papers（社区热门论文）

65

面向可验证的多模态深度研究：一个用于交错式报告生成的多智能体框架

大语言模型已将智能体从深度搜索推进至能生成长篇报告的深度研究。然而，可验证的多模态深度研究仍面临挑战。为此，研究提出了Ptah，一个多智能体框架。它通过规划、研究和写作阶段，协调从用户查询到网页报告的生成全流程，其中智能体负责构建计划、收集证据并维护视觉记忆。一个验证智能体确保整个流程的事实依据和跨模态一致性。研究还引入了PtahEval评估协议。实验表明，Ptah能生成比基线更可靠、视觉信息更丰富、更实用的多模态报告。

智能体 arXiv 多模态论文/研究

12:40

StepFun@StepFun_ai

71

阶跃星辰（Step Fun）的视觉语言模型Step 3.7 Flash已在ZenMux平台上线。该模型采用稀疏MoE架构，专为智能体、编程、搜索、多模态及长上下文工作流设计。其核心性能包括：400 TPS推理速度、约110亿激活参数、256K上下文窗口及3个推理级别。该模型能够理解UI、图表、文档和图像以编写代码或调用工具，并擅长深度网络与视觉搜索，在τ2-bench上跨难度级别取得98%+的成绩。它兼容Claude Code、MCP风格工作流等，并可本地部署于Mac Studio M4 Max、DGX Spark等硬件。

ZenMux: Excited to support Step 3.7 Flash by @StepFun_ai on ZenMux from day one. 🚀 A sparse MoE vision-language model built for...

智能体 MCP/工具多模态模型发布

11:40

StepFun@StepFun_ai

71

Step 3.7 Flash现已在 @OpenRouter 上线！这应该能让它更容易地融入现有工作流。

OpenRouter: Step 3.7 Flash from @StepFun_ai is live on OpenRouter. A multimodal (image/video/text) MoE that activates just 11B of 19...

智能体多模态模型发布

11:40

StepFun@StepFun_ai

72

阶跃星辰发布的多模态模型 Step 3.7 Flash 已在 ModelScope 平台上线。该模型采用 198B 总参数的 MoE 架构，每个 token 激活 11B 参数，推理速度最高达 400 tok/s，支持 256K 上下文窗口，并提供低、中、高三个推理级别以平衡速度与效果。其在 ClawEval-1.1 榜单位列第一（67.1分），在 SWE-bench Pro 上排名第二（56.3分）。模型具备原生多模态能力，由语言骨干与视觉编码器组成，原生支持解析密集UI、图表及财报。该模型采用 Apache 2.0 协议开源，并兼容 vLLM 等多种推理框架。

ModelScope: Thrilled to welcome Step 3.7 Flash landing on ModelScope, a 198B sparse MoE VLM from @StepFun_ai 🔥🤖 https://modelscope...

智能体多模态开源/仓库模型发布

11:29

HuggingFace Daily Papers（社区热门论文）

同事件精选70

Qwen-VLA：统一跨任务、环境与机器人形态的视觉-语言-动作建模

Qwen-VLA是一个统一的具身基础模型，将Qwen的视觉-语言建模从感知、理解与推理扩展至连续动作和轨迹生成。它通过基于DiT的动作解码器实现，使用包含机器人操作轨迹、人类第一人称示范、仿真及导航数据等在内的大规模数据进行联合预训练。为支持多种平台，引入了感知载体感知的提示条件机制，并将操作、导航与轨迹预测统一到一个框架中。实验显示，Qwen-VLA-Instruct在多个基准上表现优异，例如在LIBERO达到97.9%，在真实世界ALOHA实验中平均分布外成功率为76.9%。

具身智能多模态论文/研究

同一事件，精选展示《Qwen-VLA：从理解世界到付诸行动》

推荐理由：Qwen-VLA 让一个模型同时搞定操作、导航和轨迹，在具身智能统一化上迈出了关键一步。虽然还停在实验室阶段，但 97.9% LIBERO 和真实世界泛化结果证明这条路走得通，做机器人的值得认真读。

11:29

HuggingFace Daily Papers（社区热门论文）

61

AdaState：用于流式视频生成的自我演化锚点

自回归视频扩散模型通过序列生成帧来制作流式视频。其当前方法因固定锚定于第一帧，导致注意力缓存中的关键值表示占据特权位置，使生成的视频动态性不足、场景进展迟缓，呈现时间上的浅薄性。为此，AdaState 方法引入一个可自我演化的自适应状态来替代固定锚点。该状态是一个隐藏潜变量，模型在每个生成块中将其与内容一起去噪，但不进行渲染。模型通过同时关注前一状态和当前内容来生成场景锚点，使参考点随内容演化。这一设计将时间视为相对概念，为生成过程引入了循环性。实验证明，该自适应状态显著提升了视频动态性，能实现更丰富的运动和自然的场景进展。

多模态视频论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

63

超越3D视觉问答：将3D空间先验注入视觉语言模型以增强几何推理

视觉语言模型通常缺乏鲁棒的3D空间推理能力。现有方法或依赖3D视觉问答数据集进行微调，导致过拟合；或集成专用3D编码器，显得笨重且不灵活。本研究提出GASP框架，直接将基础几何先验注入大语言模型的Transformer层。该框架利用大规模视频场景的真值几何数据，通过一个小型对应头进行双目标训练：对比损失强化2D视角不变性，深度一致性监督解决3D几何歧义。分析表明，标准模型内部的对应匹配准确率极低（常低于5%）；GASP训练后，该指标峰值超过70%，且时间鲁棒性超过85%。这在下游基准测试中带来显著提升，包括在All-Angles Bench上提升+18.2%，在VSI-Bench上提升+29.0%，且无需任何3D VQA数据训练。

多模态推理论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

63

神经物体运动学：NeuROK

当前数据驱动方法在静态3D物体重建上表现突出，但生成符合物理规律的4D动态形变仍具挑战，现有方法多依赖预定义物理模型与参数估计，局限于特定类别。该研究提出NeuROK，通过学习一个表征物体所有可能状态的潜空间及一个将潜空间采样映射为合理形变形状的解码器，实现了数据驱动的运动状态参数化。其在大规模4D数据集上训练了基于Transformer的编码器-解码器模型，将动态生成简化为低维潜空间中的操作，从而能更高效地生成多类物体的逼真动态。

多模态数据/训练论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

60

局部模态替换：实现更深度融合的视觉语言模型

现有视觉语言模型存在“载体敏感性”问题，即将文本问题替换为等义图像后性能会显著下降，原因在于训练数据中文本和图像的角色不对称。为此，研究者提出一种轻量级、架构无关的数据整理范式LoMo，其通过将单模态提示词动态重构为“文本、图像、文本”的交错多模态序列，来提供跨模态表征不变性的监督信号。在13个多模态基准测试上的实验表明，LoMo能有效提升模型的多模态推理能力，相比标准SFT，LLaVA-OneVision-1.5-8B提升2.67分，Qwen3.5-9B提升2.82分。

多模态论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

精选75

WorldMemArena：通过行动-世界交互循环评估多模态智能体记忆

针对现有基准无法精确诊断多模态智能体记忆在动态环境中的具体失败阶段，研究提出了“行动-世界交互循环”记忆模型，并构建了WorldMemArena基准。该基准包含400个多会话多模态任务，涵盖“终身进化”和“智能体执行”两类场景，支持对记忆写入、维护、检索和使用的阶段级评估。研究首次对长上下文、RAG等手工设计系统与基于框架的记忆智能体进行直接比较，发现记忆写入与存储质量的提升不直接带来性能改善，且多模态记忆在利用视觉证据及跨领域稳定性上仍存在挑战。

智能体多模态论文/研究评测/基准

推荐理由：首个能定位多模态 Agent 记忆“写、维、取、用”哪一步出问题的基准，头对头比较长上下文、RAG 和自管理记忆，结论是写得好未必用得上，做 Agent 的值得认真看。

11:06

OpenRouter@OpenRouter

69

阶跃星辰的Step 3.7 Flash已在OpenRouter上线。这是一个多模态（图像/视频/文本）MoE模型，196B参数中仅激活11B。针对编码、智能体工作流和结构化输出进行了调优，并提供可选的推理级别，以权衡速度、成本和深度。

智能体多模态模型发布编码

关联讨论 3 条X：阶跃星辰 StepFun (@StepFun_ai)IT之家（RSS）公众号：阶跃星辰（Step）

10:44

PixVerse@PixVerse_

65

我们制作了一个15秒的动画IP预告片--从角色设定到最终视频。认识一下MILO和BUMBLE：地下邮政骑手转发+关注+回复=我们会私信发送工作流程和提示词

多模态教程/实践视频

10:32

Berryxia.AI@berryxia

72

Claude Opus 4.8 在 ZenMux 平台开启免费体验

Anthropic 旗舰模型 Claude Opus 4.8 现已在 ZenMux 平台提供免费体验。实测中，该模型根据提示词一次生成可运行的 HTML 网页，仅用 Three.js 内置几何体纯手搓出一架包含后掠机翼、四台发动机、可收放起落架等复杂结构的高细节波音 747-400，比例精准、效果惊艳。模型在 SWE-bench、Terminal-Bench、Agentic Coding 等多项榜单排名第一，代码与多模态理解能力较上一代有显著提升。ZenMux 平台以 ZeroDelay 方式首发新模型，并提供限时免费额度。

Anthropic 多模态编码评测/基准

1…20 212223 24…50