5月26日

12:18

HuggingFace Daily Papers（社区热门论文）

Helix4D是一个动态网格生成框架，旨在解决现有方法在处理复杂拓扑、透明材质和薄结构等场景时的不足。该框架继承了Trellis2的强大表示能力，将其从图像生成3D扩展到基于视频的4D生成。为兼顾信息共享与预训练质量，它采用了滑动窗口跨帧注意力并锚定第一帧。同时，其设计的4D时序编码复用了低频空间RoPE频段来表示时间维度，无需额外参数。实验在ActionBench和自建复杂数据集上验证了该方法生成高质量动态网格的有效性。

多模态视频论文/研究

12:11

IT之家（RSS）

小米汽车发布 Xiaomi Auto World Model 世界模型全新框架：重建 + 生成一体化，主流基准测试全面 SOTA

小米汽车发布 Xiaomi Auto World Model 框架，首次将三维重建与视频生成深度耦合，打破行业独立拆分的技术路线。该框架在 Waymo、nuScenes 等主流基准测试中全面取得 SOTA，并已在合成数据生成（已交付超10万 clips 数据）、仿真测试、辅助驾驶学堂三大场景落地。

多模态数据/训练端侧视频

11:18

HuggingFace Daily Papers（社区热门论文）

迈向原生多模态建模：一份路线图

本文提出了从多模态无关推理迈向世界建模的路径，聚焦从后期融合范式转向原生多模态建模（NMM）。研究正式定义了架构的原生性，将中期融合与早期融合从非原生范式中区分，并依据输入输出对偶性将现有原生模型分为三类：用于跨模态理解的“多模态输入至文本输出”、面向特定场景生成的“多模态输入至目标输出”，以及统一建模的“多模态输入至多模态输出”。文章系统性地探讨了向最终原生多模态建模框架的工业级转型路径，涵盖架构协调、大规模数据构建、全栈训练方案、推理部署及综合评估。

多模态论文/研究

11:18

HuggingFace Daily Papers（社区热门论文）

精选70

WBench：面向交互式世界模型评估的多轮基准

WBench 是一个用于系统评估交互式世界模型的多轮基准。它提出了一个五维评估框架，涵盖视频质量、场景设定遵循度、交互指令遵循度、一致性与物理符合性。该基准包含 289 个测试案例与 1,058 轮交互，覆盖了多样化的场景、风格、主体及第一/第三人称视角。评估使用 22 个结合专业视觉模型与大型多模态模型的自动子指标，所有指标均经过人工校验。对 20 个 SOTA 模型的评测发现，目前尚无模型在所有维度上表现均优。

arXiv 多模态视频论文/研究

推荐理由：视频世界模型的评估终于有了统一尺度，WBench 从画面质量到物理一致性覆盖五个维度，289 个测试用例把 20 个模型拉平一看，没有谁全面领先，做这方向的值得拿来跑一遍。

11:18

HuggingFace Daily Papers（社区热门论文）

TriSplat：面向仿真的前馈式3D场景重建网络

TriSplat是一种前馈式3D场景重建网络，采用定向三角形基元表示场景。它能直接从稀疏视角图像，通过一次前向传播生成可用于仿真的网格场景。模型预测局部3D点图、三角形属性、相机位姿，并由点图构建法线以稳定三角形参数化。在RealEstate10K和DL3DV数据集上的实验表明，其几何保真度优于基于高斯的前馈基线，同时渲染质量具有竞争力。输出的表面三角形可直接被物理引擎和标准渲染管线使用，无需额外转换。

具身智能多模态论文/研究

11:11

IT之家（RSS）

用户反馈智能家居版谷歌 Gemini AI 短板：猫当成浣熊，袋鼠识别为"人"

澳大利亚用户反馈，智能家居版 Gemini for Home 在摄像头画面中出现识别错误：将猫误判为浣熊，把袋鼠和沙袋鼠错误归类为“人”，并将当地常见的多用途车辆 ute 统一标为普通卡车。用户表示即使已开启个性化功能并设置位置为澳大利亚，这些误识别问题仍持续出现。

Google 多模态行业动态

10:18

HuggingFace Daily Papers（社区热门论文）

MetaphorVU：迈向隐喻视频理解

为系统评估多模态大语言模型（MLLMs）对隐喻视频的理解能力，研究团队提出了首个专项基准测试 MetaphorVU-Bench。实验发现，当前 MLLMs 在隐喻视频理解上表现不佳，远未达到人类水平，主要缺陷在于跨域映射能力不足。为此，团队构建了一个隐喻知识图谱进行映射增强，并提出了推理时增强框架 MetaphorBoost，该框架实现了性能的持续提升。

arXiv 多模态论文/研究评测/基准

09:22

Elon Musk@elonmusk

同事件精选67

xAI发布了面向非技术背景的SuperGrok和X Premium+用户的Grok Build入门视频教程。教程提供了分步指南，核心内容包括：通过一条命令快速安装Grok Build；利用其创建真实的网站；使用内置的Grok Imagine工具自动生成图像与视频；以及在不同文件夹中同时运行多个项目。整个过程无需任何编程经验，并且Grok可以协助执行命令。

Dan: Beginner video: How to install & use Grok Build (made for non-technical SuperGrok and X Premium+ users) I got so many qu...

xAI 多模态教程/实践

同一事件，精选展示《Grok Build 0.1 on API》

推荐理由：Elon 亲自转发的教程把 Grok Build 门槛压到了零编码，直接面向普通用户，是目前最友好的官方入门信号。