6月22日

08:00

HuggingFace Daily Papers（社区热门论文）

SingGuard是一种将活跃政策作为运行时输入的多模态LLM护栏模型系列，可逐条检查内容并预测安全标签与触发规则。支持快速、混合和慢速三种推理模式，并通过快慢解耦强化学习优化。同时发布SingGuard-Bench基准，含56,340个样本，覆盖80+细粒度风险类型及跨模态联合风险。在6个基准家族（35个数据集）上均取得平均F1 SOTA；动态规则评估下政策遵循准确率从0.6465提升至0.7415。代码已开源。

arXiv GitHub 多模态推理

08:00

HuggingFace Daily Papers（社区热门论文）

ABACUS：适配统一基础模型以桥接图像计数理解与生成

ABACUS是一个统一的视觉语言模型，无需基准特定训练即可处理对象计数、人群计数、指代表达式计数和计数忠实的图像生成。它基于3B参数基础模型，通过三项创新适配目标定位：基于目标图的密度感知自适应缩放实现空间定位；GRPO边界感知计数策略消除裁剪边界错误；循环一致GRPO策略让理解分支自我批判生成输出，无需外部标注缩小理解-生成差距。在七个基准上取得SOTA，超越任务专用专家和更大通用模型。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

VeriEvol：通过可验证进化指令扩展多模态数学推理

VeriEvol 是一个迭代框架，将多模态数学推理的奖励可靠性问题转化为可验证的数据构造问题。其类型感知进化模块将低难度图像-问题种子改写为更难的图像化提示；HTV-Agent 验证器在多项反证失败后才接受答案。在五个视觉数学基准上，将进化 SFT 数据从 10K 扩展至 250K 样本，平均准确率从 35.42 升至 54.73；固定 backbone、SFT 初始化和 GRPO 配方后，VeriEvol 相比未进化 RL 基线累积提升 +3.88，其中进化提示贡献 +1.82，验证器贡献 +2.06。项目开源全部提示、数据、模型、代码及验证轨迹。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

语义浏览：图像生成的可控多样性

现有文本到图像模型虽保真度高，但生成样本单一。现有多样性方法往往产生偶然变化而非有意义的设计选择。本文提出可控多样性方法“语义浏览”，让用户沿可解释变化轴系统遍历结构化图像画廊。核心思路是将语义决策与像素生成分离，直接在文本层面诱导多样性：利用视觉语言模型（VLM）操作完整场景上下文，并通过智能体工作流强制执行与原始提示一致的结构化变化。该方法生成多样且可导航的设计空间，每种变化对应一个可理解的语义决策。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ChartWalker：面向跨图表RAG任务的基准框架

ChartWalker是一个面向跨图表检索增强生成（RAG）任务的新框架。它采用层次知识图谱构建方法，按粒度组织实体与关系，并设计结构感知采样算法生成语义一致的多跳推理路径，显式控制查询难度与粒度，以解决现有基准中查询与证据词汇重合度高、推理链逻辑不一致的问题。基于该框架发布ChartWalker-Bench基准，覆盖多领域与多类型跨图表查询。主流RAG范式评估显示显著性能差距，同时提供ChartWalker-Agent基线辅助分析。

检索增强多模态论文/研究

6月21日

08:00

HuggingFace Daily Papers（社区热门论文）

交错式语音语言模型在文本中隐式工作

通过logit lens分析不同家族和规模的交错式语音语言模型，发现模型在中间层隐式地将语音转录为文本token——77%的数据中目标语音对应的文本词出现在候选词前列，随后模型在文本空间中预测下一个词再转回语音域。这一行为并非源自语音识别训练，交错数据和文本LM初始化是诱发该机制的关键因素。

多模态论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

Look Light， Think Heavy：多模态Chain-of-Thought推理能做什么、不能做什么

系统评估12个多模态任务（14个非推理模型、8个推理模型），发现：①CoT并非免费午餐——在视觉定位、物体计数等感知任务中反而降低性能，在数学、科学、多图像推理中有效；②现有开源多模态推理模型相比原始模型整体提升有限，可能因过度侧重数学推理而牺牲其他能力；③视觉推理是瓶颈，模型呈现“Look Light, Think Heavy”模式——语言反思起伏，视觉反思持续减弱，缺乏全程深度视觉内省。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Libretto：赋予LLM智能体音乐结构感知

Libretto是一个面向LLM智能体的符号音乐生成与修订框架，采用包含显式onset槽、声部和小节组织的LLM原生语法，并在节奏、和声、旋律、织体、形式与变奏的语料校准统计空间中评估每首作品。同一结构轴支持检索、诊断、复制风险控制及迭代自修订。在填空生成、参考引导整曲生成、渐变变形与教育音乐生成等任务中，Libretto将符号音乐从原始token序列转化为语言模型智能体可测量、可编辑的对象。

智能体多模态论文/研究

04:08

HuggingFace Daily Papers（社区热门论文）

Lexical Consensus：人工智能体基于具身经验的词汇习得与共享意义

Lexical Consensus 是一个研究AI智能体通过具身经验习得、稳定并运用词汇意义的框架。使用冻结DINOv2视觉嵌入、Carroll式假词和可解释词汇学习器，实验发现感知连贯性梯度主导学习效果：原生类别最易习得，远析取概念接近随机。CIFAR-100解离实验证实，感知距离显著预测习得准确率（partial R²=0.245, p<1e-7），语义距离无显著解释力。双向评估显示，样例机制在标签到图像检索中优于质心原型，命名与检索是分离的能力。控制实验表明，冻结的感知几何同时支撑了词汇基础并限制了无需表征适应即可习得的范围。

arXiv 多模态论文/研究

6月20日

21:00

IT之家（RSS）

高通 CEO 安蒙：智能眼镜市场有望比肩手机

高通 CEO 安蒙认为，AI 智能体将改变应用和设备使用方式。他设想的入口之一是内置摄像头和显示屏的智能眼镜，用户告诉数字助理需求，AI 智能体即可协调多个应用完成流程。安蒙指出应用不会消失但会变化，智能体将成为新应用。苹果 Siri、三星 Bixby 等数字助理能力持续提升。未来手机和新设备将围绕 AI 智能体重新设计。高通正参与 40 多种 AI 设备设计，包括智能首饰、带摄像头的耳机、智能胸针和手表。安蒙最看好智能眼镜，预计其规模最终可与智能手机相当——去年全球智能手机出货超 12 亿部。

智能体多模态大佬观点端侧

09:59

IT之家（RSS）

超级珊瑚礁被发现：水温高出2°C仍生机盎然

全球海洋热浪致超80%珊瑚白化背景下，伍兹霍尔海洋研究所团队在马绍尔群岛马朱罗环礁发现一片生机勃勃的珊瑚礁，命名为“超级珊瑚礁”。模型预测该处水温比其他区域高近2°C，实地实验证实其耐热性最强。团队使用无人船“黄鳍”搭载GoPro相机，单日扫描40英里礁石并拍摄2万张图像，远超百名潜水员数周工作量。随后用这些图像训练AI模型自动识别白化与恢复状况，并构建三维模型分析珊瑚位置、角度对热暴露的影响。科恩设想建立“超级珊瑚礁蓝色走廊”，连接马绍尔群岛、基里巴斯和图瓦卢的保护区网络，利用洋流让耐热珊瑚幼虫跨区域繁殖。

其他多模态

08:00

HuggingFace Daily Papers（社区热门论文）

BioMatrix：首个原生整合分子与蛋白质序列、结构与语言的多模态基础模型

BioMatrix采用单一解码器架构，通过统一token化方案将分子序列（SMILES/SELFIES）、分子结构、蛋白质序列、蛋白质结构和自然语言映射到共享离散token空间，所有模态均以下一个token预测目标生成。模型基于Qwen3（1.7B和4B），在3044亿tokens上预训练。在80项下游任务中，BioMatrix在77项上达到最优或竞争力水平。

Hugging Face 多模态数据/训练论文/研究

07:59

IT之家（RSS）

visionOS 27 今秋推送：M5 Vision Pro 头显独占 Siri 语音定制和苹果最强本地 AI 模型

visionOS 27 将于今秋推送。M5 Vision Pro 独占 Siri 语音定制（Voice Customization），用户可自由调整语气表现力和语速；同时独占搭载 AFM 3 Core Advanced 本地 AI 模型，该模型支持原生多模态能力并采用稀疏架构，需 M5 芯片算力支撑。M2 款 Vision Pro 可共享 visionOS 27 大部分升级，包括 Siri AI、全景照片转空间场景、重新设计的控制中心、更智能的自然语言理解及语音操作交互等。苹果承诺未来通过云端计算为 M2 设备提供部分 AI 功能的折中方案，具体细节尚未公布。

产品更新多模态端侧语音

6月19日

15:55

HuggingFace Daily Papers（社区热门论文）

FlowBender：反馈感知训练用于自纠正条件流

条件扩散和流模型常生成与输入约束不一致的样本。FlowBender 是一个闭环框架，将对齐误差作为第一类输入，训练网络学习基于推理时反馈的修正策略。通过无引导的前向预估步骤估计干净信号，经前向算子计算偏差，再由精炼步骤生成修正速度。包含基于梯度的实现和针对不可微场景的零阶变体，并利用前一步捷径降低额外计算成本。在图像到图像翻译、图像复原和3D网格纹理任务中，同时提升了保真度与合理性。

图像生成多模态数据/训练论文/研究

11:16

IT之家（RSS）

谷歌与Refik Anadol打造全球首个AI艺术博物馆Dataland

谷歌携手艺术家Refik Anadol，在洛杉矶打造全球首个AI艺术博物馆Dataland，将于6月20日开馆。博物馆面积约2500平方米，开幕展“Machine Dreams: Rainforest”由Large Nature Model驱动。利用Google Cloud的Gemini Enterprise Agent Platform和Compute Engine，协调GANs、扩散模型和Gemini等AI模型，将环境数据转化为12亿像素的超生成现实。博物馆通过Google基础设施生成动态声景、实时情绪感应和算法增强气味，与访客动态交互。系统使用87%无碳可再生能源运行。

Google 多模态行业动态

10:47

HuggingFace Daily Papers（社区热门论文）

Holo-World：面向视频世界模型的统一相机、物体与天气控制

Holo-World 是一种视频世界模型，从单张图像出发，根据显式相机控制、物体控制和可选天气指令，生成保留原场景或转换到目标天气的视频。其 Unified Scene Adapter 将世界保留与天气迁移分解为独立参数子空间，利用渲染背景、几何缓冲和物体控制维持场景结构，并建模天气依赖的外观与粒子效果。Scene-Weather Decomposed CFG 分别引导场景与天气残差，增强目标天气效果而不过度放大全条件。该模型在保持精确相机与物体控制及场景结构一致性的前提下，天气状态生成优于视频到视频的天气编辑基线。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

UnityShots：记忆驱动的多镜头音视频生成系统

UnityShots基于LTX-2.3构建，通过记忆驱动实现多镜头音视频生成。视频流维护两个固定大小的记忆插槽：长期记忆（LTM）锚定开场镜头，短期记忆（STM）保存前一段尾部，由边界条件门控（融合视觉剪辑概率与节拍跟踪器信号）在每次剪辑时更新。音频流在每镜头注入参考说话者token以保持音色。离散剪辑类型先验通过AdaLN学习，推理时可调节过渡强度。团队发布包含200个多文化多镜头序列的基准，覆盖6个种族区域和10+语言，附有每镜头参考身份、参考音频和边界标签。在I2V、T2V和R2V条件下，UnityShots在所有跨镜头一致性指标上领先开源基线，并在多镜头维度匹配最强闭源系统。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ICME 2026 ATTM效率赛道：FluxAudio-S 结合 TuneJury 人类偏好奖励

研究人员在 120M 参数的 FluxAudio-S 骨干上构建管道，引入来自 TuneJury（基于开放音乐偏好数据集的成对排序器）的人类偏好奖励，同时作为训练时条件信号和样本选择标准。五个工程决策包括：训练时奖励条件（兼作推理 CFG 轴）、五种分数条件架构扫描、对 top decile 专家迭代、短偏好微调 CRPO、以及推理后处理（联合 CFG、源分离、响度归一化）。在 100 个 Song Describer 提示上的逐阶段分解表明，专家迭代贡献最大，训练时奖励条件有效，而偏好微调仅带来噪声级增益。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DataClaw_0-9B：从原始流中智能体化定制多模态数据

DataClaw_0-9B提出主动智能体化数据定制范式，将数据处理提升为可学习能力。通过两阶段pipeline将生成语义合成锚定于确定性事实锚点，构建覆盖五个物理与数字域的大规模数据集，并采用SFT与GRPO实现与复杂定制意图对齐。同时构建首个数据精炼基准DataClaw_0-val，在视频生成、真实世界VQA与GUI导航下游任务中验证了其提供高信息密度数据的能力。

多模态数据/训练论文/研究

6月18日

22:44

HuggingFace Daily Papers（社区热门论文）

ViGOS：视觉引导的在线自蒸馏框架

针对在线自蒸馏（OPSD）直接扩展到多模态大语言模型（MLLM）时产生的捷径（特权目标依赖文本参考而非图像），ViGOS提出视觉引导的OPSD框架：学生先写出视觉描述再推理。有效rollout中，纯图像感知教师监督描述，特权推理教师监督推理和答案；无效rollout由参考教师恢复输出格式。ViGOS在通用视觉语言、专家推理等基准上保持OPSD优势，并改善了图像依赖行为。

多模态推理论文/研究

22:14

IT之家（RSS）

Adobe Firefly AI 平台升级：为 Creative Cloud 套件引入智能体

6月18日，Adobe为Firefly推出更新，引入Creative Skills，用户通过自然语言对话即可生成Logo、配色方案、营销视频等，Firefly会主动反问以完善需求，并提供控制面板微调字体、镜头运动等细节。同时，Photoshop、Premiere Pro等软件加入智能体，侧边栏输入指令可整理素材、重命名文件、更新设计稿。

智能体产品更新多模态

21:44

HuggingFace Daily Papers（社区热门论文）

MolmoMotion：基于语言指令的3D点轨迹预测模型

MolmoMotion将运动预测形式化为目标条件的3D点运动预测：给定短视觉历史、物体上的3D查询点集和语言描述的目标，预测每个点的未来3D轨迹。研究包含三个组件：MolmoMotion-1M数据集（从116万段无约束视频中标注动作描述和3D点轨迹）、PointMotionBench人工验证基准（覆盖111类物体和61种运动类型）以及MolmoMotion模型（支持自回归坐标预测和流匹配轨迹生成）。该模型能根据语言指令预测多样化运动，在基准上显著超越现有方法，且学到的3D运动先验可迁移至机器人操作和视频生成。

具身智能多模态论文/研究

21:21

The Decoder：AI News（RSS）

精选72

Adobe 为 Photoshop、Premiere 等多款 Creative Cloud 应用加入 AI 智能体

Adobe 将其“创意智能体”扩展至 Photoshop、Premiere 等应用，以公开测试形式提供 AI Assistant。该智能体可自动完成多步骤常规任务，如 Premiere 分拣素材和粗剪、Photoshop 换背景、Illustrator 批量生成文件、InDesign 更新版式等。Firefly 新增面向个人创作者的品牌套件、产品图转短视频及 Quick Cut 自动剪辑功能。Adobe 工具已集成至 ChatGPT、Claude 及 Microsoft 365 Copilot，Google Gemini 和 Slack 集成即将推出。

智能体产品更新多模态

推荐理由：Adobe把AI助手直接塞进了Photoshop、Premiere这些上亿人用的创作工具，干的虽然是粗剪、排版一类的苦力活，但却是AI从生成器转向流程助手的关键一步，值得所有创意工作者上手试试。

21:18

TechCrunch：AI（RSS）

Pixi 发布 iMessage AR 应用，可发送 AI 驱动互动角色

Pixi 在 App Store 上线 iMessage 应用，用户可发送 AI 驱动的 AR 角色。角色通过收信人 iPhone 相机实时与真实环境互动，能感知面部表情和周围物体，所有视觉和音频处理在设备端进行以保护隐私。首批角色包括机器人、猫和动画信封，支持井字棋等游戏。未来计划开放市场供品牌和创作者提供专属角色，并允许用户自创。应用免费，品牌可选择性收费。仅支持 iPhone 11 及以上机型，未来将扩展至 Android 和 WhatsApp 等平台。

产品更新多模态端侧

20:14

IT之家（RSS）

DeepSeek 识图模式正式上线，无法识别创始人梁文锋

DeepSeek 识图模式于 6 月 18 日在 App 和网页端上线。IT之家测试发现，该模式无法正确识别创始人梁文锋的照片，多次将其识别为董宇辉、张雪峰或雷军；而雷军照片可正常上传并准确识别。原因可能是梁文锋网络公开照片和信息较少，模型难以形成稳定识别特征，说明 DeepSeek 未针对自家老板做特殊识别优化。

DeepSeek 产品更新多模态

18:30

公众号：百度智能云（文心）

百度智能云联合十家伙伴，推动AI能力落地手机、PC、玩具、眼镜等硬件

百度智能云宣布与荣耀、vivo、OPPO、灵优智学、利尔达等十家伙伴合作，在手机、AI PC、芯片模组、AI玩具、AI眼镜等场景接入文心大模型、千帆及DuMate等能力。荣耀YOYO智能体接入文心大模型实现端云协同；vivo基于千帆7天搭建高考智能体，高峰日支撑10万次交互；OPPO用千帆搭建售后客服智能体，高频问题处理效率提升一倍；利尔达将AI集成至模组，端到端响应低于2秒；灵优智学实现1.3秒首响延迟。百度智能云已支持超1000款AI硬件爆品。

多模态端侧行业动态

17:14

IT之家（RSS）

精选82

八部门：用好个人消费贷款财政贴息政策，支持消费者购买 AI 相关产品

商务部等八部门6月18日发布关于加快“人工智能+消费”发展的实施意见。其中提到加大财政资金支持，落实数码和智能产品购新政策，鼓励地方在消费品以旧换新框架内自主制定补贴，重点支持新一代智能终端消费。增加AI手机、智能电脑、智能电视、智能家居、AI眼镜、智能网联汽车、人形机器人等产品供给，培育智能穿戴消费市场。同时加快AI在居家服务、养老服务、文化旅游、住宿餐饮、教育教学等领域的应用，建设AI商品首发平台，举办“人工智能进万家”活动。

具身智能多模态政策/监管

推荐理由：八部门联合推AI消费补贴，从手机、机器人到养老教育全覆盖，这是国家层面推动AI产品普及的强烈信号，终端厂商和消费者都将迎来实质利好。

16:14

IT之家（RSS）

比人鼻更准：新型电子嗅觉芯片可识别 0.05 克腐败坚果

加州大学伯克利分校团队研发出一款集成16个微型气体传感器阵列的电子嗅觉芯片，每个传感器涂有不同感应膜，接触气体后产生独特电信号，被称为“数字鼻子”。经机器学习训练，芯片能识别7种食品（草莓、蓝莓、香蕉、核桃、榛子、腰果、花生）以及新鲜与腐败的鸡肉、牛奶、鸡蛋。测试中可在沙拉或蛋糕等复杂气味背景中检出仅0.05克核桃。但在多种腐烂食物共存的开放环境中，准确性仍需验证。

多模态论文/研究

16:14

IT之家（RSS）

精选72

DeepSeek 识图模式正式上线 App 和网页端

DeepSeek 识图模式于6月18日在网页和 App 端正式上线，与快速模式、专家模式并列。开启后用户可直接上传图片让 DeepSeek 识别图像，能力超越简单文字提取。目前 App 端仍显示“图片理解功能内测中”，网页端无此提示。该模式背后的多模态模型技术细节于今年4月公开，核心框架为“Thinking with Visual Primitives（以视觉原语思考）”。

DeepSeek 产品更新多模态

推荐理由：DeepSeek的识图模式终于从内测进了正式版，虽然是补课而非破圈，但对中文用户来说，让AI直接看图比打字描述常用太多，日常工作和内容处理都更顺手了。

12:44

HuggingFace Daily Papers（社区热门论文）

OmniAgent：原生全模态智能体实现长视频主动感知推理

OmniAgent 提出首个原生全模态智能体框架，将长视频理解建模为基于 POMDP 的迭代观察-思考-行动循环。它通过按需动作选择性提取音视频线索并转化为持久文本记忆，使推理复杂度与视频时长解耦。训练采用 Agentic SFT（最佳轨迹合成与双阶段质量控制）和基于 TAURA 的 Agentic RL（利用 turn 级熵分配探索奖励）。模型在测试时呈现正向缩放：推理轮次越多性能越强。在 VideoMME、LVBench 等 10 项基准上，OmniAgent 达到开源模型最佳水平。7B 参数版本在 LVBench 上以 50.5% 超越 10 倍大的 Qwen2.5-VL-72B（47.3%）。

智能体多模态论文/研究

11:14

The Verge：AI（RSS）

Midjourney Medical 推出全身超声波扫描仪及 Spa 计划

Midjourney CEO David Holz 展示了首款硬件 The Midjourney Scanner，一款基于超声波的全身扫描仪。设备采用环形传感器阵列，通过水下传感器从多角度发送超声波，约 60 秒完成扫描，捕捉肌肉、脂肪、骨骼等垂直切片。与 Butterfly Network 合作，每台搭载 40 个成像模块及 2 petaflops 处理能力，Holz 称图像质量“在许多方面可比肩 MRI”。Midjourney Medical 计划 2027 年底前在旧金山 Union Square 开设 Midjourney Spa，内设 10 台扫描仪及健身房、桑拿、冷浴。目前仅提供“身体成分图”，不涉及 FDA 诊断许可，用户可创建扫描库并与医生或 AI 健康工具共享。

产品更新多模态

10:14

IT之家（RSS）

谷歌 Chrome 浏览器新增 AI Mode 按钮，可一键开启侧边栏问答

谷歌在 Canary 频道最新 Chrome 浏览器中引入实验性 Flag，启用后工具栏可嵌入 AI Mode 快捷方式。AI Mode 是谷歌搜索结果页的 AI 对话交互，支持自然语言提问、多轮对话及文件上传分析。用户启用“Contextual Tasks Pin Button In Toolbar”Flag 后，点击按钮将在当前页面右侧弹出侧边栏，可针对浏览内容提问并上传文件。谷歌正测试“Browse with AI”和“Google Search AI Mode”两个暂用名。

Google 产品更新多模态搜索

09:43

HuggingFace Daily Papers（社区热门论文）

RNG-Bench：多模态大语言模型在可控非马尔可夫游戏中的评估基准

RNG-Bench是一个评估多模态大语言模型在闭环交互中重建过去观测并据此行动能力的基准套件，包含Matching Pairs和3D Maze两个互补游戏。基准通过网格大小、视觉模式和观测模态三个难度轴控制复杂度，并引入对决赛制消除实例方差及Memory Gap指标分离遗忘与决策错误。最难配置需约128K tokens上下文和每轮350张图像，前沿模型尚未饱和。Memory Gap分析显示主要错误源于遗忘。微调Qwen3.5-9B可提升该基准性能并迁移至现有基准，不损失通用多模态能力。

arXiv 多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

CogniRoute：全模态社交推理的模式引导MoE框架

CogniRoute 是一个基于模式引导的混合专家（MoE）框架，专用于全模态社交推理。它在训练时通过认知模式分解跨模态关系、推理需求和时序范围，并在监督微调中对齐全局路由签名；还引入路由感知强化学习，联合优化 token 生成与专家分配。在 OmniSocialBench（含118K结构化训练示例的诊断性社交视频问答数据集）上，CogniRoute 平均准确率达59.38%，比最强专有基线高15.33个百分点，比最强开源全模态基线高26.77个百分点，在视听协调、冲突解决和时序社交推理上提升最大。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Robusto-2：在利马与纽约市自动驾驶场景中的人类与VLM基准测试

研究对比视觉语言模型（VLM）与来自利马和纽约的人类驾驶员在两地行车记录仪视频上的表现。使用VQA范式提出事实、评级、反事实和推理四类问题，测试泛化能力。结果发现人类与VLM的回答存在差异，但地理来源对双方回答均无显著影响。数据集已公开。

具身智能多模态论文/研究

07:17

Claude：Blog（网页）

Claude Opus 4.8 Build Day黑客马拉松获奖项目揭晓

6月13日，Anthropic在旧金山举办12小时黑客马拉松，310名参与者使用Opus 4.8和$500 credits完成原型。第一名Tekton：输入历史建筑照片后，Claude自动搜集图纸等资料，跨339个施工步骤重建3D模型，每个构件附带证据链；自纠循环反复检查直至20项测试全部通过。第二名Sim Francisco：基于美国人口普查数据生成10,000名合成市民，各具独立世界观，实时对新闻投票，精准预测选举结果。第三名Custom Universe：用手机拍摄物件照片，Opus 4.8将其转为可拖放、实时渲染的3D物体，支持文本指令重设风格。

智能体 Anthropic 多模态行业动态

04:42

Hacker News 热门（buzzing.cc 中文翻译）

Launch HN： Adam（YC W25）--开源人工智能CAD

Adam 是一个开源 AI CAD 工具，可将自然语言和图像输入转化为 3D 模型。它完全在浏览器中运行（基于 WebAssembly），提供参数化滑块调节和实时预览（Three.js），支持导出 .STL、.SCAD、.DXF 格式，内置 BOSL、BOSL2 和 MCAD 库。基准测试显示，从单一提示词即可生成全参数化 OpenSCAD 模型，包括 V8 发动机、9 缸径向航空发动机、高旁通比涡轮风扇发动机等复杂多部件机器，以及六角扭曲花瓶、M12 螺栓与螺母等参数化零件，每个模型附带可调节维度和颜色数量。

GitHub 产品更新多模态开源生态

6月17日

23:43

Hugging Face：Blog（RSS）

精选69

MolmoMotion：语言引导的3D运动预测模型

MolmoMotion基于Molmo 2骨干网络，输入视频帧、物体上的3D点标记及文字动作指令（如“移动并旋转桌上放水果的木碗”），预测未来数秒内这些点的3D轨迹。提供两个变体：自回归的MolmoMotion-AR逐步预测坐标，流匹配的MolmoMotion-FM通过连续空间变换处理多可能性运动。同时发布MolmoMotion-1M数据集（含116万视频的3D点轨迹及动作描述）和PointMotionBench基准测试（2700个人工验证视频片段）。模型权重、数据集和基准测试均已开源。

Hugging Face 具身智能多模态模型发布

推荐理由：MolmoMotion把3D运动预测从模板化推到任意物体，百万级数据集和基准让研究门槛大降，做机器人和视频生成的值得认真看，但目前仍是研究阶段，离落地还有距离。

21:07

IT之家（RSS）

精选74

阿里云发布HappyOyster 1.0：一句话生成可实时交互的数字世界

6月17日，阿里云发布开放式世界模型HappyOyster 1.0（快乐生蚝）。该产品基于原生多模态架构，支持多模态输入与音视频联合生成，可在生成过程中持续接收用户指令并实时响应画面。它深度学习物理世界状态转移规律，保持人物和环境长程一致性。官网开放“实时导演”与“世界探索”两种玩法：前者可随时叫停改写故事、与虚拟男友实时互动等；后者支持自由漫游、滑板冲刺、翼装滑翔、骑马奔驰、攻击打怪等交互。该产品已于今年4月16日开放内测，即日起至7月17日官网不定期掉落体验积分。

产品更新多模态视频

推荐理由：阿里把世界模型做成了可玩的交互产品，一句话生成能探索能互动的数字世界，实时导演模式直接替代了一部分短剧和互动内容创作，虽然还像噱头但至少是能玩的尝试。

20:42

HuggingFace Daily Papers（社区热门论文）

EgoCS-400K：面向世界模型的第一人称游戏数据集

EgoCS-400K是基于CS/CS2职业比赛demo构建的大规模第一人称数据集，保留了人类游戏轨迹并支持解析、回放、渲染和时间对齐。包含超过40万段第一人称视频、1万小时游戏内容，来自1000多场比赛和4万回合，覆盖13张地图、每回合10个玩家视角。数据集提取了玩家状态、视角方向、移动、键盘/按键输入、视角变化、武器使用、游戏事件和回合上下文，并渲染出干净的第一人称视频。支持动作条件未来预测、状态与事件场景展开、回放字幕生成及智能体第一人称动作理解等任务，连接了被动网络视频、可控游戏仿真和昂贵的真实世界具身数据。

多模态数据/训练论文/研究