全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「多模态」清除

6月20日周六

15:01AYi52GPT-5.6 Pro 泄露：下周四发布，视觉复刻、SVG 3D、浏览器自动化三大能力曝光

09:59IT之家（RSS）4超级珊瑚礁被发现：水温高出2°C仍生机盎然

08:00HuggingFace Daily Papers（社区热门论文）57BioMatrix：首个原生整合分子与蛋白质序列、结构与语言的多模态基础模型

07:59IT之家（RSS）47visionOS 27 今秋推送：M5 Vision Pro 头显独占 Siri 语音定制和苹果最强本地 AI 模型

00:54向阳乔木16Gemini 3 将白条鱼误识别为泥鳅

6月19日周五

23:24SenseTime45商汤 SenseNova U1 实现文本-图像交错生成

15:55HuggingFace Daily Papers（社区热门论文）56FlowBender：反馈感知训练用于自纠正条件流

11:16IT之家（RSS）55谷歌与Refik Anadol打造全球首个AI艺术博物馆Dataland

10:47HuggingFace Daily Papers（社区热门论文）46Holo-World：面向视频世界模型的统一相机、物体与天气控制

08:00HuggingFace Daily Papers（社区热门论文）36UnityShots：记忆驱动的多镜头音视频生成系统

08:00HuggingFace Daily Papers（社区热门论文）43ICME 2026 ATTM效率赛道：FluxAudio-S 结合 TuneJury 人类偏好奖励

08:00HuggingFace Daily Papers（社区热门论文）46DataClaw_0-9B：从原始流中智能体化定制多模态数据

04:26Fei-Fei Li54Fei-Fei Li回应@smallfly：空间智能赋能人类创造力，Marble生成空间一致3D世界

6月18日周四

22:44HuggingFace Daily Papers（社区热门论文）50ViGOS：视觉引导的在线自蒸馏框架

22:17AYi36预防医学：AI+超声波精准诊疗新方向

22:14IT之家（RSS）67Adobe Firefly AI 平台升级：为 Creative Cloud 套件引入智能体

21:44HuggingFace Daily Papers（社区热门论文）49MolmoMotion：基于语言指令的3D点轨迹预测模型

21:21The Decoder：AI News（RSS）72精选Adobe 为 Photoshop、Premiere 等多款 Creative Cloud 应用加入 AI 智能体

21:18TechCrunch：AI（RSS）60Pixi 发布 iMessage AR 应用，可发送 AI 驱动互动角色

20:20Orange AI32ListenHub升级AI创作者平台并推618限时福利

20:14IT之家（RSS）63DeepSeek 识图模式正式上线，无法识别创始人梁文锋

18:30公众号：百度智能云（文心）42百度智能云联合十家伙伴，推动AI能力落地手机、PC、玩具、眼镜等硬件

17:14IT之家（RSS）82精选八部门：用好个人消费贷款财政贴息政策，支持消费者购买 AI 相关产品

16:14IT之家（RSS）50比人鼻更准：新型电子嗅觉芯片可识别 0.05 克腐败坚果

16:14IT之家（RSS）72精选DeepSeek 识图模式正式上线 App 和网页端

15:45Chubby♨️59Midjourney打造60秒全身扫描，优于MRI

15:42OpenBMB59面壁智能 MiniCPM-V 4.6 演示工业仪表读取，远超 OCR

14:16AYi54Midjourney 成立医疗部门，推出超声波全身扫描舱

14:15🚨 AI News | TestingCatalog64Catnip 推出 MaineCoon：实时交互音视频 AI 模型

12:50swyx53swyx 的 Midjourney 医疗产品发布现场笔记

12:44HuggingFace Daily Papers（社区热门论文）65OmniAgent：原生全模态智能体实现长视频主动感知推理

11:14The Verge：AI（RSS）55Midjourney Medical 推出全身超声波扫描仪及 Spa 计划

10:14IT之家（RSS）55谷歌 Chrome 浏览器新增 AI Mode 按钮，可一键开启侧边栏问答

09:43Berryxia.AI19卧槽~~ 这根本用不完啊！真是便宜啊！我接到了Bloome 里面各种音影视频文本文件一股脑搞进去，这么久才花费这么点钱。。并且日常使用做各种我需要的任务都可以帮我搞定😄

09:43HuggingFace Daily Papers（社区热门论文）57RNG-Bench：多模态大语言模型在可控非马尔可夫游戏中的评估基准

09:19meng shao58Kimi K2.7 Code 和 Claude Fable 5 生成落地页的实验对比分析

08:43Berryxia.AI48Gemini 3.5 Pro 爆料：视觉、多模态与安全升级

08:00HuggingFace Daily Papers（社区热门论文）50CogniRoute：全模态社交推理的模式引导MoE框架

08:00HuggingFace Daily Papers（社区热门论文）53Robusto-2：在利马与纽约市自动驾驶场景中的人类与VLM基准测试

07:17Claude：Blog（网页）51Claude Opus 4.8 Build Day黑客马拉松获奖项目揭晓

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月20日

15:01

AYi@AYi_AInotes

52

GPT-5.6 Pro 泄露：下周四发布，视觉复刻、SVG 3D、浏览器自动化三大能力曝光

GPT-5.6 Pro 预计下周四发布，泄露信息显示其三项关键能力：视觉复刻已近乎能完全复刻设计；SVG 3D 生成表现超越 Fable 5，支持浏览器内旋转缩放；Playwright 浏览器自动化可真实操作网页（点击、输入、跳转、抓取）。这三项能力表明 OpenAI 正将 GPT 从语言模型进化为能执行物理操作的 Agent——不仅能“思考”，还能打开浏览器、移动鼠标、复制设计并保存到桌面。

智能体 OpenAI 多模态现象/趋势

09:59

IT之家（RSS）

4

超级珊瑚礁被发现：水温高出2°C仍生机盎然

全球海洋热浪致超80%珊瑚白化背景下，伍兹霍尔海洋研究所团队在马绍尔群岛马朱罗环礁发现一片生机勃勃的珊瑚礁，命名为“超级珊瑚礁”。模型预测该处水温比其他区域高近2°C，实地实验证实其耐热性最强。团队使用无人船“黄鳍”搭载GoPro相机，单日扫描40英里礁石并拍摄2万张图像，远超百名潜水员数周工作量。随后用这些图像训练AI模型自动识别白化与恢复状况，并构建三维模型分析珊瑚位置、角度对热暴露的影响。科恩设想建立“超级珊瑚礁蓝色走廊”，连接马绍尔群岛、基里巴斯和图瓦卢的保护区网络，利用洋流让耐热珊瑚幼虫跨区域繁殖。

其他多模态

08:00

HuggingFace Daily Papers（社区热门论文）

57

BioMatrix：首个原生整合分子与蛋白质序列、结构与语言的多模态基础模型

BioMatrix采用单一解码器架构，通过统一token化方案将分子序列（SMILES/SELFIES）、分子结构、蛋白质序列、蛋白质结构和自然语言映射到共享离散token空间，所有模态均以下一个token预测目标生成。模型基于Qwen3（1.7B和4B），在3044亿tokens上预训练。在80项下游任务中，BioMatrix在77项上达到最优或竞争力水平。

Hugging Face 多模态数据/训练论文/研究

07:59

IT之家（RSS）

47

visionOS 27 今秋推送：M5 Vision Pro 头显独占 Siri 语音定制和苹果最强本地 AI 模型

visionOS 27 将于今秋推送。M5 Vision Pro 独占 Siri 语音定制（Voice Customization），用户可自由调整语气表现力和语速；同时独占搭载 AFM 3 Core Advanced 本地 AI 模型，该模型支持原生多模态能力并采用稀疏架构，需 M5 芯片算力支撑。M2 款 Vision Pro 可共享 visionOS 27 大部分升级，包括 Siri AI、全景照片转空间场景、重新设计的控制中心、更智能的自然语言理解及语音操作交互等。苹果承诺未来通过云端计算为 M2 设备提供部分 AI 功能的折中方案，具体细节尚未公布。

产品更新多模态端侧语音

00:54

向阳乔木@vista8

16

gemini3还是不行啊，怎么把白条识别成泥鳅。。影响我的钓鱼记录App 😂

Google 多模态评测/基准

6月19日

23:24

SenseTime@SenseTime_AI

45

商汤 SenseNova U1 实现文本-图像交错生成

商汤 SenseNova U1 具备行业首创的文本-图像交错生成能力。用户上传客厅照片后，U1 可瞬间将其风格转变为温馨阅读角。该演示由 @eigi_and_ai 完成。U1 现已通过 SenseNova Studio、HuggingFace 模型库、GitHub 源码及 Discord 社区开放体验。

GitHub Hugging Face 其他图像生成

15:55

HuggingFace Daily Papers（社区热门论文）

56

FlowBender：反馈感知训练用于自纠正条件流

条件扩散和流模型常生成与输入约束不一致的样本。FlowBender 是一个闭环框架，将对齐误差作为第一类输入，训练网络学习基于推理时反馈的修正策略。通过无引导的前向预估步骤估计干净信号，经前向算子计算偏差，再由精炼步骤生成修正速度。包含基于梯度的实现和针对不可微场景的零阶变体，并利用前一步捷径降低额外计算成本。在图像到图像翻译、图像复原和3D网格纹理任务中，同时提升了保真度与合理性。

图像生成多模态数据/训练论文/研究

11:16

IT之家（RSS）

55

谷歌与Refik Anadol打造全球首个AI艺术博物馆Dataland

谷歌携手艺术家Refik Anadol，在洛杉矶打造全球首个AI艺术博物馆Dataland，将于6月20日开馆。博物馆面积约2500平方米，开幕展“Machine Dreams: Rainforest”由Large Nature Model驱动。利用Google Cloud的Gemini Enterprise Agent Platform和Compute Engine，协调GANs、扩散模型和Gemini等AI模型，将环境数据转化为12亿像素的超生成现实。博物馆通过Google基础设施生成动态声景、实时情绪感应和算法增强气味，与访客动态交互。系统使用87%无碳可再生能源运行。

Google 多模态行业动态

10:47

HuggingFace Daily Papers（社区热门论文）

46

Holo-World：面向视频世界模型的统一相机、物体与天气控制

Holo-World 是一种视频世界模型，从单张图像出发，根据显式相机控制、物体控制和可选天气指令，生成保留原场景或转换到目标天气的视频。其 Unified Scene Adapter 将世界保留与天气迁移分解为独立参数子空间，利用渲染背景、几何缓冲和物体控制维持场景结构，并建模天气依赖的外观与粒子效果。Scene-Weather Decomposed CFG 分别引导场景与天气残差，增强目标天气效果而不过度放大全条件。该模型在保持精确相机与物体控制及场景结构一致性的前提下，天气状态生成优于视频到视频的天气编辑基线。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

36

UnityShots：记忆驱动的多镜头音视频生成系统

UnityShots基于LTX-2.3构建，通过记忆驱动实现多镜头音视频生成。视频流维护两个固定大小的记忆插槽：长期记忆（LTM）锚定开场镜头，短期记忆（STM）保存前一段尾部，由边界条件门控（融合视觉剪辑概率与节拍跟踪器信号）在每次剪辑时更新。音频流在每镜头注入参考说话者token以保持音色。离散剪辑类型先验通过AdaLN学习，推理时可调节过渡强度。团队发布包含200个多文化多镜头序列的基准，覆盖6个种族区域和10+语言，附有每镜头参考身份、参考音频和边界标签。在I2V、T2V和R2V条件下，UnityShots在所有跨镜头一致性指标上领先开源基线，并在多镜头维度匹配最强闭源系统。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

43

ICME 2026 ATTM效率赛道：FluxAudio-S 结合 TuneJury 人类偏好奖励

研究人员在 120M 参数的 FluxAudio-S 骨干上构建管道，引入来自 TuneJury（基于开放音乐偏好数据集的成对排序器）的人类偏好奖励，同时作为训练时条件信号和样本选择标准。五个工程决策包括：训练时奖励条件（兼作推理 CFG 轴）、五种分数条件架构扫描、对 top decile 专家迭代、短偏好微调 CRPO、以及推理后处理（联合 CFG、源分离、响度归一化）。在 100 个 Song Describer 提示上的逐阶段分解表明，专家迭代贡献最大，训练时奖励条件有效，而偏好微调仅带来噪声级增益。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

46

DataClaw_0-9B：从原始流中智能体化定制多模态数据

DataClaw_0-9B提出主动智能体化数据定制范式，将数据处理提升为可学习能力。通过两阶段pipeline将生成语义合成锚定于确定性事实锚点，构建覆盖五个物理与数字域的大规模数据集，并采用SFT与GRPO实现与复杂定制意图对齐。同时构建首个数据精炼基准DataClaw_0-val，在视频生成、真实世界VQA与GUI导航下游任务中验证了其提供高信息密度数据的能力。

多模态数据/训练论文/研究

04:26

Fei-Fei Li@drfeifei

54

Fei-Fei Li回应@smallfly对World Labs及空间智能的分享，称使命是赋能人类创造力。@smallfly在FastCompany文章中指出空间智能/世界模型是AI下一个重大方向。他从事体积捕获（NeRFs、3D Gaussian Splats），2024年9月注意到World Labs公告，2025年8月试用Marble beta。Marble能生成持久、空间一致的3D世界并实时渲染。他创作实验"Parallel Realities"：先体积捕获真实空间，再用Marble生成替代版本，最后通过World Labs的Spark渲染器让两个现实共存，实现真正空间连贯性。

Hugues Bruyère: @FastCompany just published a great piece on @theworldlabs , @drfeifei , Marble, and the idea that spatial intelligence ...

多模态大佬观点

6月18日

22:44

HuggingFace Daily Papers（社区热门论文）

50

ViGOS：视觉引导的在线自蒸馏框架

针对在线自蒸馏（OPSD）直接扩展到多模态大语言模型（MLLM）时产生的捷径（特权目标依赖文本参考而非图像），ViGOS提出视觉引导的OPSD框架：学生先写出视觉描述再推理。有效rollout中，纯图像感知教师监督描述，特权推理教师监督推理和答案；无效rollout由参考教师恢复输出格式。ViGOS在通用视觉语言、专家推理等基准上保持OPSD优势，并改善了图像依赖行为。

多模态推理论文/研究

22:17

AYi@AYi_AInotes

36

预防医学：AI+超声波精准诊疗新方向

主推文认为预防医学是AI最适合切入的医疗领域，因为超声波能精准锁定身体组织，使影像检查与治疗之间的界限模糊。AI驱动的超声波可先对全身进行扫描，发现异常后直接用声波进行刺激、消融、调节或修复，实现诊断与治疗的一体化。引用推文介绍了Midjourney Scanner技术，进一步呼应了这一趋势。

Midjourney: A technical dive inside our new "Midjourney Scanner"

多模态现象/趋势

22:14

IT之家（RSS）

67

Adobe Firefly AI 平台升级：为 Creative Cloud 套件引入智能体

6月18日，Adobe为Firefly推出更新，引入Creative Skills，用户通过自然语言对话即可生成Logo、配色方案、营销视频等，Firefly会主动反问以完善需求，并提供控制面板微调字体、镜头运动等细节。同时，Photoshop、Premiere Pro等软件加入智能体，侧边栏输入指令可整理素材、重命名文件、更新设计稿。

智能体产品更新多模态

21:44

HuggingFace Daily Papers（社区热门论文）

49

MolmoMotion：基于语言指令的3D点轨迹预测模型

MolmoMotion将运动预测形式化为目标条件的3D点运动预测：给定短视觉历史、物体上的3D查询点集和语言描述的目标，预测每个点的未来3D轨迹。研究包含三个组件：MolmoMotion-1M数据集（从116万段无约束视频中标注动作描述和3D点轨迹）、PointMotionBench人工验证基准（覆盖111类物体和61种运动类型）以及MolmoMotion模型（支持自回归坐标预测和流匹配轨迹生成）。该模型能根据语言指令预测多样化运动，在基准上显著超越现有方法，且学到的3D运动先验可迁移至机器人操作和视频生成。

具身智能多模态论文/研究

21:21

The Decoder：AI News（RSS）

精选72

Adobe 为 Photoshop、Premiere 等多款 Creative Cloud 应用加入 AI 智能体

Adobe 将其“创意智能体”扩展至 Photoshop、Premiere 等应用，以公开测试形式提供 AI Assistant。该智能体可自动完成多步骤常规任务，如 Premiere 分拣素材和粗剪、Photoshop 换背景、Illustrator 批量生成文件、InDesign 更新版式等。Firefly 新增面向个人创作者的品牌套件、产品图转短视频及 Quick Cut 自动剪辑功能。Adobe 工具已集成至 ChatGPT、Claude 及 Microsoft 365 Copilot，Google Gemini 和 Slack 集成即将推出。

智能体产品更新多模态

推荐理由：Adobe把AI助手直接塞进了Photoshop、Premiere这些上亿人用的创作工具，干的虽然是粗剪、排版一类的苦力活，但却是AI从生成器转向流程助手的关键一步，值得所有创意工作者上手试试。

21:18

TechCrunch：AI（RSS）

60

Pixi 发布 iMessage AR 应用，可发送 AI 驱动互动角色

Pixi 在 App Store 上线 iMessage 应用，用户可发送 AI 驱动的 AR 角色。角色通过收信人 iPhone 相机实时与真实环境互动，能感知面部表情和周围物体，所有视觉和音频处理在设备端进行以保护隐私。首批角色包括机器人、猫和动画信封，支持井字棋等游戏。未来计划开放市场供品牌和创作者提供专属角色，并允许用户自创。应用免费，品牌可选择性收费。仅支持 iPhone 11 及以上机型，未来将扩展至 Android 和 WhatsApp 等平台。

产品更新多模态端侧

20:20

Orange AI@oran_ge

32

ListenHub升级AI创作者平台并推618限时福利

ListenHub全面升级为AI创作者平台，已接入Seedance 2.0、HappyHorse、GPT Image 2、Nano Banana Pro等顶级的视频和图像模型，价格优惠。即日起进行为期一周的“618+端午节”限时福利：订阅月费或年费会员额外赠送50%积分；新用户注册即赠100积分；老用户每日签到免费获得2张生图额度。活动限时7天，逾期需等到黑五。

产品更新图像生成多模态视频

20:14

IT之家（RSS）

63

DeepSeek 识图模式正式上线，无法识别创始人梁文锋

DeepSeek 识图模式于 6 月 18 日在 App 和网页端上线。IT之家测试发现，该模式无法正确识别创始人梁文锋的照片，多次将其识别为董宇辉、张雪峰或雷军；而雷军照片可正常上传并准确识别。原因可能是梁文锋网络公开照片和信息较少，模型难以形成稳定识别特征，说明 DeepSeek 未针对自家老板做特殊识别优化。

DeepSeek 产品更新多模态

18:30

公众号：百度智能云（文心）

42

百度智能云联合十家伙伴，推动AI能力落地手机、PC、玩具、眼镜等硬件

百度智能云宣布与荣耀、vivo、OPPO、灵优智学、利尔达等十家伙伴合作，在手机、AI PC、芯片模组、AI玩具、AI眼镜等场景接入文心大模型、千帆及DuMate等能力。荣耀YOYO智能体接入文心大模型实现端云协同；vivo基于千帆7天搭建高考智能体，高峰日支撑10万次交互；OPPO用千帆搭建售后客服智能体，高频问题处理效率提升一倍；利尔达将AI集成至模组，端到端响应低于2秒；灵优智学实现1.3秒首响延迟。百度智能云已支持超1000款AI硬件爆品。

多模态端侧行业动态

17:14

IT之家（RSS）

精选82

八部门：用好个人消费贷款财政贴息政策，支持消费者购买 AI 相关产品

商务部等八部门6月18日发布关于加快“人工智能+消费”发展的实施意见。其中提到加大财政资金支持，落实数码和智能产品购新政策，鼓励地方在消费品以旧换新框架内自主制定补贴，重点支持新一代智能终端消费。增加AI手机、智能电脑、智能电视、智能家居、AI眼镜、智能网联汽车、人形机器人等产品供给，培育智能穿戴消费市场。同时加快AI在居家服务、养老服务、文化旅游、住宿餐饮、教育教学等领域的应用，建设AI商品首发平台，举办“人工智能进万家”活动。

具身智能多模态政策/监管

推荐理由：八部门联合推AI消费补贴，从手机、机器人到养老教育全覆盖，这是国家层面推动AI产品普及的强烈信号，终端厂商和消费者都将迎来实质利好。

16:14

IT之家（RSS）

50

比人鼻更准：新型电子嗅觉芯片可识别 0.05 克腐败坚果

加州大学伯克利分校团队研发出一款集成16个微型气体传感器阵列的电子嗅觉芯片，每个传感器涂有不同感应膜，接触气体后产生独特电信号，被称为“数字鼻子”。经机器学习训练，芯片能识别7种食品（草莓、蓝莓、香蕉、核桃、榛子、腰果、花生）以及新鲜与腐败的鸡肉、牛奶、鸡蛋。测试中可在沙拉或蛋糕等复杂气味背景中检出仅0.05克核桃。但在多种腐烂食物共存的开放环境中，准确性仍需验证。

多模态论文/研究

16:14

IT之家（RSS）

精选72

DeepSeek 识图模式正式上线 App 和网页端

DeepSeek 识图模式于6月18日在网页和 App 端正式上线，与快速模式、专家模式并列。开启后用户可直接上传图片让 DeepSeek 识别图像，能力超越简单文字提取。目前 App 端仍显示“图片理解功能内测中”，网页端无此提示。该模式背后的多模态模型技术细节于今年4月公开，核心框架为“Thinking with Visual Primitives（以视觉原语思考）”。

DeepSeek 产品更新多模态

推荐理由：DeepSeek的识图模式终于从内测进了正式版，虽然是补课而非破圈，但对中文用户来说，让AI直接看图比打字描述常用太多，日常工作和内容处理都更顺手了。

15:45

Chubby♨️@kimmonismus

59

天哪，Midjourney现在构建了一种快速、实惠、可重复的全身体扫描，设计得比MRI更好更便宜，大约60秒完成，体验更像一次水疗。

产品更新多模态

15:42

OpenBMB@OpenBMB

59

面壁智能 MiniCPM-V 4.6 演示工业仪表读取，远超 OCR

面壁智能 MiniCPM-V 4.6 演示工业仪表读取，模型需同时理解指针角度、刻度范围、单位、数字显示、液位比例等视觉信号，输出结构化 JSON（pressure_bar, temp_c, flow_lpm, level_pct）。测试使用合成控制面板，评分标准为 pass（满量程5%内）、drift（10%内）、miss。数字显示和液位较易，模拟指针更困难。该方案通过摄像头+视觉模型低成本改造传统仪表，无需更换硬件，在工厂、数据中心等场景有巨大应用潜力。

Joey: been testing MiniCPM-V 4.6 locally on my DGX Spark this demo is an industrial gauge reader i generated a synthetic contr...

多模态教程/实践端侧

14:16

AYi@AYi_AInotes

54

Midjourney 成立医疗部门，推出超声波全身扫描舱

Midjourney 宣布成立 Midjourney Medical，进军医疗硬件领域，计划制造基于超声波和水耦合介质的全身扫描舱。该设备无需辐射或强磁场，配备 50 万个微型传感器阵列，60 秒内完成全身层析成像，理论速度比传统 MRI 快近 100 倍。公司还将在旧金山开设 Midjourney Spa，融合扫描、泡澡、桑拿、冷水浴，鼓励像按摩一样轻松完成定期扫描。目标全球部署 5 万台，每月 10 亿次扫描。Elon Musk 回复“Cool”。首家研究型 Spa 预计 2027 年底开业。

Midjourney: Announcing a new division of Midjourney called "Midjourney Medical"

多模态行业动态

14:15

🚨 AI News | TestingCatalog@testingcatalog

64

Catnip 发布 MaineCoon，一款 22B 参数的流式实时交互音频-视觉模型，可在屏幕上呈现活生生的 AI 角色。首帧生成不到 1 秒，推理速度达 47.5 FPS（单张 H100），比现有音视频模型快 7 倍。该模型支持无限时长交互，强调 AI 持续在场而非轮流回复，旨在将被动视频升级为实时 AI 存在感。

Catnip: 🥇MaineCoon: From Passive Video to Real-Time AI Presence The first unlimited-duration interactive audio-visual model. Mo...

多模态模型发布视频

12:50

swyx@swyx

53

swyx 的 Midjourney 医疗产品发布现场笔记

swyx 记录 Midjourney 医疗产品发布，与会者将其比作初代 iPhone 和特斯拉发布。该产品旨在将医学成像质量提升 40-100 倍，实现“扫描器官像称体重”。Midjourney 仅以每年 1000 万美元研发预算支撑这一创新，质疑其他机构的研发效率。今年 MJ 另有 7 个副项目计划发布。Nature 论文及 biohub 播客佐证更好数据驱动更好科学。swyx 认为技术+使命足够强，监管等障碍会自行解决。

Latent.Space: [AINews Jun 17] Midjourney Medical: scan your organs like you step on a scale https://www.latent.space/p/ainews-midjourn...

多模态大佬观点

12:44

HuggingFace Daily Papers（社区热门论文）

65

OmniAgent：原生全模态智能体实现长视频主动感知推理

OmniAgent 提出首个原生全模态智能体框架，将长视频理解建模为基于 POMDP 的迭代观察-思考-行动循环。它通过按需动作选择性提取音视频线索并转化为持久文本记忆，使推理复杂度与视频时长解耦。训练采用 Agentic SFT（最佳轨迹合成与双阶段质量控制）和基于 TAURA 的 Agentic RL（利用 turn 级熵分配探索奖励）。模型在测试时呈现正向缩放：推理轮次越多性能越强。在 VideoMME、LVBench 等 10 项基准上，OmniAgent 达到开源模型最佳水平。7B 参数版本在 LVBench 上以 50.5% 超越 10 倍大的 Qwen2.5-VL-72B（47.3%）。

智能体多模态论文/研究

11:14

The Verge：AI（RSS）

55

Midjourney Medical 推出全身超声波扫描仪及 Spa 计划

Midjourney CEO David Holz 展示了首款硬件 The Midjourney Scanner，一款基于超声波的全身扫描仪。设备采用环形传感器阵列，通过水下传感器从多角度发送超声波，约 60 秒完成扫描，捕捉肌肉、脂肪、骨骼等垂直切片。与 Butterfly Network 合作，每台搭载 40 个成像模块及 2 petaflops 处理能力，Holz 称图像质量“在许多方面可比肩 MRI”。Midjourney Medical 计划 2027 年底前在旧金山 Union Square 开设 Midjourney Spa，内设 10 台扫描仪及健身房、桑拿、冷浴。目前仅提供“身体成分图”，不涉及 FDA 诊断许可，用户可创建扫描库并与医生或 AI 健康工具共享。

产品更新多模态

10:14

IT之家（RSS）

55

谷歌 Chrome 浏览器新增 AI Mode 按钮，可一键开启侧边栏问答

谷歌在 Canary 频道最新 Chrome 浏览器中引入实验性 Flag，启用后工具栏可嵌入 AI Mode 快捷方式。AI Mode 是谷歌搜索结果页的 AI 对话交互，支持自然语言提问、多轮对话及文件上传分析。用户启用“Contextual Tasks Pin Button In Toolbar”Flag 后，点击按钮将在当前页面右侧弹出侧边栏，可针对浏览内容提问并上传文件。谷歌正测试“Browse with AI”和“Google Search AI Mode”两个暂用名。

Google 产品更新多模态搜索

09:43

Berryxia.AI@berryxia

19

卧槽~~ 这根本用不完啊！真是便宜啊！我接到了Bloome 里面各种音影视频文本文件一股脑搞进去，这么久才花费这么点钱。。并且日常使用做各种我需要的任务都可以帮我搞定😄

多模态大佬观点

09:43

HuggingFace Daily Papers（社区热门论文）

57

RNG-Bench：多模态大语言模型在可控非马尔可夫游戏中的评估基准

RNG-Bench是一个评估多模态大语言模型在闭环交互中重建过去观测并据此行动能力的基准套件，包含Matching Pairs和3D Maze两个互补游戏。基准通过网格大小、视觉模式和观测模态三个难度轴控制复杂度，并引入对决赛制消除实例方差及Memory Gap指标分离遗忘与决策错误。最难配置需约128K tokens上下文和每轮350张图像，前沿模型尚未饱和。Memory Gap分析显示主要错误源于遗忘。微调Qwen3.5-9B可提升该基准性能并迁移至现有基准，不损失通用多模态能力。

arXiv 多模态论文/研究评测/基准

09:19

meng shao@shao__meng

58

Kimi K2.7 Code 和 Claude Fable 5 生成落地页的实验对比分析

@nutlope 让 Kimi K2.7 Code 和 Claude Fable 5 各生成 12 个落地页并排对比。初始两者均有“AI 生成感”；为 Kimi 设置自定义 Design Inspiration MCP Server（利用多模态能力）后质量显著提升。成本上，B2B SaaS 单页 Kimi 仅 4 美分，Claude Fable 1.09 美元（约 27 倍差）；平均 Kimi 比 Fable 便宜约 16 倍、比 Opus 便宜约 8 倍，总成本降低 94%。质量由 GPT-5.5 评分（0-100），Claude Fable 略高但差距小，Kimi 性价比突出。实验表明，结合高质量视觉参考后，开源模型已足以支持实际落地页工作流，批量迭代优势显著。

Hassan: http://x.com/i/article/2067278912984436736

多模态开源生态编码评测/基准

08:43

Berryxia.AI@berryxia

48

Gemini 3.5 Pro 爆料：视觉、多模态与安全升级

谷歌即将发布 Gemini 3.5 Pro，已在 Gemini 3.1 Pro 产品卡片上标注“3.5 Pro 即将推出”。相比 3.1 Pro，预计视觉能力更强、多模态推理更出色，SVG/前端生成功能升级。将搭载更严格的安全过滤器和内容审核机制，定价预计更高。最大期待是谷歌能在正式发布前修复早期版本在长复杂任务中的“偷懒”问题。

Google 多模态推理行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

50

CogniRoute：全模态社交推理的模式引导MoE框架

CogniRoute 是一个基于模式引导的混合专家（MoE）框架，专用于全模态社交推理。它在训练时通过认知模式分解跨模态关系、推理需求和时序范围，并在监督微调中对齐全局路由签名；还引入路由感知强化学习，联合优化 token 生成与专家分配。在 OmniSocialBench（含118K结构化训练示例的诊断性社交视频问答数据集）上，CogniRoute 平均准确率达59.38%，比最强专有基线高15.33个百分点，比最强开源全模态基线高26.77个百分点，在视听协调、冲突解决和时序社交推理上提升最大。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

53

Robusto-2：在利马与纽约市自动驾驶场景中的人类与VLM基准测试

研究对比视觉语言模型（VLM）与来自利马和纽约的人类驾驶员在两地行车记录仪视频上的表现。使用VQA范式提出事实、评级、反事实和推理四类问题，测试泛化能力。结果发现人类与VLM的回答存在差异，但地理来源对双方回答均无显著影响。数据集已公开。

具身智能多模态论文/研究

07:17

Claude：Blog（网页）

51

Claude Opus 4.8 Build Day黑客马拉松获奖项目揭晓

6月13日，Anthropic在旧金山举办12小时黑客马拉松，310名参与者使用Opus 4.8和$500 credits完成原型。第一名Tekton：输入历史建筑照片后，Claude自动搜集图纸等资料，跨339个施工步骤重建3D模型，每个构件附带证据链；自纠循环反复检查直至20项测试全部通过。第二名Sim Francisco：基于美国人口普查数据生成10,000名合成市民，各具独立世界观，实时对新闻投票，精准预测选举结果。第三名Custom Universe：用手机拍摄物件照片，Opus 4.8将其转为可拖放、实时渲染的3D物体，支持文本指令重设风格。

智能体 Anthropic 多模态行业动态

1…5 678 9…50