5月24日

16:22

Alibaba Cloud@alibaba_cloud

5月26日，Picsart视频产品负责人Narek Hayrapetyan将在新加坡金沙会展中心，解析多模态AI如何彻底重塑视觉创作。 🚀 报名链接：https://click.qwencloud.com/m/20000000190/

多模态行业动态

14:11

IT之家（RSS）

消息称苹果 iOS 27 将升级相机、照片应用：增加自定义选项，补全视觉智能

苹果将在 iOS 27 系统中大幅升级相机与照片应用。相机应用将引入自定义界面布局功能，允许用户将闪光灯、曝光控制、定时器等选项直接放置在主界面，并强化专业控制。同时，视觉智能功能将以全新 Siri 形态集成至相机，新增扫描食品营养标签、名片等能力。照片应用则新增“扩展”“增强”“重构”三项 AI 编辑工具，分别对应生成式填充、自动优化画质以及调整空间照片构图。

产品更新图像生成多模态

13:11

IT之家（RSS）

全球首款机器人手机：荣耀 Robot Phone 真机现身高通骁友会五周年派对

荣耀Robot Phone真机在高通骁友会五周年派对上首次公开亮相，作为全球首款机器人手机。该机顶部集成三轴云台相机，搭载2亿像素传感器，支持AI物体追踪、视频剪辑与实时感知补偿功能，定位为新形态具身智能AI终端。外观为银灰色机身搭配拉丝边框，背面印有“α”Logo，此前已在MWC 2026展会展示。据悉，该机将于2026年第三季度正式上市。

产品更新具身智能多模态

08:00

HuggingFace Daily Papers（社区热门论文）

注入视觉概念：在推理时向文本条件扩散模型注入图像引导

Visual Concept Fusion (VCF) 是首个在推理阶段同时接受图像和文本提示、无需概念特定训练的方法。它通过将 CLIP 图像特征对齐到文本嵌入空间，实现视觉概念注入。VCF 包含一个轻量级对齐器、一种融合策略以及可选的提示噪声优化（PNO）模块。实验表明，VCF 能从参考图像转移风格、构图和调色板等视觉属性，同时遵循文本提示。定量结果显示，其文本对齐度（CLIP 分数）与视觉相似度（LPIPS）之间存在权衡，但在参考保真度上优于基线方法。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Macaron-A2UI：面向个人智能体的生成式UI模型

为突破个人智能体静态文本交互的瓶颈，生成式UI成为动态界面层的新方向。本文提出Macaron-A2UI模型，旨在使智能体能同时生成自然语言与轻量级、可执行的UI动作，用于信息收集、偏好优化、确认及多目标组织。研究构建了大规模生成式UI语料库，引入A2UI-Bench评测基准，并训练了30B、235B和754B参数规模的模型。最强的Macaron-A2UI模型在A2UI-Bench上获得75.6分，超越了全schema前沿基线。模型、基准与评测协议均已开源。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ClaimDiff-RL：通过视觉声明比较实现细粒度图像描述强化学习

针对图像描述生成强化学习中的奖励粒度不足问题，提出 ClaimDiff-RL 框架。该方法将整体序列奖励拆解为原子级的视觉声明差异作为奖励单位。给定图像、生成描述与参考描述，多模态评判器枚举两者间可验证的视觉声明差异，分配错误类型与严重程度，并据此构建奖励。这使得模型幻觉与遗漏关键事实能够被独立衡量与调优。实验表明，该框架在多个基准上改善了事实性与覆盖率的平衡，在物体计数、空间关系等细粒度能力上甚至超越了 Gemini-3-Pro-Preview。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

你的嵌入模型，比你想象的更SMART

SMART是一个框架，旨在解锁标准单向量嵌入模型的潜在多向量能力。它通过在推理时对标准对比训练后冻结的隐藏状态应用直接后期交互，实现即插即用的性能提升。研究表明，SMART能提升包括最先进模型在内的多模态检索性能，在MMEB-V2上进一步改善了效果。简单的轻量级后训练不仅节省时间和算力，还能在视觉文档检索任务上使单向量模型超越当前最强大的多向量模型。该项目代码和权重已在GitHub开源。

arXiv 多模态开源生态搜索

05:49

StepFun@StepFun_ai

StepAudio 2.5实时语音发布：副语言感知与人格化交互

StepAudio 2.5 Realtime是一款实时语音模型，能够深度理解用户语音中的语气、语速、停顿乃至微表情等副语言特征。它支持通过API接入自定义人格，允许设定个性、背景故事和语言风格，并提供了上万种原生人格选项，可组合出数百万种特征。产品还内置了5个可直接体验的预设人格，并经过RLHF调优，确保在复杂的角色扮演压力测试中也能保持角色一致性。该模型支持中文和英文。

产品更新多模态语音

02:57

Rohan Paul@rohanpaul_ai

神经网络将成主导，传统应用或消失

Andrej Karpathy 认为，下一代重大软件变革将是大量传统应用的消失。他预言了一种“完全神经化”的计算范式：原始输入直接由神经网络处理，通过扩散模型实时生成专属于当下的界面。当前经典计算以 CPU 为主、智能为辅，而未来神经网络可能成为主导进程，传统 CPU 则退化为处理精确任务的协处理器。这意味着许多现有应用只是过渡产物，未来交互可能不再是静态应用，而是由神经系统根据即时情境生成的动态界面。

多模态大佬观点

5月23日

20:37

🚨 AI News | TestingCatalog@testingcatalog

如果你错过了 👀：Gemini在Chrome浏览器中现已向部分欧洲用户开放。我终于在我的Canary版本中获得了德国的Chrome Gemini功能，包含Gemini 3.5 Flash、技能和Gemini Live。你也能用了吗？

Google 产品更新多模态

19:05

The Verge：AI（RSS）

谷歌发布"万能"AI模型：表现惊人

Google发布了新款Gemini AI模型，其核心特点是能跨模态处理“万物到万物”的生成任务，例如直接从文本生成高质量视频。文章通过作者用该工具为孩子的毛绒玩具鹿生成“度假视频”的实验，展示了当前生成式AI技术的强大与易用性——仅需极低的操作门槛和专业知识，即可创建逼真内容。这一趋势标志着强大的AI创作工具正快速普及，同时也引发了对生成式AI应用边界、内容真实性及潜在影响的深入思考。

Google 多模态教程/实践视频

15:51

Alibaba Cloud@alibaba_cloud

阿里云Qwen团队新发布的Qwen3.7-Max模型在极短时间内（不到一个月）实现了多模态生成能力的惊人进步。独立测试显示，该模型已从此前表现落后，跃升至在特定测试中与Gemini 3.5 Flash持平，并超越了GPT-5.5与Claude Opus 4.7。其渲染的图像（如足球运动员与足球）在比例和真实感上表现尤为突出，展现出卓越的空间推理能力。

GMI Cloud: Salute to the Qwen team 🫡 We tested Qwen 3.7-Max, Gemini 3.5 Flash, GPT-5.5, and Claude Opus 4.7. The biggest shock cam...

Google OpenAI 多模态评测/基准

15:09

IT之家（RSS）

OpenAI ChatGPT 解锁 AI 填表技能：图像识别、语音输入和自动补全

OpenAI于5月23日宣布为ChatGPT新增“AI填表”功能。用户上传表单图像后，可通过语音或文字指令描述需填写内容，系统将自动识别表单字段并完成信息补全。该功能整合了图像理解、语音交互与内容生成技术，实现“对话式”自动填写。目前输出为静态图片而非可编辑文档，且对上传文件清晰度有一定要求。

OpenAI 产品更新多模态

08:16

Hugging Face：Blog（RSS）

精选63

NVIDIA 发布 Nemotron-Labs Diffusion 系列模型，支持三种生成模式

NVIDIA 发布 Nemotron-Labs Diffusion 系列，含 3B、8B、14B 文本模型和 8B 视觉-语言模型（VLM），均采用商用友好的 NVIDIA Nemotron Open Model License 或 NVIDIA Source Code License。模型支持自回归、扩散（逐块并行生成后逐步精炼）和自推测（扩散草拟候选 token 再自回归验证）三种模式。8B 模型平均准确率比 Qwen3 8B 提升 1.2%，扩散模式每次前向传递的 token 数（TPF）达自回归的 2.6 倍，自推测达 6–6.4 倍。模型在 1.3T tokens 上预训练、45B tokens 上微调，代码与模型已发布于 HuggingFace 和 GitHub，推理将获 SGLang 支持。

多模态推理模型发布

推荐理由：自推测模式让文本生成速度飙到AR模型的4倍，而且输出质量无损。NVIDIA这次开源的不仅是个新模型，更是一套能直接用在现有流程里的加速方案。

08:14

Google Gemini@GeminiApp

Gemini升级：用户超9亿，推出智能代理功能

谷歌宣布Gemini应用月活用户已突破9亿。在此次更新中，Gemini正从工具演变为更主动的个人AI代理。主要更新包括新一代模型Gemini 3.5 Flash、全新的“Neural Expressive”设计语言，以及能将提示转化为高质量视频的Gemini Omni模型。核心亮点是两项代理功能：“Daily Brief”提供个性化每日简报，“Gemini Spark”则作为24/7的个人代理，在用户授权下主动管理任务与数字生活。这些更新标志着AI助手向更主动、更整合的方向发展。

智能体 Google 产品更新多模态

关联讨论 18 条

08:00

HuggingFace Daily Papers（社区热门论文）

物理AI中的静默故障：自主系统运行时动作授权的文献综述

物理AI系统将多模态观测、语言指令和学习的世界表征转化为具有物理后果的动作。其安全风险在于，黑盒模型可能自信、看似合理地发出动作，但产生由传感器漂移或分布偏移等导致的“静默”故障。这篇文献综述分析了机器人基础模型、世界模型、安全控制等多个领域的进展，指出当前没有单一技术能在黑盒物理AI模型和物理执行之间提供完整的运行时授权边界。文章提出了静默故障的定义、运行时护栏的功能分类以及相应的评估框架。

arXiv 具身智能多模态安全/对齐

08:00

HuggingFace Daily Papers（社区热门论文）

面向应用对地观测的组合图像检索基准评测

论文建立了针对遥感组合图像检索（RSCIR）的统一基准评测框架。研究在PatternCom数据集上，系统评估了六种视觉语言骨干网络支持的代表性组合图像检索方法。同时，引入了一个名为xView2-CIR、以灾害和损毁监测为中心的新数据集。结果表明，无需训练的组合方法可作为遥感图像检索强健且可扩展的基线；而以变化为中心的检索任务，因需保持场景身份不变，带来了与基于属性检索不同的挑战。

GitHub 多模态搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

VaaWIT：面向多语网页图像翻译的视觉感知大语言模型适配框架

翻译网页图像中的文本对提升内容可访问性至关重要。现有大型视觉语言模型因视觉表征差距，常忽视识别多样字符形态所需的细粒度视觉细节，导致在此任务上表现不佳。为此，本研究提出VaaWIT框架，它通过双流注意力模块实现多语义特征与视觉细节的双向交互，并利用视觉感知适配器以参数高效微调方式将融合特征注入冻结的大语言模型骨干。实验表明，该框架在三个公开基准的八个任务上显著超越了SOTA开源基线模型，性能可与闭源模型相媲美。

图像生成多模态论文/研究

07:49

Suno@suno

McClenney如何将他的定制合成器设备接入Suno 🎛️

多模态教程/实践

03:38

ChatGPT@ChatGPTapp

精选69

用对话处理文书工作更轻松。借助ChatGPT的图像功能和语音模式，您可以上传表单，说出要填写的内容，即可获得填写完成的版本。

OpenAI 产品更新多模态语音

推荐理由：填表终于不用打字了，上传表格对着说就行，ChatGPT 这个更新把语音和图像真正串起来，以后各种纸质表单直接扔进去就完事。

01:50

Ethan Mollick@emollick

同事件精选76

我认为人们没有意识到Gemini Omni与其他视频AI的不同之处。它是完全多模态的，因此也能原生编辑视频。我拿了1896年著名的"火车"电影，把它变成了高铁、乐高，加入了时间旅行者、蜈蚣、布偶……（看到倒影了吗？）

Google 多模态现象/趋势视频

同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

推荐理由：Ethan Mollick 用几个例子把 Gemini Omni 的真正能力讲清楚了，原生多模态让视频编辑不再是生硬叠加，而是理解场景后的重构，做视频的该看。

01:30

Apple Machine Learning Research（RSS）

精选66

VSAS-Bench：视觉流式辅助模型的实时评估基准

现有视觉语言模型框架主要在离线场景下评估性能，但实时视觉助手所依赖的流式模型还需考量额外指标，如反映响应时效性的“主动性”和捕捉随时间推移响应稳定性的“一致性”。为此，研究团队提出了VSAS-Bench，这是一个新的评估基准，专门针对流式视觉语言模型在实时交互任务中的表现，填补了当前评估方法在动态、持续生成场景下的空白。

多模态论文/研究评测/基准

推荐理由：苹果搞了个实时视觉助手的评估基准，把离线评测拉到了流式场景，多模态 agent 和实时 VLM 方向的研究者值得跟进一下评估方法。

01:07

Luma@LumaLabsAI

想象力。瞬间化为电影级现实。 Seedance 2.0现已在Luma Agents上线。人像、风景、科幻、奇幻--每一帧都以不言自明的品质呈现。立即体验 → http://lumalabs.ai/app

产品更新多模态视频

00:28

Tomer Tunguz 博客（VC 分析）

精选70

可塑界面：AI驱动的未来软件形态

Salesforce已采用无头架构，允许销售人员通过AI直接更新数据，许多公司正通过MCPs跟进。同时，AI专家们正推动超越纯文本、更丰富的界面（如HTML），支持图表与交互。AI能根据场景动态生成定制化界面。无头系统并非移除前端，而是支持多种可塑化界面（如音频、网页）。未来软件的核心价值在于动态管理这些界面、确保其准确性，并将各类AI产物整合为可演化的上下文数据库与制品库。用户界面并未消失，而是变得“可塑”，能按需变形。

多模态现象/趋势

推荐理由：动态 UI 不是消灭界面，而是让界面变得可塑性。Airbnb CEO 和 Anthropic 工程师都在押注 HTML 输出，这篇文章把信号串了起来，做产品的人值得一看。

00:05

TechCrunch：AI（RSS）

我们试用了Google的AI眼镜，它们已接近成熟

Google展示了运行Android XR操作系统的原型智能眼镜，该设备能将Gemini AI驱动的翻译、导航及其他信息直接叠加并显示在用户视野中。这标志着可穿戴设备从“后置屏幕”向“前置视窗”交互模式的重要演进，其核心在于将实时AI处理能力与日常视觉场景深度融合。

Google 多模态评测/基准

5月22日

23:37

🚨 AI News | TestingCatalog@testingcatalog

错过了吗？Imagine Agent现已登陆Grok iOS版！你试过了吗？👀

智能体 xAI 产品更新多模态

23:26

Rohan Paul@rohanpaul_ai

世界模型正进入未知领域。 Project Genie刚刚将谷歌地图街景转变为一个可通过提示词操控的世界模拟器。谷歌AI Ultra用户现在可以将任何美国真实地点转化为交互式AI生成场景。

Google 产品更新多模态

23:16

HuggingFace Daily Papers（社区热门论文）

AnyMo：一种设置无关的可穿戴IMU运动理解框架

针对可穿戴IMU信号高度依赖设备位置、朝向等具体设置，难以跨设备迁移的挑战，本文提出了AnyMo框架。该框架首先基于物理原理进行IMU仿真，在身体表面密集采样生成多样合成信号，用于预训练图编码器。随后，将多位置IMU信号转化为全身运动标记，并与大语言模型对齐以理解运动语义。实验表明，AnyMo在未见过的14个下游数据集的零样本活动识别、跨模态检索及运动描述三项任务上均取得显著提升，证明了其作为野外可穿戴运动理解通才模型的潜力。

具身智能多模态论文/研究

23:14

Google DeepMind@GoogleDeepMind

精选67

Project Genie 🤝 @GoogleMaps Street View 你现在可以将真实的美国地点转化为全新的交互式世界。🌍

DeepMind Google 产品更新图像生成

推荐理由：Project Genie这次不是纸上谈兵了，直接吃进真实街景吐出来可玩世界，虽然暂时只限美国，但这是生成式游戏从能做走向普通人可玩的关键一步。

22:16

HuggingFace Daily Papers（社区热门论文）

FashionLens：基于任务自适应学习的通用时尚图像检索框架

为了解决现有时尚图像检索方法难以支持多样化查询与意图的问题，研究提出了统一框架FashionLens。首先构建了综合性基准数据集U-FIRE，整合并增强了现有数据以支持跨场景评估与泛化测试。在此基础上，基于多模态大语言模型，提出了两大核心模块：一是通过自适应球面插值将查询动态映射到任务对齐空间的查询校准器；二是根据学习难度与数据规模自动调整任务权重的自适应采样策略。实验表明，该方法在U-FIRE上取得了最先进性能，并能稳健泛化至未见任务。相关代码与数据已开源。

arXiv GitHub 多模态搜索

21:09

IT之家（RSS）

成交价 11 万元，全球首款眼神交互仿生人"小月"成功拍出

5月22日，松延动力开发的全球首款眼神交互仿生人“小月”（型号X-Head 1）在京东拍卖平台成功拍出，经过49次出价，最终成交价为110790元，高于其9.9万元的官方定价。该仿生人采用人头造型，重7.5公斤，拥有24个自由度，可实现眼神、口型、情绪等多模态交互对话。

产品更新具身智能多模态

20:35

Greg Brockman@gdb

OpenAI的Codex应用推出了名为Appshots的新功能。用户通过同时按下两个CMD键，即可将当前应用的完整上下文（包括可见与不可见的屏幕内容）发送给Codex，远超普通截图所能提供的信息。与此同时，OpenAI更新了远程Codex，使其在笔记本电脑锁屏状态下仍可正常运行，允许用户安全地将笔记本留在家中，通过手机进行远程编码。该应用集成了多项独特功能，提升了使用体验。

Anthony Kroeger: Codex just launched one of the coolest features - Appshots. by pressing both CMD keyboard buttons, context of whatever a...

OpenAI 产品更新多模态编码

18:09

IT之家（RSS）

精选70

网易有道"子曰4"多模态模型、语音合成模型全量开源

网易有道宣布将其“子曰”大模型4.0的多模态模型与语音合成模型面向全球全量开源。其中，多模态模型（27B参数）专注于教育场景，在处理高难度视觉数理问题上达到行业顶尖水平，纯文本中文数理难题准确率为81.4%。该模型通过思维链优化，将输出长度压缩43.2%，有效降低了推理成本。同时开源的语音合成模型支持跨语种音色与情感迁移克隆，3秒内即可完成零样本复制，准确度超97%，并支持包括中、英、日、韩在内的14种语言。

多模态开源生态推理模型发布

推荐理由：有道把垂直教育的多模态模型全量开源，27B参数在视觉数理上做到SOTA，还把思维链压缩了43%，推理成本实打实下降，做教育应用的可以拿来做二次开发；TTS的跨语种情感克隆也实用，3秒克隆14种语言。

16:09

IT之家（RSS）

OpenAI 推 Beta 版 ChatGPT for PowerPoint，可生成 / 编辑 / 完善幻灯片

OpenAI于5月22日以Beta版形式推出ChatGPT for PowerPoint插件。用户安装插件并登录后，可在PowerPoint内直接使用自然语言指令，让ChatGPT生成新幻灯片、改写或润色现有内容。该工具还能分析现有演示文稿，识别内容缺口并推测可能被提出的问题。为确保可控性，系统在执行重要修改前会请求用户确认。测试版已向全球所有ChatGPT账号开放，免费用户也可使用。

OpenAI 产品更新多模态

关联讨论 4 条

15:02

公众号：月之暗面（Kimi）

Kimi 原生视频理解能力已登陆 TRAE 中国版，分享体验得 Labubu！

产品更新多模态视频

14:47

小互@xiaohu

网易有道开源双模型，聚焦工程精度与落地成本

网易有道开源Confucius4双模型，包括一个专注数学视觉推理的多模态模型，以及一个用于语音克隆的TTS模型。此次开源直接提供完整权重，而非仅提供API，强调在工程精度和实际部署成本上的投入，而非单纯追求参数规模。模型已发布于HuggingFace和GitHub平台。

GitHub Hugging Face 多模态开源生态

14:09

IT之家（RSS）

"拼好模"：字节跳动开源轻量原生统一多模态 AI 模型 Lance

字节跳动开源了轻量级多模态模型Lance，其激活参数量为3B。该模型采用原生统一架构，在训练阶段即整合图像与视频的理解、生成及跨模态编辑功能。Lance通过双流专家设计和模态感知旋转位置编码等技术，平衡了理解任务所需的高层语义与生成任务所需的低层连续表示。模型训练共分四阶段，数据规模约1.9T标记，计算预算控制在128张GPU内。基准测试表明，Lance在图像生成、视频生成、图像编辑及视频理解等多项任务中表现突出。该模型权重已依据Apache 2.0协议开源。

多模态开源生态模型发布

13:14

HuggingFace Daily Papers（社区热门论文）

一句一剧：基于多智能体系统的个性化短剧生成

针对现有短剧生成方法在叙事节奏、空间一致性及生产级质控方面的不足，本研究提出了“一句一剧”分层多智能体框架。该框架包含三大核心组件：多智能体辩论式故事生成以保障叙事张力、3D锚定首帧生成以维护跨片段空间一致、以及多阶段审核循环以实现全流程质量控制。此外，系统引入了场景级BGM匹配与转场规划以增强沉浸感。团队还构建了专用基准Short-Drama-Bench进行评估。实验表明，该方法在叙事连贯性、角色场景一致性及整体观看体验上均显著优于现有流程。

智能体多模态视频论文/研究

13:14

HuggingFace Daily Papers（社区热门论文）

SpaceDG：视觉退化下的空间智能基准测试

SpaceDG是首个大规模退化感知空间理解数据集，包含约100万个问答对，源自近1000个室内场景。其核心是物理基础的退化合成引擎，能将退化过程嵌入3D高斯泼溅渲染，真实模拟运动模糊、低光等九种退化类型。配套的SpaceDG-Bench基准包含1102个人工验证问题，覆盖11类推理任务。对25个模型的评估揭示，视觉退化会严重损害空间推理能力。研究表明，在SpaceDG上进行微调能显著提升模型在退化场景下的鲁棒性，性能甚至可超越人类，且不影响其在清晰图像上的表现。

arXiv 多模态数据/训练论文/研究

13:14

HuggingFace Daily Papers（社区热门论文）

LatentOmni：通过统一的音视频潜在推理重新思考全模态理解

当前多模态大语言模型在音视频联合推理中存在局限，因其将连续信号压缩为离散文本，损害了时序定位能力。为此，研究提出LatentOmni框架，构建统一的潜在空间以保留密集的感官信息，并交错执行文本推理与音视频潜态更新。该方法引入特征级监督以对齐推理状态与感官特征，并利用Omni-Sync位置嵌入维持音视频潜态的时序一致性。同时，构建了包含3.5万条轨迹的LatentOmni-Instruct-35K数据集。实验证明，LatentOmni在多个基准测试中取得了开源模型的最佳性能，并优于显式文本链式推理基线。

多模态推理论文/研究