5月28日

02:12

OpenCode@opencode

OpenCode x MiMo V2.5 - 限时免费 1M 上下文 • 推理 • 文本 • 图像

产品更新多模态推理编码

01:42

Luma@LumaLabsAI

前线的狐狸。掌舵的海象。治愈病患的水獭。每个人都有自己的使命，有时你只需开始寻找。开始创作 → http://lumalabs.ai/app

产品更新多模态视频

00:20

HuggingFace Daily Papers（社区热门论文）

精选70

QUACK：多模态社交推理智能体通信知识的质询、理解与审计

QUACK 是一个开源评估框架，用于审计多模态社交推理智能体的语言基础性。它从游戏结果、行为轨迹和陈述一致性三个层面评估智能体。其核心的陈述验证管道能从日志中重建轨迹并逐条核查陈述，自动标记空间幻觉、无依据指控等问题。实验评估了三个前沿视觉语言模型，结果显示即使最强的智能体，其15.1%的可验证空间主张也存在幻觉，且超过半数的指控缺乏证据支持。该项目的完整组件已在 GitHub 开源。

智能体 GitHub 多模态安全/对齐

推荐理由：多模态社交 agent 的幻觉问题被严重低估了，QUACK 这套审计框架直接把 20% 的空间谎言和过半的无据指控摊在桌面上，做 agent 安全的必须跟进。

5月27日

23:51

Google Gemini@GeminiApp

添加文本、视频或最多五张图片作为素材，Gemini Omni可以将它们全部组合成一个连贯的十秒视频。今天就来试试，并在回复中分享你的创作。👇

Google 产品更新多模态视频

关联讨论 19 条

23:10

Kling AI@Kling_ai

Kling AI戛纳电影节探讨AI影视制作应用

快手旗下Kling AI在第79届戛纳电影节举办访谈，邀请中国、美国和韩国的创作者，共同探讨AI如何进入真实的电影制作工作流。对谈内容涵盖了从好莱坞规模的剧集制作，到全AI生成的剧情电影，以及AI动画电影等不同形式的影视创作。创作者们分享了AI在其实际叙事创作中的应用视角。

多模态现象/趋势视频

22:40

🚨 AI News | TestingCatalog@testingcatalog

ANTHROPIC 🔥： Claude移动应用的语音模式即将升级，新增支持18种语言！ > Claude将能够实时切换语言 > 所有语言都有1-2个新声音 > 语音模式界面将焕新 > 将新增按键说话功能 > 由Claude Haiku 4.5驱动，但仍是TTS 很快？👀

Anthropic 产品更新多模态语音

22:37

TechCrunch：AI（RSS）

ElevenLabs 的新音乐生成模型能中途切换音乐风格

ElevenLabs 发布的新模型支持用户对歌曲的任意片段进行重新生成，且修改过程不会影响该曲目的其他部分。

产品更新多模态

22:14

IT之家（RSS）

【IT之家实拍】雷鸟 GT Max 智能眼镜图赏：突破光学痛点，把 267 吋巨幕戴在头上

雷鸟推出两款AR眼镜：主打观影的GT Max采用孔雀光引擎3.0 Max与PWG光学结构，搭载视涯5.5代Micro-OLED双层面板，提供267英寸巨幕体验与1200nits峰值亮度，售价2599元（国补后2209元）。另一款AI拍摄眼镜V4仅重38g，具备IP67防水，首发OG09B方形传感器，支持2.5K画质与11.5小时续航，售价2199元（国补后1869元）。

产品更新多模态端侧

22:09

Runway：News（网页）

精选73

Runway 推出 Model Context Protocol 服务器

Runway 正式推出 Runway MCP 服务器，允许任何兼容 MCP 的 AI 智能体（如 Claude、ChatGPT、Cursor）在对话界面中直接生成图像与视频，无需切换工作流。该服务器接入了 Runway 最新的多款 SOTA 模型，包括 Gen-4.5、Seedance 2.0、GPT Image 2、Kling 3.0 及 Nano Banana Pro。其应用场景涵盖为产品制作营销视频、批量生成网站视觉素材、创作角色广告以及在应用开发中集成视觉内容。用户设置简便，通过 runwayml.com/mcp 添加服务器并登录现有 Runway 账户即可使用，无需单独申请 API 密钥。

MCP/工具产品更新多模态

关联讨论 1 条

推荐理由：Runway 把 Gen-4.5 和 Seedance 2.0 等模型接入了 MCP，以后做产品图、营销视频不用切窗口，这个集成对依赖视觉内容的 Agent 工作流是个 real upgrade。

21:27

Berryxia.AI@berryxia

腾讯HY实验室发布Chronicles-OCR基准测试

腾讯HY实验室与四家机构发布了专门测试AI对中国古文字识别能力的基准Chronicles-OCR，包含2800张专家标注图像，覆盖甲骨文、金文等七大类。测试显示，28个前沿多模态模型集体表现不佳：VLLM在甲骨文上准确率仅14%，GPT-5与Gemini 2.5 Pro得分近零。值得注意的是，开启推理模式反而损害性能，因模型实为识别龟壳、青铜器等载体（准确率96.7%），而非真正识别字符本身。

ModelScope: The best VLLM scores only 14% on oracle bone script recognition. Chronicles-OCR, a new ancient Chinese character benchma...

多模态论文/研究评测/基准

21:14

IT之家（RSS）

雷鸟V4 AI拍摄眼镜发布：首发方形传感器，售价2199元起

雷鸟创新发布雷鸟V4 AI拍摄眼镜，标准版售价2199元，国补后1869元起，5月30日交付。该机型聚焦AI响应速度优化，采用高通骁龙AR1与恒玄BES2800BP双芯架构，引入通义千问模型，AI最快响应0.2秒，较上一代提升超138%。电池容量提升57%，连续视频录制可达约47分钟。影像方面，首次搭载1/2.9英寸、1:1方形传感器OG09B，单像素尺寸2.09微米。防护等级提升至IP67，整机重量约38克。

产品更新多模态端侧

21:14

IT之家（RSS）

【IT之家评测室】把 267 吋巨幕戴在头上、将 AI 融入日常：雷鸟 GT Max / V4 智能眼镜评测

多模态端侧评测/基准

18:20

HuggingFace Daily Papers（社区热门论文）

精选72

Gemini Embedding 2：来自Gemini的原生多模态嵌入模型

Google DeepMind推出Gemini Embedding 2，这是一款原生多模态嵌入模型，支持在统一表示空间中嵌入视频、音频、图像和文本。该模型利用Gemini的多模态能力，通过大规模对比学习实现SOTA性能。在关键基准上表现优异：MSCOCO取得62.9 R@1，Vatex取得68.8 NDCG@10，MTEB multilingual达到69.9，MTEB Code达到84.0，超越了专用模型。其统一能力使其适用于RAG、推荐与搜索等下游任务，并在天文学、生物科学、艺术和烹饪等专业领域展现出强大的零样本性能。

Google 检索增强多模态论文/研究

推荐理由：Google 把多模态嵌入统一到一个模型里了，文本、代码、跨模态检索全面刷榜，做 RAG 和搜索的该认真看看了。

16:14

IT之家（RSS）

联想推出"AI 童伴机"智能硬件：可翻折 5MP 摄像头、2 英寸面板 + 实体 SOS 按键，599 元

产品更新多模态端侧

16:14

IT之家（RSS）

索尼 PlayStation 新专利曝光：AI 赋能 NPC 实现拟人化交互

索尼 PlayStation 提交了一项新专利，旨在通过人工智能赋予游戏中的非玩家角色（NPC）拟人化的交互能力。该专利描述了通过麦克风和摄像头捕捉玩家情绪与神态，进而让 NPC 模仿玩家行为与情绪反应的技术方案。此外，专利还提出可利用游戏主播等数据训练 NPC，以复刻特定人物性格。此举是索尼打造高度拟人化 NPC、提升玩家沉浸感的一次尝试，目前英伟达等公司也在进行类似技术研发。

多模态行业动态

15:31

向阳乔木@vista8

Suno生成了一首很痞的歌曲，很像gala 哈哈哈

其他多模态

14:14

IT之家（RSS）

微软最强生图 AI 模型 MAI-Image-2.5 冲上 Arena 第三：更强文字生成

Microsoft 图像生成多模态模型发布

11:19

HuggingFace Daily Papers（社区热门论文）

精选70

MRT：用于大规模分层图像生成与编辑的掩码区域Transformer

MRT是一个20B参数的掩码区域扩散模型，专为多层透明图像生成与编辑设计。它在超过1000万个多语言设计样本上训练，统一了文本到图层、图像到图层和图层到图层三项任务。模型通过选择性token掩码实现灵活的图层生成与编辑，并引入溢出感知画布图层以处理边界不一致问题，支持半透明背景合成。此外，应用扩散蒸馏实现了8步实时生成。实验表明，MRT在所有任务上显著优于先前先进方法与商业系统。用户研究显示，其图像到图层质量优于同期Qwen-Image-Layered模型，推理速度快10-100倍，GPU内存消耗降低50-90%。

图像生成多模态论文/研究

推荐理由：首次把分层图像生成统一到 20B 遮罩扩散框架，溢出画布层的设计挺巧，让图层可以超出边界编辑，蒸馏后能实时跑，做设计工具的团队该仔细读读。