5月26日

01:28

Rohan Paul@rohanpaul_ai

这款自主除草机器人使用AI视觉在幼苗作物中检测杂草，并立即用高精度激光脉冲进行定向清除。实时车载GPU绘制每株植物位置，并精确引导激光对准杂草 @carbon_robotics

具身智能多模态教程/实践

5月25日

20:54

Alibaba Cloud@alibaba_cloud

在Qwen Conference 2026上，Fizzdragon CEO Pax Chen加入基础模型论坛，解析《从剧本到银幕只需几分钟：AI如何赋能电影、广告与创意内容》。深入探讨AI驱动创意工作流的下一个前沿。走进AI原生浪潮。 🚀 敬请关注：https://click.qwencloud.com/m/20000000190/

多模态行业动态视频

20:54

Alibaba Cloud@alibaba_cloud

在通义千问大会 2026 上，行业远见者与生态先锋将在基础模型论坛登台，参与关于通义千问多模态未来的圆桌讨论。深入解析推动跨模态对齐的架构变革。感受 AI 原生动力。 🚀 敬请关注：https://click.qwencloud.com/m/20000000190/

多模态行业动态

20:24

Alibaba Cloud@alibaba_cloud

在Qwen Conference 2026上，Kara Tech CEO Arash Tayebi加入基础模型论坛，讨论"超越字幕：AI驱动的数字包容新前沿"。感受AI原生动力。 🚀 敬请关注：https://click.qwencloud.com/m/20000000190/

多模态行业动态

15:53

向阳乔木@vista8

Suno生成小甜歌的风格与参数分享

推文分享了使用Suno生成一首“小甜歌”的经验，其风格选择了Dream Pop（营造梦幻朦胧的空间感）与Disco-lite（提供有律动但不重的节奏）。在人声提示词上使用了“Breathy female vocal”以模拟女孩在耳边哼唱的效果，情绪设定为“Softly euphoric”以实现轻柔的欣快感，并应用了“Soft reverb”。最后附上了生成歌曲的链接。

多模态教程/实践

14:53

Alibaba Cloud@alibaba_cloud

5月26日，行业先驱与远见者齐聚新加坡金沙会展中心，深入分析智能体AI的绝对前沿--从核心基础设施到跨行业多模态工作流。 🚀 了解更多信息：https://click.qwencloud.com/m/20000000190/

智能体多模态行业动态

13:53

向阳乔木@vista8

X不让直接发音频，可以直接让Codex帮把音频转成MP4。当然，会ffmpeg指令的话也很简单，但大模型太适合做这种转格式操作了。

多模态教程/实践编码

13:21

小互@xiaohu

影眸科技发布 Rodin Gen-2.5 3D 生成模型

影眸科技推出 Rodin Gen-2.5，号称全球首个千万面级 3D 生成模型。该模型提供从极低（4秒）到极高（80秒）的五档思考模式，以平衡生成速度与细节精度。其原生 3D 贴图算法能在三维空间直接生成纹理，支持 PBR 材质与 360° 无死角覆盖，并提供 Faithful（贴合参考）与 Creative（自动优化）两种贴图模式。该模型已获 SIGGRAPH 2025 最佳论文奖。

多模态模型发布

11:17

karminski-牙医@karminski3

数字人模型本地都能跑了吗？

美团发布数字人模型LongCat-Video-avatar-1.5，可通过图片和音频生成口播视频。demo仅支持5秒480p视频。实测中人物嘴部遮挡案例效果与SOTA有差距，主要在口型。最大分辨率720p，但可AI提升至4K。模型本地部署可行，对动漫人物泛化，但体积大，int8量化需16G显存。

多模态视频评测/基准

09:18

Berryxia.AI@berryxia

我靠这个设计巧思，交互太丝滑了。 Claude可以复刻出来吗？

其他多模态

5月24日

23:23

PixVerse@PixVerse_

在Pixverse中进行角色设计工作流测试使用GPT Image 2.0为Lucas创建视觉形象，使用Seedance 2.0制作动画弹跳表演。从静态概念图到电影级动态效果。 RT + Follow + Reply = 工作流

图像生成多模态教程/实践视频

16:27

Rohan Paul@rohanpaul_ai

李飞飞：空间智能开启无限虚拟宇宙新纪元

李飞飞重新定义机器人学，强调其核心是“空间智能”——即机器在三维物理空间中感知、理解与行动的能力。这一能力使机器人能执行任务并实现人机协作。3D生成与重建技术正打破人类仅能体验单一物理世界的局限，创造出用于训练、创造、旅行与社交的无限数字多元宇宙。未来，人们将以“多元宇宙”的方式生活，极大拓展人类想象与交互的边界。

a16z: For all of history, humanity shared one 3D world. @theworldlabs co-founder @drfeifei says spatial intelligence now lets ...

具身智能多模态大佬观点

16:22

Alibaba Cloud@alibaba_cloud

5月26日，通义大模型事业部多模态交互负责人Steven Hoi教授将在新加坡金沙会展中心主舞台，解析智能体时代的基础模型。 🚀 报名链接：https://click.qwencloud.com/m/20000000190/

智能体多模态行业动态

16:22

Alibaba Cloud@alibaba_cloud

5月26日，Picsart视频产品负责人Narek Hayrapetyan将在新加坡金沙会展中心，解析多模态AI如何彻底重塑视觉创作。 🚀 报名链接：https://click.qwencloud.com/m/20000000190/

多模态行业动态

05:49

StepFun@StepFun_ai

StepAudio 2.5实时语音发布：副语言感知与人格化交互

StepAudio 2.5 Realtime是一款实时语音模型，能够深度理解用户语音中的语气、语速、停顿乃至微表情等副语言特征。它支持通过API接入自定义人格，允许设定个性、背景故事和语言风格，并提供了上万种原生人格选项，可组合出数百万种特征。产品还内置了5个可直接体验的预设人格，并经过RLHF调优，确保在复杂的角色扮演压力测试中也能保持角色一致性。该模型支持中文和英文。

产品更新多模态语音

02:57

Rohan Paul@rohanpaul_ai

神经网络将成主导，传统应用或消失

Andrej Karpathy 认为，下一代重大软件变革将是大量传统应用的消失。他预言了一种“完全神经化”的计算范式：原始输入直接由神经网络处理，通过扩散模型实时生成专属于当下的界面。当前经典计算以 CPU 为主、智能为辅，而未来神经网络可能成为主导进程，传统 CPU 则退化为处理精确任务的协处理器。这意味着许多现有应用只是过渡产物，未来交互可能不再是静态应用，而是由神经系统根据即时情境生成的动态界面。

多模态大佬观点

5月23日

20:37

🚨 AI News | TestingCatalog@testingcatalog

如果你错过了 👀：Gemini在Chrome浏览器中现已向部分欧洲用户开放。我终于在我的Canary版本中获得了德国的Chrome Gemini功能，包含Gemini 3.5 Flash、技能和Gemini Live。你也能用了吗？

Google 产品更新多模态

15:51

Alibaba Cloud@alibaba_cloud

阿里云Qwen团队新发布的Qwen3.7-Max模型在极短时间内（不到一个月）实现了多模态生成能力的惊人进步。独立测试显示，该模型已从此前表现落后，跃升至在特定测试中与Gemini 3.5 Flash持平，并超越了GPT-5.5与Claude Opus 4.7。其渲染的图像（如足球运动员与足球）在比例和真实感上表现尤为突出，展现出卓越的空间推理能力。

GMI Cloud: Salute to the Qwen team 🫡 We tested Qwen 3.7-Max, Gemini 3.5 Flash, GPT-5.5, and Claude Opus 4.7. The biggest shock cam...

Google OpenAI 多模态评测/基准

08:14

Google Gemini@GeminiApp

Gemini升级：用户超9亿，推出智能代理功能

谷歌宣布Gemini应用月活用户已突破9亿。在此次更新中，Gemini正从工具演变为更主动的个人AI代理。主要更新包括新一代模型Gemini 3.5 Flash、全新的“Neural Expressive”设计语言，以及能将提示转化为高质量视频的Gemini Omni模型。核心亮点是两项代理功能：“Daily Brief”提供个性化每日简报，“Gemini Spark”则作为24/7的个人代理，在用户授权下主动管理任务与数字生活。这些更新标志着AI助手向更主动、更整合的方向发展。

智能体 Google 产品更新多模态

关联讨论 18 条

07:49

Suno@suno

McClenney如何将他的定制合成器设备接入Suno 🎛️

多模态教程/实践

03:38

ChatGPT@ChatGPTapp

精选69

用对话处理文书工作更轻松。借助ChatGPT的图像功能和语音模式，您可以上传表单，说出要填写的内容，即可获得填写完成的版本。

OpenAI 产品更新多模态语音

推荐理由：填表终于不用打字了，上传表格对着说就行，ChatGPT 这个更新把语音和图像真正串起来，以后各种纸质表单直接扔进去就完事。

01:50

Ethan Mollick@emollick

同事件精选76

我认为人们没有意识到Gemini Omni与其他视频AI的不同之处。它是完全多模态的，因此也能原生编辑视频。我拿了1896年著名的"火车"电影，把它变成了高铁、乐高，加入了时间旅行者、蜈蚣、布偶……（看到倒影了吗？）

Google 多模态现象/趋势视频

同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

推荐理由：Ethan Mollick 用几个例子把 Gemini Omni 的真正能力讲清楚了，原生多模态让视频编辑不再是生硬叠加，而是理解场景后的重构，做视频的该看。

01:07

Luma@LumaLabsAI

想象力。瞬间化为电影级现实。 Seedance 2.0现已在Luma Agents上线。人像、风景、科幻、奇幻--每一帧都以不言自明的品质呈现。立即体验 → http://lumalabs.ai/app

产品更新多模态视频

5月22日

23:37

🚨 AI News | TestingCatalog@testingcatalog

错过了吗？Imagine Agent现已登陆Grok iOS版！你试过了吗？👀

智能体 xAI 产品更新多模态

23:26

Rohan Paul@rohanpaul_ai

世界模型正进入未知领域。 Project Genie刚刚将谷歌地图街景转变为一个可通过提示词操控的世界模拟器。谷歌AI Ultra用户现在可以将任何美国真实地点转化为交互式AI生成场景。

Google 产品更新多模态

23:14

Google DeepMind@GoogleDeepMind

精选67

Project Genie 🤝 @GoogleMaps Street View 你现在可以将真实的美国地点转化为全新的交互式世界。🌍

DeepMind Google 产品更新图像生成

推荐理由：Project Genie这次不是纸上谈兵了，直接吃进真实街景吐出来可玩世界，虽然暂时只限美国，但这是生成式游戏从能做走向普通人可玩的关键一步。

20:35

Greg Brockman@gdb

OpenAI的Codex应用推出了名为Appshots的新功能。用户通过同时按下两个CMD键，即可将当前应用的完整上下文（包括可见与不可见的屏幕内容）发送给Codex，远超普通截图所能提供的信息。与此同时，OpenAI更新了远程Codex，使其在笔记本电脑锁屏状态下仍可正常运行，允许用户安全地将笔记本留在家中，通过手机进行远程编码。该应用集成了多项独特功能，提升了使用体验。

Anthony Kroeger: Codex just launched one of the coolest features - Appshots. by pressing both CMD keyboard buttons, context of whatever a...

OpenAI 产品更新多模态编码

14:47

小互@xiaohu

网易有道开源双模型，聚焦工程精度与落地成本

网易有道开源Confucius4双模型，包括一个专注数学视觉推理的多模态模型，以及一个用于语音克隆的TTS模型。此次开源直接提供完整权重，而非仅提供API，强调在工程精度和实际部署成本上的投入，而非单纯追求参数规模。模型已发布于HuggingFace和GitHub平台。

GitHub Hugging Face 多模态开源生态

08:37

Google Gemini@GeminiApp

同事件精选82

Gemini Omni来了，我们本周看到了许多令人惊叹的创作。以下是一些杰出作品 👇

Google 多模态模型发布

同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

推荐理由：Google 的 GPT-4o 时刻终于来了，Gemini Omni 原生多模态的体验比想象中更惊艳，普通人也能随手出大片。

08:13

Berryxia.AI@berryxia

苹果数字人面部捕捉技术再突破，逼真度迈向新高

苹果Persona团队在WWDC26前发布新论文，展示了面部捕捉与动画技术的最新进展。从演示来看，其在眼部微表情、头部细微动作和皮肤质感等细节上实现了显著提升，使数字形象的真实感进一步增强，已超越简单“数字头像”，趋近于可信的“数字分身”。这类突破对AR/VR、游戏和远程协作等领域的沉浸式体验至关重要，能够有效打破虚拟交互中的“不真实感”。苹果持续重仓该技术赛道，相关论文与演示视频已公开。

Jonathan Cooper: Apple's Persona team continuing to do amazing work with face capture and animation. New paper released ahead of WWDC26 h...

多模态视频论文/研究

05:05

🚨 AI News | TestingCatalog@testingcatalog

OpenAI宣布Codex在macOS平台推出重要更新，核心功能为"Appshots"。该功能允许用户通过快捷键快速将任何应用窗口的完整上下文（包括屏幕截图与可访问文本）附加至Codex对话线程，从而为AI提供更全面的工作背景信息。此外，本次更新还包括浏览器端的新版注释编辑器、默认启用的/goal命令，以及现已支持分享的插件功能。Appshots已向所有Mac端用户开放。

OpenAI Developers: It's Codex Thursday, and yes, we have updates for you. First up: Appshots, a new way to bring the context of what you're...

OpenAI 产品更新多模态编码

04:38

小互@xiaohu

OpenAI Codex新增Appshots功能，窗口上下文一键传输

OpenAI为Codex推出Appshots功能，允许用户将Mac上任意窗口的实时上下文传输至AI。通过双击Command键，Codex不仅能获取当前窗口截图，还可读取完整文本内容（包括未滚动显示的部分）。该功能旨在简化开发、设计等工作流，用户无需手动复制代码或截图，即可让AI直接理解如VS Code、Figma、Notion等界面的代码结构、页面内容或设计框架，实现工作界面的智能共享。

智能体 OpenAI 产品更新多模态

04:02

Greg Brockman@gdb

OpenAI为Codex应用推出"Appshots"新功能，用户可通过快捷键（如Mac的Command-Command）将当前应用窗口的截图与文本内容直接附加到对话中，从而为AI提供更全面的上下文信息，包括屏幕外内容。该功能现已在Mac端全套餐开放，企业版访问权限也将很快推出。此外，Codex还新增了面向企业和商业场景的功能，如token使用分析和插件共享，以增强协作与数据分析能力。

OpenAI Developers: It's Codex Thursday, and yes, we have updates for you. First up: Appshots, a new way to bring the context of what you're...

OpenAI 产品更新多模态编码

03:36

ViggleAI@ViggleAI

精选66

介绍Fight Anyone 3D🥊一款3D派对格斗游戏，可能是上班时玩起来最爽的游戏。上传任何人的照片 → 一个可玩的3D格斗角色，带有语音、个性+招牌动作，由Viggle自研游戏引擎+模型打造。公测期间100%免费+赠送20张礼品卡。玩得越多，赢得越多！和同事对战。和朋友对战。和任何人对战。链接+教程+更多内容见下方推文串 ↓

产品更新图像生成多模态

推荐理由：Viggle把「上传照片生成3D格斗角色」做成了免费派对游戏，有声音有个性，交互感拉满，是近期最适合摸鱼的产品，但AI含量主要在娱乐侧，别当生产力工具。

02:26

Chubby♨️@kimmonismus

1/ 我最近在体验 SenseNova U1，这是 @SenseTime_Al 发布的原生多模态模型系列。它基于一种名为 NEO-unify 的架构构建，该架构在一个统一系统中同时处理图像和文本。这与通常在不同组件间传递任务的方式有很大不同。请看这个帖子 🧵：

多模态评测/基准

00:30

歸藏(guizang.ai)@op7418

剪映海外版宣布跟 Gemini 合作了未来可以在这边里使用剪映的编辑功能去编辑图像视频，但是没有说具体的合作方式和上线时间

CapCut: CapCut is partnering with @GeminiApp . Soon, users will be able to edit images and videos directly within the Gemini app...

Google 产品更新多模态

5月21日

20:59

🚨 AI News | TestingCatalog@testingcatalog

Google宣布与视频编辑应用CapCut达成合作，将后者的图像和视频编辑功能直接整合进其AI模型Gemini中。这意味着用户未来将能在一个对话式AI平台内完成更复杂的创意内容编辑。此次合作被视为AI工具与专业创意软件融合的重要一步，旨在打造更无缝、智能的创作工作流。双方均认为，这是未来创作工具走向一体化、对话式体验的开端。

CapCut: CapCut is partnering with @GeminiApp . Soon, users will be able to edit images and videos directly within the Gemini app...

Google 产品更新多模态

11:18

Kling AI@Kling_ai

首部100%AI生成电影亮相戛纳，剑指2026院线

AI电影项目RAPHAEL在戛纳亮相。该片由Mateo AI Studio与韩国MBC C&I的AI内容实验室联合开发，全程使用Kling AI视频模型进行制作，旨在实现独特的视觉效果与差异化的观影体验。项目计划于2026年登陆院线，其大规模制作旨在证明纯AI电影制作的工业可行性，标志着AI原生院线电影新趋势的开端。

多模态行业动态

10:52

SenseTime@SenseTime_AI

商汤连续十年领跑中国计算机视觉市场

商汤科技被IDC连续十年评为中国计算机视觉市场第一。其关键驱动因素包括：主导推进CV 2.0架构演进，原生嵌入生成式AI能力；海外市场扩展至12个国际区域，服务超500家企业客户并保持高留存率；以年度经常性收入增长为锚点实现盈利性增长；并从项目制交付转型为高度可扩展的AI平台。这一十年市场领导地位为其引领计算机视觉与生成式AI的融合浪潮奠定了基础。

多模态行业动态

10:34

向阳乔木@vista8

精选75

开源Suno技能：一键生成任意风格AI音乐

这是基于Suno AI音乐生成工具的技能实现，可通过简单指令按用户需求生成不同风格的歌曲（例如德语空灵风格）。该技能订阅费用为每月10美元，支持高度自定义的风格生成。技术层面已优化，新增近6000个音乐风格检索以提升准确性，并可通过谷歌CDP免登录直接调用。项目已开源，提供GitHub仓库地址与安装指令，降低了创作门槛。目前AI生成音乐在艺术性上仍与人工制作存在差距，但实现了快速、灵活的创作可能。

向阳乔木: Suno 生成 Skill 做了优化,增加了近6000个音乐风格检索,让生成的音乐更准确。用谷歌CDP刷新获取登录Token,完全不用打开网站就能创作歌曲了。开源地址:https://github.com/joeseesun/qiaom...

GitHub 多模态教程/实践

推荐理由：乔木这个 Suno Skill 把音乐生成从“抽卡”变成“精准点唱”，6000 种风格检索让普通人也能玩出花样，虽然比不上专业制作，但做短视频配乐绝对够用，看完就能装。