5月5日

05:49

AK@_akhaliq

UniVidX 一个通过扩散先验实现多功能视频生成的统一多模态框架 paper： https://huggingface.co/papers/2605.00658

Hugging Face 多模态视频论文/研究

04:25

Luma@LumaLabsAI

创意很强大。现在请确保提案同样出色。设定简报。定义美学。Luma Agents 构建制胜的客户提案板，让您专注于创意。赢得提案 → http://lumalabs.ai/app

产品更新多模态

03:25

Replit ⠕@Replit

精选70

你可以在 Replit 中构建完整的商业计划书演示文稿，无需触碰任何幻灯片。只需描述你想要的内容，在聊天中迭代修改，可视化编辑，然后导出为 PPTX、Google Slides 或 PDF（或发布实时链接）。以下是具体操作方式👇

产品更新多模态编码

推荐理由：Replit把做pitch deck变成聊天式操作，输描述、实时改、一键导出，比传统PPT工具快不少，但真正的故事还是得你自己想清楚。

03:14

阿绎 AYi@AYi_AInotes

21岁大学生用AI虚拟伴侣月入数万美元，揭示"孤独经济"与伦理灰色地带

一名21岁大学生仅用四个Markdown文件和低成本AI技术栈（Claude、Flux、ElevenLabs），在宿舍创建了名为Maya的AI虚拟伴侣，一个月内获得1247名付费订阅，净赚约32700美元。其核心是利用AI提供极致的情感陪伴，满足用户幻想，成本低廉且模式已被复制并实现更高收入。这凸显了AI如何将依赖人格与情感的“孤独经济”转化为代码游戏，同时暴露出平台审核滞后、法律道德边界模糊等问题，例如用真人身份绕过OnlyFans验证。最引人深思的是用户对仅12KB数据产生的真实情感依赖。

Raytar: http://x.com/i/article/2050140624171507712

Anthropic 图像生成多模态现象/趋势

02:58

Google Gemini@GeminiApp

精选67

从构想到原型，借助Gemini中的Nano Banana 2，将您独特的产品愿景变为现实。🪀

Google 产品更新多模态

推荐理由：Google Gemini塞进一个Nano Banana 2创意工具，把想法转原型只需几句话，产品经理脑暴草案利器，算不上重磅但够实用。

01:58

Runway@runwayml

精选69

实时视频智能体已到来。今天，我们将分享如何构建Runway Characters，让你能将一张图片转化为一个完全富有表现力、可对话的视频智能体，以每秒24帧的高清画质流畅播放。端到端延迟仅需1.75秒。了解更多信息请见下文。

产品更新多模态视频

推荐理由：Runway 把 AI 视频从生成拉入实时对话时代，1.75 秒的延迟让视频代理第一次有了「对话感」，做交互设计的同学可以认真看一眼。

5月4日

21:24

小互@xiaohu

传谷歌I/O将发布Omni模型，Gemini或升级为全模态生产力入口

据传谷歌将在I/O大会发布名为“Omni”的新模型，旨在将Gemini从聊天助手升级为集成写作、图片、视频、长上下文记忆与复杂任务流的全模态生产力平台。该模型可能原生支持视频生成与输出，超越现有的Veo 3.1。同时，Gemini 3.2/3.5版本或专注于提升推理速度与效率，而Ultra版本则向长上下文、重记忆及多步骤工作流方向深化。若消息属实，Gemini将成为首个具备视频输出能力的顶级Omni模型。

TestingCatalog News 🗞: GOOGLE I/O 🚨: A NEW OMNI MODEL IS BEING TESTED ON GEMINI FOR VIDEO GENERATION! > "Start with an idea or try a template....

Google 多模态模型发布视频

16:46

Chubby♨️@kimmonismus

这个SVG在AI Studio的A/B测试窗口中浮现，很难相信它实际上是矢量生成的。很可能来自谷歌的新Flash/Pro模型。对谷歌I/O大会超级兴奋！还有两周！

Chubby♨️: Rumors so far: - Google Gemini Flash 3.2/3.5 (already being tested) - New Omni Model, maybe even updated Veo in competit...

Google 图像生成多模态行业动态

11:19

Kling AI@Kling_ai

经典电影。标志性时刻。现以惊艳的Kling 4K动态呈现。海报不再只是悬挂着了。它们在播放。🎬

产品更新图像生成多模态视频

5月3日

22:13

Berryxia.AI@berryxia

据古尔曼爆料Apple正在搞一款AirPods Ultra，比AirPods Pro多了摄像头，更多的传感器和摄像头加入其中。

多模态行业动态

20:15

Chubby♨️@kimmonismus

目前的传闻： - Google Gemini Flash 3.2/3.5（已在测试中） - 新的Omni模型，甚至可能推出更新的Veo来与Seedance竞争 - "spark Robin"--新的视觉模型？

Google 多模态行业动态视频

16:45

Chubby♨️@kimmonismus

据泄露信息显示，谷歌可能正在为其Gemini平台测试一款全新的Omni模型，专注于视频生成功能，其界面标语为"由Omni驱动"。该模型的内部代号接近当前基于Veo的视频工具"Toucan"。分析指出，若谷歌正式发布名为Gemini Omni的视频生成模型，其性能很可能超越现有的Veo 3.1版本。此举若成真，Gemini将成为首个具备视频输出能力的顶级Omni模型，相关进展或于即将到来的Google I/O大会上正式公布。

TestingCatalog News 🗞: GOOGLE I/O 🚨: A NEW OMNI MODEL IS BEING TESTED ON GEMINI FOR VIDEO GENERATION! > "Start with an idea or try a template....

Google 多模态模型发布视频

06:50

TestingCatalog News 🗞@testingcatalog

谷歌I/O动态：Gemini测试用于视频生成的新Omni模型

谷歌正在其Gemini平台测试一款名为“Omni”的新模型，专注于视频生成功能。泄露信息显示，该模型的界面提示用户“从一个想法开始或尝试一个模板”，并注明“由Omni驱动”。这一模型可能与内部代号“Toucan”的视频生成工具密切相关，后者目前由Veo驱动。如果谷歌计划正式发布用于视频生成的Gemini Omni，其性能很可能超越当前的Veo 3.1版本。若消息属实，Gemini将成为首个具备视频输出能力的顶级Omni模型，这标志着谷歌在视频生成领域的重大技术进展，并可能为未来的Google I/O 2026活动预热。此举显示了谷歌在人工智能视频生成方面的持续创新和竞争态势。

Google 多模态模型发布视频

02:41

Rohan Paul@rohanpaul_ai

Chatly发布Omni Agent，从聊天转向工作流组装

Chatly近日发布Omni Agent，其核心理念是超越聊天，转向工作流组装。该产品采用多智能体路由机制，可将用户设定的目标自动分解，并分配给不同的专业智能体协同完成多元化任务，如邮件营销、演示文稿、落地页设计等。它具备强大的记忆层，能持续学习并复用用户的品牌信息、偏好、项目规则等上下文。通过原生工作空间集成，AI可直接在用户现有的文件、任务和活动环境中操作。产品提供Think、Pro、Ultra三个层级，旨在通过统一界面整合深度研究、多媒体生成与记忆功能，让用户从使用工具转向指挥智能体。

Chatly: Introducing "Omni Agent". The only AI you'll ever need. One ecosystem. Three tiers. Infinite possibilities. Think. Pro. ...

智能体产品更新多模态

5月2日

12:11

阿绎 AYi@AYi_AInotes

说个暴论，你的审美和品味就是你的提示词，并决定了你使用AI的上限。

一个零经验的开发者，仅用两周时间，通过向AI描述创意并筛选最佳结果，便独立完成了一款3D外卖配送游戏。这体现了“vibe coding”模式：AI负责所有执行层任务，人类则专注提供方向与审美判断。此举并非作弊，而是创意的民主化，将过去团队数月的工作压缩至个人短期完成。AI虽能生成一切，却无法判断何为舒适、有趣或富有灵魂，这些正是人类不可替代的价值。未来，这种模式或将开启一个属于普通人的全新创作黄金时代。

多模态现象/趋势

07:48

凡人小北@frxiaobei

精选77

吴恩达（Andrew Ng）推出新课程《人人皆可的 AI 提示技巧》，旨在帮助不同水平的用户成为 AI 高级使用者。课程教授适用于 ChatGPT、Gemini、Claude 等工具的通用提示技巧，核心内容包括：利用深度研究模式生成复杂问题的详尽报告；为 AI 提供远超常人认知的丰富文档与图像上下文；在重要决策时让 AI 进行长时间深度思考；以及使用 AI 生成图像、分析数据、构建简单游戏和网站。课程还将剖析大模型的工作原理，帮助学员判断何时可信赖 AI 的答案。

Andrew Ng: How we prompt AI is very different in 2026 than 2022 when ChatGPT came out. I'm teaching a new course, AI Prompting for ...

多模态教程/实践

推荐理由：吴恩达亲自下场教提示工程，从深度研究到让AI替你决策，覆盖了你没想到的那些用法，免费课程值得花两小时走一遍。

07:40

Elon Musk@elonmusk

试试 Grok Imagine 智能体模式测试版！在 @imagine 智能体模式中，你可以在同一页面内进行头脑风暴、写作、生成和编辑图像，然后将它们转化为视频。请在桌面端访问 http://grok.com/imagine 尝试。

Grok Imagine: Your entire creative workflow just collapsed into one infinite canvas. In @imagine Agent Mode, you can brainstorm, write...

智能体 xAI 产品更新多模态

03:11

阿绎 AYi@AYi_AInotes

AI并非取代医生，而是成为医生的"超级大脑"

针对“AI诊断超越急诊医生”的误读，作者指出相关Science论文实为概念验证，强调AI仅作为“第二意见”。实验条件苛刻：AI仅能访问纯文本病历，在此限定任务中表现优于两位资深医生。AI的核心优势在于无疲劳、无认知偏差、能快速分析海量病例统计规律，而非替代医生。人类医生在多模态感知、伦理判断和物理互动上仍不可替代。未来合理场景是人机协同——AI辅助分诊，优先筛选高危病例，让医生专注于需人类判断的环节。真正的挑战在于建立信任、明确责任及整合至现有医疗体系。

Polymarket: JUST IN: Study reveals AI now outperforms doctors at diagnosing emergency room patients.

多模态大佬观点