5月20日

03:29

Sundar Pichai@sundarpichai

Gemini Omni不仅能构建逼真的场景，还能推理接下来应该发生什么。它结合了对物理的直观理解与Gemini在历史、科学和文化背景方面的知识。今日起，通过@Geminiapp + Google Flow和@YouTube Shorts，向全球Google AI Plus、Pro和Ultra订阅用户推出视频生成功能。

Google 多模态模型发布视频

03:11

Google DeepMind@GoogleDeepMind

我们希望借助AI帮助科学家发现下一个重大突破。 Gemini for Science是我们全新的实验性工具套件，旨在帮助他们探索更多假设、大规模验证工作、轻松解析文献等。🧵

DeepMind Google 产品更新多模态

03:08

Google Gemini@GeminiApp

介绍Gemini Omni，我们的新模型，可以从任何输入创建任何内容，首先从视频开始。借助Gemini Omni，您可以将图像、视频和文本作为输入组合，并生成基于Gemini现实世界知识的高质量视频。#GoogleIO

Google 多模态模型发布视频

03:03

OpenRouter@OpenRouter

来自@GoogleDeepMind的Gemini 3.5 Flash现已登陆OpenRouter！在编码、智能体任务和工具使用方面超越Gemini 3.1 Pro，同时保持Flash级别的价格和速度。支持100万上下文、6.5万最大输出、多模态。输入$1.50/百万token，输出$9/百万token。

Google 多模态模型发布

03:01

François Chollet@fchollet

Gemini 【引用 @arcprize】：Gemini 3.5 Flash ARC-AGI（已验证） ARC-AGI-2： - 高配：72.1%，$0.85 - 最低配：8.9%，$0.11 ARC-AGI-1： - 高配：92.5%，$0.42 - 最低配：48.8%，$0.06 Gemini 3.5 Flash在ARC-AGI测试中与GPT-5.5（中配）表现相当

ARC Prize: Gemini 3.5 Flash ARC-AGI (Verified) ARC-AGI-2: - High: 72.1%, $0.85 - Minimal: 8.9%, $0.11 ARC-AGI-1: - High: 92.5%, $0....

Google 多模态推理评测/基准

02:55

AYi@AYi_AInotes

Google Gemini Omni重新定义视频生成

Google推出Gemini Omni，首个面向消费者的世界模型。它通过自然语言交互，将Gemini的智能与生成媒体系统结合，实现了对物理规律、历史、生物等世界的深刻理解。用户可以像编辑ChatGPT文本一样用单句指令编辑视频，实现人物一致性、风格迁移、角度调整等功能。它不是单纯生成像素，而是模拟连贯的物理与语义世界，标志着AI视频生成从拼接工具向智能创作系统的飞跃。

Google DeepMind: We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....

DeepMind Google 图像生成多模态

02:38

Google Gemini@GeminiApp

Gemini Omni今日登陆Gemini应用，面向付费订阅用户开放。它让你能通过文本、图像和视频的任意组合来实现创意。只需打开Gemini，从相册中附加一段视频，然后进行编辑。就这么简单。#GoogleIO

Google 产品更新多模态

02:38

Google Gemini@GeminiApp

精选68

我们在#GoogleIO上宣布了多项Gemini更新，包括： - 采用神经表达技术的全新Gemini体验设计 - 即将推出的Gemini智能体功能，含每日简报与Gemini Spark - Gemini Omni与3.5 Flash模型 - 以及更多内容！详情请见此线程🧵

智能体 Google 产品更新多模态

推荐理由：Google IO上Gemini这波更新，从Neural Expressive到代理体验，是在把AI助手往主动帮你做事的方向推，产品人和开发者该认真看看。

02:30

Chubby♨️@kimmonismus

真正的"哇"时刻是 Gemini Omni。一个迈向 AGI 的世界模型。它可以从任何输入创建任何内容。这太疯狂了。

Logan Kilpatrick: Introducing Gemini Omni 🔮........ Omni is our new model that can create anything from any input - starting with video (...

Google 多模态模型发布视频

02:06

🚨 AI News | TestingCatalog@testingcatalog

谷歌I/O大会🔥：Gemini 3.5 Flash已发布！ Gemini 3.5在人工智能分析智能基准测试中表现与Gemini 3.1 Pro相当，但速度更快。【引用 @GeminiApp】：Gemini 3.5 Flash来了，这是我们迄今为止在快速高效完成任务方面最好的模型。无论您需要日常任务帮助还是多步骤创意项目，Gemini 3.5 Flash都能应对现实世界的复杂性，助您采取行动。#GoogleIO

Google Gemini: Gemini 3.5 Flash is here and it's our best model yet for getting things done quickly and efficiently. Whether you need h...

Google 多模态模型发布

02:03

Artificial Analysis@ArtificialAnlys

速度智能兼得的新一代AI：谷歌Gemini 3.5 Flash发布

谷歌发布新模型Gemini 3.5 Flash，其在智能指数上提升9分至55分，超越Grok 4.3和Claude Sonnet 4.6，尤其在代理任务和知识真实性（大幅减少幻觉）方面进步显著。输出速度超280 tokens/s，使其位于速度与智能的领先前沿。然而，模型运行成本相比前代增加5.5倍，主要由于输入令牌用量及定价上涨。此外，它在多模态评估MMMU-Pro中取得最高分，支持多模态输入，展现了谷歌的综合优势。

智能体 DeepMind Google 多模态

02:00

Chubby♨️@kimmonismus

一个Flash模型的评测结果太疯狂了！Gemini 3.5 Flash对于其尺寸来说真的非常出色！

Chubby♨️: Gemini 3.5 Flash official! Insanely fast an capable model

Google 多模态模型发布

01:59

Ethan Mollick@emollick

Gemini Omni："一个男人一边吃着蒜香面包，一边在独轮车上保持平衡，站在翻滚的番茄酱海洋上方的小平台上，朗读《荒原》中的《溺水之死》。在酱海中央，漂浮着一颗戴着高顶礼帽、长着亮蓝色眼睛的肉丸。"

Google 其他多模态视频

01:41

Google DeepMind@GoogleDeepMind

我们推出Gemini Omni：这是迈向一个能从任何内容生成任何内容的模型的第一步--从视频开始。它结合了Gemini的智能与我们的生成式媒体系统--代表了在世界理解、多模态和编辑方面的飞跃🧵

DeepMind Google 多模态模型发布

01:36

🚨 AI News | TestingCatalog@testingcatalog

谷歌I/O 🔥：Gemini 3.5 Flash 已开始在 Gemini 和 API 上推出！即将开始测试 👀

Google 多模态模型发布

01:36

🚨 AI News | TestingCatalog@testingcatalog

精选75

谷歌 I/O 🔥：GEMINI OMNI FLASH 已发布，现已在 GEMINI 和 GOOGLE FLOW 上可用。 GEMINI OMNI PRO 即将推出 🤩

Google DeepMind: Omni brings together an improved understanding of physics with Gemini's knowledge of history, biology, and culture, brid...

Google 多模态模型发布

推荐理由：Gemini Omni Flash 是 Google 对多模态生成的新尝试，把物理模拟和历史叙事揉在一起，做视频内容的人可以盯着看。

01:30

Chubby♨️@kimmonismus

精选77

"迈向AGI的进展"：Gemini Omni - 世界模型 -Gemini Omni官方发布！！它可以从任何输入创建任何内容！！！

Chubby♨️: Cap-ex at google is increasing at roughly 6x per year!

Google 多模态模型发布

推荐理由：Google 放出 Gemini Omni，从任何输入生成任何内容，这个能力宣言直接把生成式 AI 的边界推到极限。虽然细节还不明朗，但看这架势，模型竞赛又要烧一把火。

01:30

Chubby♨️@kimmonismus

Gemini 3.5 Flash官方发布！速度极快且能力强大的模型

Chubby♨️: "Progress towards AGI": Gemini Omni - world models -Gemini Omni official!! It can create anything from any input!!!

Google 多模态模型发布

01:28

Ethan Mollick@emollick

我早期获得了Gemini Omni的访问权限："一只穿着飞行员制服的海獭在纽约上空的热气球里，向一只被笔记本电脑分心的河獭解释为什么精神航空破产了。在旁边的另一个热气球里，威廉·莎士比亚正在与一个由披萨制成的机器人搏斗"

Google 其他多模态视频

00:36

DogeDesigner@cb_doge

马斯克《福布斯》访谈：科技愿景与争议观点

在《福布斯》访谈中，埃隆·马斯克就多个领域阐述了激进观点。他批评针对OpenAI的诉讼败诉开创了“危险先例”，并计划上诉。其核心预测包括：AI发展呈指数级，5年内数字智能或超全人类智能总和；全球经济规模有望数年内翻倍；人形机器人将达数亿台。SpaceX致力于开发全复用火箭，以实现大规模太空运输并建立地外城市。他将Neuralink脑机接口技术视为“耶稣级”创新，能恢复残障人士机能。此外，他还提及了隧道交通、合成医学等机遇，整体展现出以技术加速人类文明进程的强烈紧迫感与乐观构想。

OpenAI 具身智能多模态大佬观点

00:26

向阳乔木@vista8

Gemini Omni Flash 效果很拉胯啊！提示词：生成墨比斯风格的科幻动画短片，银河系搭车客指南好像根本没理解第二句话…

Google 多模态评测/基准

00:18

小互@xiaohu

Google 全新Omni 模型 🫡

Google 多模态模型发布

00:09

歸藏(guizang.ai)@op7418

哇！谷歌新视频模型 Gemini Omni Flash 已经上线 FLow

Google 多模态模型发布视频

00:02

Luma@LumaLabsAI

Luma Agents现在可以使用Seedance 2.0进行生成了。将你的下一个项目指向它，看看它能产出什么，然后继续前进。同样的工作流程，但有了更多可用内容。打开Luma Agents → http://lumalabs.ai/app

产品更新多模态

5月19日

23:34

🚨 AI News | TestingCatalog@testingcatalog

Google Flow在I/O期间发布了一系列重要更新。核心功能包括新增角色与场景创建，用户可生成并复用角色形象与语音，用于视频创作。应用已正式登陆Google Play，覆盖Android平台。通过集成Gemini Omni，Flow获得了新的AI助手体验，用户可通过聊天模式与Gemini协作，进行概念构思、图像变体生成等智能操作，并新增了可定制的风格工具。

🚨 AI News | TestingCatalog: GOOGLE I/O 🔥: Google Flow is getting Gemini Omni and a new Flow Agent experience! > Your Agent is active! Ask Gemini to...

Google 产品更新多模态视频

21:01

Berryxia.AI@berryxia

正畸医生出品：AI几秒搞定头影测量，颠覆传统流程

正畸医生兼开发者@SwiftyAlbert打造的OrthoKit应用，利用AI技术实现了头影测量的全自动化。传统上医生需手动标注数十个标志点、耗时且易错，而AI接管后，几秒内即可完成自动识别、描迹并生成报告。该应用已上架全平台，提供超过30项分析（如Steiner、McNamara），其中半数以上由AI驱动。这标志着高专业门槛的医疗诊断正转化为智能工具，使更多正畸医生能轻松获得精准分析能力。

Alberto: Por favor mirad qué maravilla el trazado cefalométrico asistido por IA, aunque no entendáis de ortodoncia:

产品更新多模态

19:01

Berryxia.AI@berryxia

10分钟训出AI健身教练，黄仁勋的预言正在照进现实

NVIDIA CEO 黄仁勋指出，AI已成为每份工作的基本工具。推文作者以自身实践为例，为应对健康与效率焦虑，利用360“龙虾教练”平台在10分钟内训练出个性化AI健身助手“小B”。该AI能记录训练数据、生成专业日报周报，甚至调用其他AI绘制动作示意图，无需用户编写代码或配置复杂工作流。案例展示了AI工具正从概念讨论快速落地为普通人可用的日常助手，也提醒在追赶技术浪潮时，不应牺牲身心健康。

智能体多模态教程/实践

16:00

Berryxia.AI@berryxia

腾讯开源Chronicles-OCR基准：评估视觉语言模型的古汉字感知能力

腾讯开源了Chronicles-OCR基准，旨在专门评估视觉语言模型对古汉字的感知能力。该数据集横跨3000年演变，涵盖从甲骨文到草书的7种历史字体，包含2800张来自多样材质的真实图像。研究设置了字符定位、细粒度识别、古文字解析和字体分类四项核心任务。测试结果揭示，面对历史字体带来的视觉分布漂移，大部分模型的感知能力会急剧下降。该研究为古文字研究提供了重要的AI评测工具。

Tencent Hy: 🎉 🎉 🎉 We're open-sourcing Chronicles-OCR, a visual perception benchmark evaluating VLLMs on ancient Chinese character...

多模态论文/研究

13:50

AYi@AYi_AInotes

葡萄3D模型在X平台爆火：4800赞背后的3DGS技术突破

一颗葡萄的3D模型在社交平台X上引发热议，一天内获4800赞和280万浏览。其核心在于利用3DGS技术成功攻克了半透明物体重建的公认难题。项目使用6660张宏观照片训练，生成仅43万高斯点，压缩后模型小于50MB，实现了在手机端实时360度旋转和光影还原。这一突破验证了“最难案例跑通，则更简单物体皆可数字化”的逻辑，展示了从专业扫描仪和建模团队降维到个人相机加自动训练的低成本、高效率新流程，为手办、珠宝、文物等领域的数字资产化指明了方向，开发者正通过工具miqula将此流程产品化。

AYi: Damn,有点炸裂啊,一颗葡萄用了6660张宏观照片训练3DGS, 模型只有43万个高斯点, 压缩完不到50MB, 但你可以在手机上看它360度旋转, 连果肉里透出来的光都还原了, 更炸的是老哥回复里那句话,有人问底部怎么拍到的,他甩了张g...

多模态现象/趋势端侧

12:44

Alibaba Cloud@alibaba_cloud

阿里云冠名2026年蒙特卡洛人工智能电影节

阿里巴巴云宣布成为2026年蒙特卡洛人工智能电影节的冠名赞助商。该电影节旨在探索电影与人工智能技术的融合。作为全球云计算和AI基础设施领导者，阿里云将为创作者提供大模型训练、沉浸式视频内容生成及大规模高性能渲染等支持，构建AI原生创作所需的弹性、安全与智能云平台，助力新一代创作者加速创新。

多模态行业动态视频

11:59

歸藏(guizang.ai)@op7418

CodePilot学习用户风格并自动调整UI生成样式

CodePilot展示了强大的个性化能力，能通过用户频繁使用PPT功能的行为，学习并记录其视觉风格偏好。系统随后将这一风格应用于生成式UI组件的视觉样式中，使生成的可视化内容自动适配用户喜好，提升了内容的个性化与美观度。

智能体产品更新多模态

11:10

Alibaba Cloud@alibaba_cloud

🚀🚀Qwen3.7预览版登陆竞技场！ ⚡️⚡️Qwen3.7-Plus-Preview来了。阿里巴巴现在在视觉领域排名第五。🎨 迫不及待要发布Qwen3.7系列模型了！敬请期待！@arena

Arena.ai: In the Vision Arena, Qwen3.7 Plus Preview makes @Alibaba_Qwen the #5 lab, ranking #16 overall.

多模态模型发布评测/基准

11:10

Alibaba Cloud@alibaba_cloud

阿里巴巴旗下通义千问的Qwen3.7系列模型在AI评测平台Arena首次公开。其中，Qwen3.7 Max Preview在文本竞技场总排名第13，使阿里在该平台位列第六；在数学、专业知识、软件与IT、编程等多个细分领域排名进入前十。此外，Qwen3.7 Plus Preview在视觉竞技场排名第16，阿里在该领域位列第五。官方表示即将正式发布Qwen3.7系列完整模型。

Arena.ai: Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...

多模态模型发布

11:04

Tencent Hy@TencentHunyuan

精选72

开源古代汉字视觉感知评估基准Chronicles-OCR

开源了评估视觉大语言模型（VLLM）对古代汉字视觉感知能力的基准测试Chronicles-OCR。该数据集覆盖了从甲骨文到草书的3000年演变历程，包含7种历史书体与2800张均衡图像。评估涵盖字形定位、细粒度识别、古代文本解析和字体分类四项核心任务，旨在探究视觉分布随时间的变化如何影响模型感知。相关论文与代码已开源。

多模态开源生态论文/研究

推荐理由：腾讯混元开源的视觉感知基准，专攻古汉字识别，覆盖从甲骨文到草书的三千年演变，做 OCR 和视觉模型的可以拿来测测自家模型在历史文本上的感知退化。

10:59

歸藏(guizang.ai)@op7418

谷歌新视频模型的演示表明其可能具备视频编辑功能，引发了关于模型架构是否统一或分开生成与编辑的讨论。此演示与Google I/O 2026会议相关，Sundar Pichai推文预告会议将于明天10am PT举行，预示着更多技术细节可能在此次活动中披露。

Sundar Pichai: On our way to I/O 2026. See you at 10am PT tomorrow!

Google 产品更新多模态视频

10:56

Berryxia.AI@berryxia

卧槽~这个可以啊！其实Apple Vision Pro就是通过追踪眼球来控制，类似你的眼球就像移动的鼠标指针，你的手部捏合的动作就是鼠标点击的动作。这个直接搞到显示器上有点意思！

多模态现象/趋势

09:56

Berryxia.AI@berryxia

精选76

首个实时多agent世界模型发布，人类可与AI同屏互动

奥德赛实验室推出Agora-1，这是全球首个实时多agent世界模型，允许多人与AI同时在同一个模拟世界中实时互动并相互影响。该模型以经典游戏GoldenEye死亡竞赛为演示场景，提供可玩研究预览，用户现在即可体验与AI共同参与动态生成的模拟世界。这标志着从单人生成视频向多人共享“活世界”的转变，长期来看可能重塑游戏、模拟、教育、机器人及AI协作等领域，使人类从旁观者变为与AI共同生活的参与者。

Odyssey: Introducing Agora-1, a multi-agent world model. Multiple participants-human or AI-can now interact inside the same world...

智能体多模态模型发布

推荐理由：Odyssey把世界模型推进到了多人实时交互，可玩的GoldenEye死亡竞赛预览比任何PPT都有说服力，做游戏和模拟的人得上去打两把。

09:26

meng shao@shao__meng

推文疑似展示或讨论了Veo 4的视频生成能力，重点提及了视频续写、不同特效切换等效果，以及视频时长增加至10秒的新特性。该推文引用了Google CEO Sundar Pichai的预告，暗示这些展示可能与即将举行的Google I/O 2026大会相关。

Sundar Pichai: On our way to I/O 2026. See you at 10am PT tomorrow!

Google 多模态行业动态视频

08:56

Berryxia.AI@berryxia

Odyssey推出首个实时多模态世界模型Starchild-1

Odyssey AI实验室发布了Starchild-1，这是全球首个实时多模态世界模型。该模型不仅能生成视频画面，还能同步生成与之匹配的声音，实现了视觉与听觉的真正融合，模拟出完整、鲜活的世界动态。与以往只能“看”世界的世界模型不同，Starchild-1实现了“听”的能力。这被视为向通用世界模型迈出的关键一步，旨在重新定义AI对现实世界的认知与模拟方式。

Odyssey: Meet our new friend, Starchild-1 ❤️ Starchild-1 is the first ever real-time multimodal world model. A world model unders...

多模态模型发布语音

08:49

🚨 AI News | TestingCatalog@testingcatalog

谷歌I/O 🔥：这些传奇人物是通过即将推出的Gemini Omni模型生成的AI图像。 > 两段视频均为8秒高清样本。 > 与Sundar和Demis相关的视频很可能是使用Omni进行风格编辑的图像转视频生成。 > Logan的视频则可能是"相似度"虚拟形象与Omni视频的结合。而"GEMINI"意味着新模型的发布！🤯

Logan Kilpatrick: Gemini

Google 图像生成多模态模型发布