5月20日

03:40

Google AI@GoogleAI

到现在，你可能已经听说了 Gemini Omni，这是我们新推出的模型，旨在从任意输入（从视频开始）创造任何内容。但……这有什么大不了的？让我们来分解一下 🧵👇

Google 多模态模型发布视频

03:29

Sundar Pichai@sundarpichai

Gemini Omni不仅能构建逼真的场景，还能推理接下来应该发生什么。它结合了对物理的直观理解与Gemini在历史、科学和文化背景方面的知识。今日起，通过@Geminiapp + Google Flow和@YouTube Shorts，向全球Google AI Plus、Pro和Ultra订阅用户推出视频生成功能。

Google 多模态模型发布视频

03:11

Google DeepMind@GoogleDeepMind

我们希望借助AI帮助科学家发现下一个重大突破。 Gemini for Science是我们全新的实验性工具套件，旨在帮助他们探索更多假设、大规模验证工作、轻松解析文献等。🧵

DeepMind Google 产品更新多模态

03:08

Google Gemini@GeminiApp

介绍Gemini Omni，我们的新模型，可以从任何输入创建任何内容，首先从视频开始。借助Gemini Omni，您可以将图像、视频和文本作为输入组合，并生成基于Gemini现实世界知识的高质量视频。#GoogleIO

Google 多模态模型发布视频

03:03

OpenRouter@OpenRouter

来自@GoogleDeepMind的Gemini 3.5 Flash现已登陆OpenRouter！在编码、智能体任务和工具使用方面超越Gemini 3.1 Pro，同时保持Flash级别的价格和速度。支持100万上下文、6.5万最大输出、多模态。输入$1.50/百万token，输出$9/百万token。

Google 多模态模型发布

03:01

François Chollet@fchollet

Gemini 【引用 @arcprize】：Gemini 3.5 Flash ARC-AGI（已验证） ARC-AGI-2： - 高配：72.1%，$0.85 - 最低配：8.9%，$0.11 ARC-AGI-1： - 高配：92.5%，$0.42 - 最低配：48.8%，$0.06 Gemini 3.5 Flash在ARC-AGI测试中与GPT-5.5（中配）表现相当

ARC Prize: Gemini 3.5 Flash ARC-AGI (Verified) ARC-AGI-2: - High: 72.1%, $0.85 - Minimal: 8.9%, $0.11 ARC-AGI-1: - High: 92.5%, $0....

Google 多模态推理评测/基准

02:59

Hacker News 热门（buzzing.cc 中文翻译）

Gemini 3.5 Flash：前沿智能，即刻行动

谷歌于2026年5月19日发布了Gemini 3.5 Flash模型，这是Gemini系列的最新版本，主打“前沿智能，即刻行动”。该模型强调高效的实时响应与处理能力，适用于需要快速决策的场景。该发布在技术社区Hacker News上获得了116分的关注度，显示出开发者对其性能与应用潜力的浓厚兴趣。不过，目前关于该模型在速度、准确率等具体性能指标上的提升幅度，官方尚未提供详细数据。

Google 多模态推理模型发布

02:55

AYi@AYi_AInotes

Google Gemini Omni重新定义视频生成

Google推出Gemini Omni，首个面向消费者的世界模型。它通过自然语言交互，将Gemini的智能与生成媒体系统结合，实现了对物理规律、历史、生物等世界的深刻理解。用户可以像编辑ChatGPT文本一样用单句指令编辑视频，实现人物一致性、风格迁移、角度调整等功能。它不是单纯生成像素，而是模拟连贯的物理与语义世界，标志着AI视频生成从拼接工具向智能创作系统的飞跃。

Google DeepMind: We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....

DeepMind Google 图像生成多模态

02:55

IT之家（RSS）

谷歌搜索迎 25 年来最大改版，AI 重塑搜索体验与交互方式

谷歌在2026年I/O开发者大会上宣布，旗下搜索业务迎来25年来最大改版，核心是用AI重塑搜索入口与交互方式，由最新Gemini 3.5 Flash模型提供支撑。主要变化包括：用户交互从输入关键词转向描述完整需求，搜索框将动态扩展并支持文本、图片、视频等多模态输入。用户可从AI概览中连续追问，形成聊天式对话。新版引入搜索智能体，可在后台24小时运行并追踪用户设定的目标。此外，谷歌将生成式界面功能引入搜索，并将个人智能扩展至98种语言、近200个国家。据悉，AI Mode月活用户已突破10亿，查询量每季度翻倍。

智能体 Google 产品更新多模态

02:55

IT之家（RSS）

谷歌升级 Workspace：语音对话协作 AI 检索邮件、起草文档、整理笔记

谷歌在2026年I/O开发者大会上宣布升级Google Workspace，将Gmail、Docs、Keep等工具整合为支持自然语音交互的协作助手。核心新功能包括：可通过语音直接检索邮件内容的Gmail Live、支持口述起草与格式整理的Docs Live，以及能自动将零散想法整理成清单的Keep更新，旨在将办公流程从点击输入转向更自然的语音交互。此外，谷歌还推出了基于Nano Banana模型的独立图像编辑应用Google Pics，支持对图像进行精确的局部对象分割与修改。

Google 产品更新多模态语音

02:55

IT之家（RSS）

谷歌携手三星展示 2 款智能眼镜：整合 Gemini AI，支持语音导航、实时翻译

谷歌在2026年I/O开发者大会上携手三星发布了2款智能眼镜，由Gentle Monster与Warby Parker参与设计。眼镜定位为手机伴侣设备，深度整合Gemini AI模型，核心功能包括语音导航、实时翻译（音频及视觉文字翻译）、基于路线的个性化推荐与订单下达，并能将通知压缩为摘要。外观提供时尚与经典两种风格。产品售价尚未公布，传闻无显示版本价格区间为379至499美元，预计今年秋季上市。

Google 产品更新多模态端侧

02:55

IT之家（RSS）

谷歌展示街景版 Genie 世界 AI 模型，用真实街景创建想象世界

谷歌在2026年I/O开发者大会上宣布，将街景服务与Project Genie世界模型结合。Genie原本能生成可互动的虚拟环境，此次更新后可直接基于真实街景图像构建可探索的3D世界，用于AI智能体或机器人训练。用户可通过Google Maps选择美国地点并指定风格（如“石器时代”），生成定制化想象世界。该能力目前为实验性原型，仅支持美国地点，未来计划逐步扩展。

Google 产品更新具身智能多模态

02:55

IT之家（RSS）

谷歌升级 AI 创意平台 Flow：增强视频编辑，Agent 辅助头脑风暴等

谷歌在2026年I/O大会上宣布升级AI创意平台Flow，重点整合Gemini Omni Flash模型，显著提升视频编辑精度和多镜头角色一致性。同时推出Flow Agent，能辅助头脑风暴、内容生成与批量编辑。此外还新增了自然语言定制工具的Flow Tools和支持分段编辑的Flow Music功能。目前Flow已覆盖全球140多个国家和地区。

Google 产品更新多模态视频

02:55

IT之家（RSS）

谷歌推出科研版 Gemini，能追踪论文、写实验代码

在2026年谷歌I/O开发者大会上，谷歌宣布推出专用于科研领域的Gemini for Science模型。该模型能够实时追踪前沿论文、将研究目标转化为可执行的实验代码，并生成新的科学假设。谷歌同时透露，未来该技术有望模拟更复杂的生物系统，甚至包括虚拟细胞。目前，谷歌已有多个基于该技术的项目进入临床前阶段，聚焦免疫疾病与癌症等领域，旨在重新构想药物发现的流程。

Google 产品更新多模态

02:38

Google Gemini@GeminiApp

Gemini Omni今日登陆Gemini应用，面向付费订阅用户开放。它让你能通过文本、图像和视频的任意组合来实现创意。只需打开Gemini，从相册中附加一段视频，然后进行编辑。就这么简单。#GoogleIO

Google 产品更新多模态

02:38

Google Gemini@GeminiApp

精选68

我们在#GoogleIO上宣布了多项Gemini更新，包括： - 采用神经表达技术的全新Gemini体验设计 - 即将推出的Gemini智能体功能，含每日简报与Gemini Spark - Gemini Omni与3.5 Flash模型 - 以及更多内容！详情请见此线程🧵

智能体 Google 产品更新多模态

推荐理由：Google IO上Gemini这波更新，从Neural Expressive到代理体验，是在把AI助手往主动帮你做事的方向推，产品人和开发者该认真看看。

02:30

Chubby♨️@kimmonismus

真正的"哇"时刻是 Gemini Omni。一个迈向 AGI 的世界模型。它可以从任何输入创建任何内容。这太疯狂了。

Logan Kilpatrick: Introducing Gemini Omni 🔮........ Omni is our new model that can create anything from any input - starting with video (...

Google 多模态模型发布视频

02:18

Google Blog：AI（RSS）

精选83

Gemini 3.5：前沿智能与行动能力相结合

Google 在 I/O 大会上正式发布了最新的 Gemini 3.5 模型系列。该系列模型将前沿的人工智能能力与执行操作的功能相结合，旨在提供更强的综合性能。作为 Google 最新推出的模型，它代表了其在大模型技术上的最新进展。

智能体 Google 多模态推理

推荐理由：Google 在 I/O 上甩出 Gemini 3.5，这次不只拼多模态，更强调‘行动’，是所有做 Agent 的团队必须对标的新基座。

02:18

Google Blog：AI（RSS）

精选75

Google Workspace 推出全新创建方式与高效工作功能

Google 在最新更新中为 Gmail、Docs 和 Keep 增添了新的语音功能，并推出了一款名为 Google Pics 的全新设计工具。同时，其 AI Inbox 功能也得到了升级与优化。这些更新旨在进一步提升用户在工作场景中的协作效率与创作体验，通过集成更智能的工具和交互方式，帮助用户更便捷地完成多项任务。

Google 产品更新多模态语音

推荐理由：Google Workspace 直接植入了语音操作和设计工具 Pics，这波更新对办公效率很实在，做产品和运营的可以关注一下实际落地效果。

02:11

VentureBeat：AI（RSS）

Google 25年来首次重塑搜索框：AI驱动对话时代来临

在2026年I/O大会上，Google宣布对其标志性搜索框进行25年来最大升级。搜索框从简单的关键词输入，演变为支持文本、图像、PDF、视频及网页标签等多模态输入的AI对话起点。同时，AI概览与AI模式合并为统一体验，用户无需在传统结果与AI生成答案间切换。此次升级标志着Google核心产品正从关键词检索工具，彻底转向以AI和全网知识为基础的开放式对话界面。

智能体 Google 产品更新多模态

02:06

🚨 AI News | TestingCatalog@testingcatalog

谷歌I/O大会🔥：Gemini 3.5 Flash已发布！ Gemini 3.5在人工智能分析智能基准测试中表现与Gemini 3.1 Pro相当，但速度更快。【引用 @GeminiApp】：Gemini 3.5 Flash来了，这是我们迄今为止在快速高效完成任务方面最好的模型。无论您需要日常任务帮助还是多步骤创意项目，Gemini 3.5 Flash都能应对现实世界的复杂性，助您采取行动。#GoogleIO

Google Gemini: Gemini 3.5 Flash is here and it's our best model yet for getting things done quickly and efficiently. Whether you need h...

Google 多模态模型发布

02:03

Artificial Analysis@ArtificialAnlys

速度智能兼得的新一代AI：谷歌Gemini 3.5 Flash发布

谷歌发布新模型Gemini 3.5 Flash，其在智能指数上提升9分至55分，超越Grok 4.3和Claude Sonnet 4.6，尤其在代理任务和知识真实性（大幅减少幻觉）方面进步显著。输出速度超280 tokens/s，使其位于速度与智能的领先前沿。然而，模型运行成本相比前代增加5.5倍，主要由于输入令牌用量及定价上涨。此外，它在多模态评估MMMU-Pro中取得最高分，支持多模态输入，展现了谷歌的综合优势。

智能体 DeepMind Google 多模态

02:00

Chubby♨️@kimmonismus

一个Flash模型的评测结果太疯狂了！Gemini 3.5 Flash对于其尺寸来说真的非常出色！

Chubby♨️: Gemini 3.5 Flash official! Insanely fast an capable model

Google 多模态模型发布

01:59

The Decoder：AI News（RSS）

谷歌I/O开发者大会公告：新模型、永不休眠的云端代理与重新设计的Gemini应用

谷歌在I/O开发者大会上发布了一系列新AI产品，包括轻量级模型Gemini 3.5 Flash和多模态模型Gemini Omni。同时推出名为Gemini Spark的个人代理，该代理可在云端24/7全天候运行。此外，Gemini应用程序也进行了重大重新设计。

智能体 Google 产品更新多模态

01:59

Ethan Mollick@emollick

Gemini Omni："一个男人一边吃着蒜香面包，一边在独轮车上保持平衡，站在翻滚的番茄酱海洋上方的小平台上，朗读《荒原》中的《溺水之死》。在酱海中央，漂浮着一颗戴着高顶礼帽、长着亮蓝色眼睛的肉丸。"

Google 其他多模态视频

01:55

IT之家（RSS）

谷歌 Gemini Omni 全能模型发布：可从任意输入生成任意输出，一句话让 AI 修改视频

在2026年谷歌I/O开发者大会上，谷歌正式推出Gemini Omni模型。该模型代表了Gemini家族迄今最全面的能力，“Omni”意为全能，能够无缝处理文本、图像、音频和视频等多种信息模态，实现“从任何输入生成任何输出”。其核心亮点在于支持对话式编辑，用户可通过自然语言指令轻松修改视频元素。同时，谷歌发布了首款衍生模型Gemini Omni Flash，现已在Gemini App、Google Flow和YouTube Shorts中可用，后续将提供API服务。

Google 多模态模型发布视频

01:48

Google DeepMind：Blog（RSS）

同事件精选83

推出Gemini Omni多模态AI模型

谷歌推出原生多模态AI模型Gemini Omni，能够整合视频、图像、音频和文本等多种输入，生成高质量视频内容。其核心能力是通过自然语言对话进行视频编辑，并能保持角色一致性、物理规律与场景连贯性。首个模型Gemini Omni Flash已上线，未来将支持图像和音频输出。Gemini Omni结合了对物理世界的直觉理解与丰富的知识库，支持从写实到叙事的创意生成，并可通过多轮对话持续编辑视频，而不丢失原始场景上下文。

DeepMind Google 多模态模型发布

同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

推荐理由：Gemini Omni 把视频生成从画面堆砌推到了物理世界叙事，多轮自然语言编辑和世界知识融合是真正的代际升级，做视频内容的该重新理解工具的定义了。

01:41

Google DeepMind@GoogleDeepMind

我们推出Gemini Omni：这是迈向一个能从任何内容生成任何内容的模型的第一步--从视频开始。它结合了Gemini的智能与我们的生成式媒体系统--代表了在世界理解、多模态和编辑方面的飞跃🧵

DeepMind Google 多模态模型发布

01:36

🚨 AI News | TestingCatalog@testingcatalog

谷歌I/O 🔥：Gemini 3.5 Flash 已开始在 Gemini 和 API 上推出！即将开始测试 👀

Google 多模态模型发布

01:36

🚨 AI News | TestingCatalog@testingcatalog

精选75

谷歌 I/O 🔥：GEMINI OMNI FLASH 已发布，现已在 GEMINI 和 GOOGLE FLOW 上可用。 GEMINI OMNI PRO 即将推出 🤩

Google DeepMind: Omni brings together an improved understanding of physics with Gemini's knowledge of history, biology, and culture, brid...

Google 多模态模型发布

推荐理由：Gemini Omni Flash 是 Google 对多模态生成的新尝试，把物理模拟和历史叙事揉在一起，做视频内容的人可以盯着看。

01:30

Chubby♨️@kimmonismus

精选77

"迈向AGI的进展"：Gemini Omni - 世界模型 -Gemini Omni官方发布！！它可以从任何输入创建任何内容！！！

Chubby♨️: Cap-ex at google is increasing at roughly 6x per year!

Google 多模态模型发布

推荐理由：Google 放出 Gemini Omni，从任何输入生成任何内容，这个能力宣言直接把生成式 AI 的边界推到极限。虽然细节还不明朗，但看这架势，模型竞赛又要烧一把火。

01:30

Chubby♨️@kimmonismus

Gemini 3.5 Flash官方发布！速度极快且能力强大的模型

Chubby♨️: "Progress towards AGI": Gemini Omni - world models -Gemini Omni official!! It can create anything from any input!!!

Google 多模态模型发布

01:28

Ethan Mollick@emollick

我早期获得了Gemini Omni的访问权限："一只穿着飞行员制服的海獭在纽约上空的热气球里，向一只被笔记本电脑分心的河獭解释为什么精神航空破产了。在旁边的另一个热气球里，威廉·莎士比亚正在与一个由披萨制成的机器人搏斗"

Google 其他多模态视频

00:36

DogeDesigner@cb_doge

马斯克《福布斯》访谈：科技愿景与争议观点

在《福布斯》访谈中，埃隆·马斯克就多个领域阐述了激进观点。他批评针对OpenAI的诉讼败诉开创了“危险先例”，并计划上诉。其核心预测包括：AI发展呈指数级，5年内数字智能或超全人类智能总和；全球经济规模有望数年内翻倍；人形机器人将达数亿台。SpaceX致力于开发全复用火箭，以实现大规模太空运输并建立地外城市。他将Neuralink脑机接口技术视为“耶稣级”创新，能恢复残障人士机能。此外，他还提及了隧道交通、合成医学等机遇，整体展现出以技术加速人类文明进程的强烈紧迫感与乐观构想。

OpenAI 具身智能多模态大佬观点

00:26

向阳乔木@vista8

Gemini Omni Flash 效果很拉胯啊！提示词：生成墨比斯风格的科幻动画短片，银河系搭车客指南好像根本没理解第二句话…

Google 多模态评测/基准

00:18

小互@xiaohu

Google 全新Omni 模型 🫡

Google 多模态模型发布

00:09

歸藏(guizang.ai)@op7418

哇！谷歌新视频模型 Gemini Omni Flash 已经上线 FLow

Google 多模态模型发布视频

00:02

Luma@LumaLabsAI

Luma Agents现在可以使用Seedance 2.0进行生成了。将你的下一个项目指向它，看看它能产出什么，然后继续前进。同样的工作流程，但有了更多可用内容。打开Luma Agents → http://lumalabs.ai/app

产品更新多模态

5月19日

23:34

🚨 AI News | TestingCatalog@testingcatalog

Google Flow在I/O期间发布了一系列重要更新。核心功能包括新增角色与场景创建，用户可生成并复用角色形象与语音，用于视频创作。应用已正式登陆Google Play，覆盖Android平台。通过集成Gemini Omni，Flow获得了新的AI助手体验，用户可通过聊天模式与Gemini协作，进行概念构思、图像变体生成等智能操作，并新增了可定制的风格工具。

🚨 AI News | TestingCatalog: GOOGLE I/O 🔥: Google Flow is getting Gemini Omni and a new Flow Agent experience! > Your Agent is active! Ask Gemini to...

Google 产品更新多模态视频

23:18

Qwen：Blog Retrieval（API）

精选77

Qwen3.5-LiveTranslate：从声音到视觉，从词语到准确

Qwen3.5-LiveTranslate-Flash 是 Qwen 家族最新的同声传译模型，基于 Qwen3.5-Omni 架构，支持实时多模态翻译（音频、视频及视觉上下文）。语言覆盖大幅扩展：输入音频与输出文本从18种增至60种，输出音频从10种增至29种。采用 Readable Unit 技术，平均端到端每 token 延迟降至2.8秒，相比前代首 token 延迟降低3.45秒、每 token 延迟降低1.88秒。支持一句话启动的实时语音克隆和可动态配置的热词增强。在 FLEURS 和 CoVoST2 基准上翻译准确率超越主流商用大语音模型。

多模态模型发布语音

推荐理由：这个版本让同声传译从“能用”变成了“好用”，语言覆盖从 18 跃升 60，延迟压到 2.8 秒，加上视觉消除歧义，做国际业务和直播的人值得跟进。