项目 llm-gemini 发布了 0.32 版本,本次更新主要新增了对谷歌最新发布的模型 gemini-3.5-flash 的支持。发布信息同步提供了关于 Gemini 3.5 Flash 的技术笔记,以及作者使用升级后的插件绘制的图像示例,展示了该模型的实际应用效果。
Google 发布的 Gemini Omni 模型核心能力升级,它不仅能生成高度真实的场景,更关键的是具备了对物理世界后续发展的推理能力。这一能力源于其对物理学的直观理解与广泛的背景知识结合。该模型现已向全球 Google AI Plus、Pro 和 Ultra 订阅用户推出,初期将优先支持视频内容的生成与输出。
Google DeepMind在I/O大会上发布了Gemini Omni模型,旨在迈出“从任何东西生成任何东西”的第一步。该模型将Gemini的智能与生成媒体系统深度融合,在世界理解、多模态和编辑能力上实现飞跃。其核心特点在于生成的视频能保持角色、光影等逻辑一致性,并支持通过自然语言进行实时编辑和风格调整,将视频转变为可动态演进的“世界素材”。该模型目前已在部分应用上线并即将开放API,不过其实际效果,尤其是在中文生成方面,仍存在一些讨论。
We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....
2026年Google I/O大会的主题为“Agentic Gemini时代”,旨在将AI从聊天工具进化为能自主思考、执行任务的“世界模型”。本次大会未发布Gemini 4.0,而是推出了更务实的Gemini 3.5系列,核心包括:速度极快且为智能体优化的Gemini 3.5 Flash;能理解物理世界、实现任意模态生成的全新“世界模型”Gemini Omni;以及可24/7自主工作的智能体Gemini Spark。同时,Android XR智能眼镜和AI集成的Googlebook笔记本等硬件亮相。整体上,Google正将Gemini深度整合至其全生态,巩固其在自主AI赛道上的领先地位。
I had early Gemini Omni access: "sea otter in a pilot's uniform explains why Spirit Airlines went bankrupt to a river ot...
谷歌正在测试 Gboard 输入法的三项新 AI 功能,包括自定义提示词输入框、根据描述起草完整内容以及支持读取屏幕上下文或对话内容以提供更贴合语境的回复建议。此次升级标志着 Gboard 的 AI 能力从固定的润色、改写预设,转向更灵活的个性化写作辅助。新功能将允许用户以自然语言指令(如“让语气更幽默”)直接定制文本风格,并可能结合图库截图等屏幕信息自动组织回复。
谷歌在I/O大会上发布了Gemini 3.5 Flash模型,该模型跳过预览阶段直接正式发布,并已被集成到谷歌Gemini应用、搜索、开发者平台及企业解决方案等多项核心产品中。该模型价格显著上涨:输入价格为每百万令牌1.50美元,输出价格为9美元,分别是前代模型的3倍和6倍,已接近更高端的Gemini 3.1 Pro定价。技术上,它支持约100万输入令牌和约6.5万最大输出令牌。同时,谷歌推出了新的Interactions API测试版。这一价格上调趋势与OpenAI等公司近期策略相似,表明主要AI实验室正在试探API客户的价格承受能力。
Introducing Antigravity 2.0, a new standalone desktop application that delivers fully on that original glimpse of a trul...
在Google I/O大会上,Gemini-3.5-flash模型正式发布,其定价从上一代的$0.5/$3大幅上涨至$1.5/$9。实测显示,其性能介于Gemini-3.0-Pro与Gemini-3.1-Pro之间,但稳定性有所不足。此举被视为Google借鉴Anthropic的产品分层策略,计划用flash-lite、新flash和Pro形成梯队。其中新flash主打在百万级上下文内不设阶梯定价,以承接Pro模型溢出的用户。此次调价也可能旨在配合新发布的Antigravity CLI工具,定位类似Claude Code中的Sonnet模型,从而构建其开发生态。
OpenAI宣布在其AI生成的图像中集成谷歌的SynthID水印技术,并推出配套的验证工具。这一举措旨在增强AI生成内容的可追溯性,使用户能够识别图像是否由AI生成。该更新已于2026年5月19日生效。SynthID水印技术此前由谷歌开发,可嵌入难以察觉的数字标识,而新验证工具则允许用户检测这些标识。OpenAI表示这将帮助打击虚假信息传播。
同一事件,精选展示《SynthID水印技术扩展合作,覆盖超千亿内容》Gemini应用推出两项重要升级:Gemini Spark作为全天候个人AI代理,可在用户授权下自动操作,无缝整合Gmail、Google Docs和Slides等工作流,甚至在笔记本电脑关闭时也能持续运行。Daily Brief则提供基于个人目标的定制化摘要与下一步建议。Daily Brief已向美国18岁以上Google AI订阅用户推出,Gemini Spark将于下周开始上线。
谷歌近日推出Gemini Omni,这是一款能处理视频、图像、音频、文本及草图等多种输入的全能型视频AI模型。用户可通过自然语言指令对已有视频进行添加角色、替换物体、调整动作、改变风格、同步音效及移动镜头等操作,且多次编辑后仍能保持场景一致性。该模型具备更强的世界理解能力,能更真实地模拟重力、流体等物理交互,使视频编辑更接近导演创作。输出内容将附带SynthID水印与C2PA内容凭证,以明确标识其AI生成属性。
Just off stage at #GoogleIO, some highlights from this morning 🧵 Gemini 3.5 Flash is available today for everyone in @a...
谷歌宣布推出基于Gemini 3.5模型的全新智能搜索框。该更新将AI Overviews与AI Mode整合为统一的AI搜索体验,支持对文本、图像、文件及视频进行跨模态推理查询。用户可进行多轮对话,搜索将结合上下文提供更个性化、定制化的回答。该新功能已在全球桌面和移动设备端同步上线。
Google 在 IO 2026 大会上正式展示了其在 AI 设计领域的能力。该公司推出了一款新应用,旨在让包括教师、小企业主在内的所有人都能轻松使用。这款应用的发布标志着 Google 进一步将 AI 技术下沉至日常创作工具中,强调其易用性与普惠性,试图降低专业设计的门槛。
在2026年开发者大会上,Google宣布其AI战略核心从辅助工具转向开发独立智能体。大会重点发布了Gemini 3.5系列模型,并对“反重力”智能体优先平台进行了重大更新。面向移动开发者,推出了Android CLI工具、评估排行榜及能将多种框架代码快速迁移至原生Kotlin的智能体。Web开发领域也迎来变革,包括专为智能体设计的Chrome DevTools、HTML-in-Canvas API,以及旨在让浏览器内AI智能体执行复杂任务的开放标准WebMCP提案。
Google Cloud与NVIDIA开发者社区迎来成立一周年,会员规模突破10万。社区为开发者提供先进AI基础设施与资源支持,包括LLM优化、GPU加速数据分析等专项学习路径及专家网络研讨会。第二年计划将进一步扩展,推出实践实验室、工程活动及聚焦代理式AI增长的专项内容。
在 Google IO 2026 大会上,Google 宣布扩展 Gmail 的 AI 收件箱功能。用户现在可以通过对话式语音搜索,直接与收件箱交互,使用 Gemini 快速查找和提取被埋没的电子邮件细节。该功能旨在简化邮件检索流程,提升操作效率。
Google 推出 AI 驱动的信息代理,这些代理能够在后台自动监控指定主题,并主动向用户推送更新和变化通知。此功能旨在帮助用户突破传统搜索的限制,提供更智能、实时的信息追踪体验,实现从被动搜索到主动获取的转变。
I think Google did an incredible job with the new Gemini app They use and adaptive native design systems from both Andro...
巴菲特旗下伯克希尔·哈撒韦于2025年第三季度首次投资谷歌,并于2026年第一季度加仓。其投资决策基于对谷歌AI基础设施的深度理解。巴菲特将复杂的TPU v5p芯片集群——包括其3D环面互联、光电路交换与分布式训练算法——比作他熟悉的BNSF铁路网络:芯片互联如轨道连接,调度算法如列车编组,环形拓扑确保系统稳定。这一类比揭示了他并非盲目跟风,而是通过对底层系统运作原理的剖析做出的审慎投资。
在I/O 2026大会上,Google发布了一系列AI驱动的新工具,旨在提升用户生活效率。其中包括始终在线的AI助手Gemini Spark,可协助组织活动;Daily Brief提供每日日程概览;以及扩大使用范围的Gmail AI收件箱,能基于邮件内容生成待办事项并起草个性化回复。这些功能的核心是一个处理海量个人信息的AI引擎,虽然便捷,但引发了用户信任和数据隐私的重大担忧,使隐私保护成为Google AI战略的关键挑战。
谷歌在2026 I/O开发者大会上宣布,为Google AI Studio新增原生安卓应用生成功能。用户可通过浏览器输入文本提示,直接创建使用Kotlin与Jetpack Compose构建的完整、可安装安卓应用。该应用支持离线运行和硬件特性接入,并整合了开发、预览与测试发布流程。开发者能利用内置模拟器实时测试,也可一键发布至Google Play进行内部测试。当前版本主要适用于工具类、社交类应用及Gemini驱动项目。
@joshwoodward The Rio accent is spot-on! I don't know of any other audio model that can do that.