5月6日

09:34

karminski-牙医@karminski3

Google发布了Gemma 4系列模型的专用草稿模型，用于推测性解码优化。31B Dense模型搭配草稿模型速度提升3倍，仅增加1G显存开销；Gemma4-26B和Gemma4-E4B分别提升1.5倍和3.1倍速度。新草稿模型如gemma-4-31B-it-assistant体积仅939 MB，专门优化后接受率高，相比之前使用非专用草稿模型（如gemma-4-E2B-it-UD-Q4_K_XL）提速更明显。作者呼吁Qwen尽快推出类似优化模型（如Qwen3.6-27B-assistant），以应对高性能需求。

Google 推理模型发布

09:15

IT之家（RSS）

Anthropic 承诺 5 年内斥资 2000 亿美元购买谷歌云服务和芯片

据报道，人工智能公司Anthropic已承诺在未来五年内向谷歌云支出2000亿美元，用于购买云服务和AI芯片。这笔巨额承诺占谷歌近期披露的未实现收入的40%以上，消息推动谷歌母公司Alphabet股价盘后上涨约2%。Anthropic表示其AI模型Claude在多种硬件上运行。此前，谷歌已决定向Anthropic投资100亿美元，并可能追加300亿美元。此外，Anthropic也与亚马逊达成长期协议，未来十年将采购超1000亿美元AWS算力资源，并可能获得亚马逊至多250亿美元投资。

Anthropic Google 行业动态部署/工程

08:17

Berryxia.AI@berryxia

Google NotebookLM思维导图新增自定义、组织与导航功能

Google NotebookLM的思维导图功能正进行重大升级，新功能从今天起推出。核心更新包括自定义功能，用户可通过特定提示词引导MindMap的生成方向；组织功能支持立即重命名和分享MindMap，提升管理效率；导航功能优化了节点之间的过渡，实现更丝滑的交互体验。此次升级旨在增强工具的灵活性和用户体验，并邀请用户反馈意见。

Google 产品更新搜索

08:17

Berryxia.AI@berryxia

Gemma 4借助MTP草稿机实现3倍速推理

Google通过为Gemma 4引入MTP drafters（多token预测草稿机），在不增加参数、不改变架构和模型质量的前提下，实现了最高3倍的推理速度提升。该技术让模型能一次预测多个token，突破了传统自回归解码的串行瓶颈，极大提升了GPU利用率。这显著增强了本地部署的实时性，并使Agent、代码生成等场景受益，进一步放大了开源模型在性价比和本地运行方面的优势。

Google for Developers: Gemma 4: Now up to 3x Faster. ⚡ Same quality, way more speed. Our new MTP drafters allow Gemma 4 to predict multiple tok...

Google 开源生态推理模型发布

08:17

Berryxia.AI@berryxia

精选75

Google Gemma 4凭MTP实现3倍加速，vLLM零延迟提供支持

Google发布Gemma 4模型，采用创新的MTP drafters技术，实现最高3倍解码速度提升且质量无损。该技术让模型一次预测多个token，突破传统自回归生成的串行瓶颈，极大提升GPU利用率。vLLM项目在官方宣布后立即提供Day-0支持，用户可通过一条Docker命令快速部署。这一进步显著增强本地部署的实时性，使Agent、代码生成等场景受益，进一步放大开源模型在性价比和本地化运行方面的优势。

Berryxia.AI: Gemma 4 现在最高能跑到 3倍速度,而且质量完全不变。他们没有增加参数、没有换新架构,只是推出了一套 MTP drafters(多 token 预测草稿机),让模型一次预测多个 token,彻底绕过了传统 autoregressiv...

Google 推理教程/实践

推荐理由：Google的MTP技术让Gemma 4提速3倍，vLLM当天就支持了，做本地Agent和实时应用的开发者现在一条Docker命令就能跑，开源模型性价比优势又拉大一截。

07:15

IT之家（RSS）

精选70

苹果 iOS 27 将允许用户选择第三方 AI 模型，支持谷歌与 Anthropic 等

据报道，苹果计划在秋季发布的iOS 27等系统中，推出名为“Extensions”的新功能，允许用户自行选择已通过App Store集成的第三方AI模型（如谷歌、Anthropic的模型），来驱动设备上的文本生成、图像编辑等AI功能。此举将打破此前ChatGPT作为唯一第三方选项的独占地位。同时，Siri将支持更换不同音色以区分内外模型，并迎来独立App及更深度的系统整合。苹果将在App Store设立专区展示兼容应用，并对第三方模型生成的内容免责。

Anthropic Google 产品更新多模态

推荐理由：苹果放开 AI 模型底层的选择权，让谷歌和 Anthropic 进入原先 OpenAI 独占的地盘，这比发一个新模型更有生态意义——手机 OS 正在变成 AI 的分发渠道。

06:58

Rohan Paul@rohanpaul_ai

Anthropic与谷歌云达成巨额合作，斥资约2000亿美元锁定未来AI算力

人工智能公司Anthropic与谷歌云达成一项价值约2000亿美元的多年期承诺，用于购买云计算服务和TPU芯片。此举不仅是购买服务器，更是对未来训练和部署前沿模型所必需的稀缺计算资源（包括芯片、电力、网络和数据中心空间）的长期储备。据报道，此项承诺可能占谷歌云近期披露收入积压的40%以上，意味着单一AI实验室已成为其未来合同销售的重要部分。其深层战略在于分散依赖，Anthropic将Claude的算力分布在谷歌TPU、亚马逊Trainium和英伟达GPU上，以避免受限于单一供应商。

Anthropic Google 行业动态

06:04

DogeDesigner@cb_doge

新闻：xAI、谷歌和微软已承诺向美国政府提供其最新AI模型的早期访问权限，用于初步的国家安全风险评估。他们正与CAISI合作，在公开发布前对先进模型进行早期评估。已完成40多项评估，重点关注能力和安全风险。

Google Microsoft xAI 安全/对齐

05:31

Hacker News 热门（buzzing.cc 中文翻译）

加速 Gemma 4：利用多令牌预测生成器实现更快的推理

Google为Gemma 4模型引入了多令牌预测生成器技术，显著提升了推理速度。该技术允许模型在单次前向传递中预测多个未来令牌，而非传统的逐个令牌生成。在代码生成等任务中，这一方法实现了高达3倍的推理加速，同时保持了输出质量。这项优化旨在降低大语言模型的部署成本，提高响应效率，适用于需要快速生成较长文本的场景。

Google 推理教程/实践

04:26

NotebookLM@NotebookLM

Source organization 已正式面向 💯% 用户全面升级！【引用 @NotebookLM】：资料越多越麻烦？现在不再如此： NotebookLM 现已推出自动标记与分类资料功能（当您拥有 5 个以上资料时），助您减少滚动时间，增加思考/学习/哲思等时间。重命名、重组、个性化（表情符号！）随您心意定制。

NotebookLM: Mo sources mo problems? Not anymore: Rolling out now, NotebookLM can auto-label & categorize sources (when you have 5+),...

Google 产品更新

04:02

TestingCatalog News 🗞@testingcatalog

Google正在为NotebookLM的思维导图功能推出重要更新。核心新增功能包括：用户可通过特定提示词定制思维导图，将其聚焦于特定主题或来源；支持即时重命名和分享导图；节点间切换的动画过渡更加流畅。这些更新旨在提升思维导图的个性化定制、组织管理和导航体验。

NotebookLM: Mind Maps are getting a major glow up 💅 These new features are rolling out today: 🚗Customization: Steer your map with ...

Google 产品更新其他

03:32

TestingCatalog News 🗞@testingcatalog

Google在其营销代理实验项目Pomelli中发布了新功能Pomelli Catalog。该功能允许企业添加产品或服务，随后Pomelli将基于企业的"商业DNA"自动生成一系列产品，例如周度通讯订阅产品，供用户在后续营销活动中复用。Pomelli Catalog能利用这些产品信息，为品牌生成个性化的营销活动和高质量宣传图片。目前该功能免费且全球可用。

Pomelli By Google: Today, we're introducing Pomelli Catalog.📣✨ Add your products or services, and Pomelli will use them to generate person...

智能体 Google 产品更新

03:32

TestingCatalog News 🗞@testingcatalog

Google为Gemma 4系列发布了多令牌预测（MTP）草稿模型。它在不损失性能的情况下带来了3倍的速度提升。期待在Mac Mini上测试带有MTP草稿模型的量化版Gemma 4！

Google for Developers: Gemma 4: Now up to 3x Faster. ⚡ Same quality, way more speed. Our new MTP drafters allow Gemma 4 to predict multiple tok...

Google 推理模型发布

03:01

Google Gemini@GeminiApp

上周末的Gemini Paddock真是精彩绝伦。@McLarenF1经典赛车、定制头盔、Gemini照相亭，还有无与伦比的热情。谢谢你们，Papaya Army。🧡 #McLarenRacingLive

Google 行业动态

02:56

Google AI Developers@googleaidevs

精选68

Gemini API 文件搜索工具推出三项新更新，助力多模态 RAG 系统开发

Gemini API 文件搜索工具近日扩展三项功能更新，旨在帮助开发者更轻松地构建高精度多模态检索增强生成系统。更新包括：多模态支持，通过Gemini Embedding 2模型实现对图像和文本的同步推理；自定义元数据过滤，允许为文件添加键值标签以结构化非结构化数据，从而提升搜索速度；精确引用功能，能够捕获并返回每条索引信息的精确来源，如页码。开发者可通过Google AI Studio的示例应用体验这些功能，与图像和文档库交互，提问并追溯答案来源。

Google MCP/工具检索增强产品更新

推荐理由：如果你在用 Gemini 搭 RAG 系统，这三项更新能直接改善搜索精度和可解释性，多模态搜索终于把图片和文档打通了，值得马上试试。

02:00

宝玉@dotey

精选75

Google为Gemma 4发布MTP草稿模型，推理速度最高提升3倍

Google为其开源模型Gemma 4推出MTP drafter（多token预测草稿模型），采用推测解码技术，能在保持输出质量不变的前提下，将推理速度最高提升3倍。该技术利用轻量级小模型预先推测多个token，再由大模型并行验证，从而显著提高吞吐效率，尤其有利于缓解本地部署时的内存带宽瓶颈。例如，在Apple Silicon上运行26B MoE模型时，批量处理可获得约2.2倍加速。模型沿用Apache 2.0协议，权重已开源，并获主流推理框架支持。

Google for Developers: Gemma 4: Now up to 3x Faster. ⚡ Same quality, way more speed. Our new MTP drafters allow Gemma 4 to predict multiple tok...

Google 开源生态推理模型发布

推荐理由：Gemma 4 的 MTP drafter 不是噱头，在 Apple Silicon 上实测能翻倍，且完全无损，本地跑开源模型的可以直接上，权重和框架都备好了。

01:56

NotebookLM@NotebookLM

思维导图正迎来一次重大升级💅 以下新功能今日上线： 🚗自定义：通过特定用户提示引导你的导图 📂整理：即时重命名并分享你的导图 🗺️导航：节点间丝滑流畅的过渡切换欢迎告诉我们你的想法！

Google 产品更新

5月5日

23:29

TestingCatalog News 🗞@testingcatalog

AI Studio 现已可使用 Nano Banana 进行图像生成，以调整通过 AI Studio Build 生成的应用中的图像。

Google AI Studio: new in ai studio ⬇️ we've integrated @nanobanana to automatically create custom image assets for your app as it generate...

Google 产品更新图像生成

23:29

TestingCatalog News 🗞@testingcatalog

GOOGLE 👀：Gemini 3.2 Flash 曾短暂地在部分用户的 Gemini 应用中可用。截至目前我们已有： - Gemini 3.2 Flash 在 Gemini 上闪现 - 测试中的 LM Arena 上已更新 Gemini 3 Flash 模型 - Vertex AI 上发布 Gemini 2 Flash 的弃用通知，承诺即将推出 Flash 正式发布更新 - Google I/O 将于 5 月 19 日举行，传闻将伴随 Gemini 3.5 的发布 Flash正在闪现！⚡⚡⚡

Just a dragon: Gemini 3.2 Flash Spotted

Google 模型发布行业动态

23:14

Berryxia.AI@berryxia

同事件精选75

Google联手UCSD推出DFlash，实现LLM无损推理3倍加速

Google与UCSD合作推出扩散式推测解码技术DFlash，在Google Cloud TPU上实现了3.13倍的无损推理加速。该技术突破了传统自回归解码逐个生成token的串行瓶颈，通过一次推测生成多个token来改变生成范式。这一硬件与算法的联合优化，将重塑云端成本曲线，并使实时Agent、长上下文等应用更趋现实，同时大幅降低本地部署门槛。此举将大模型推理的竞争引向了系统级优化的新赛道。

Google for Developers: Breaking LLM inference's autoregressive bottleneck 🛠️ We've teamed up with @haozhangml, @YimingBob, and @aaronzhfeng, a...

Google 大佬观点推理部署/工程

同一事件，精选展示《在谷歌TPU上实现3倍加速：UCSD利用扩散式推测解码优化LLM推理》

推荐理由：Google 直接干掉自回归瓶颈，3.13 倍无损加速不是渐进优化，是推理范式的根变革，当「快三倍」成为新基线，所有实时 Agent 和长上下文应用都得重算一遍成本账。

23:14

Berryxia.AI@berryxia

Google发布Code Wiki，AI驱动实时代码文档与智能问答

Google推出Code Wiki项目，旨在解决“阅读现有代码”这一开发瓶颈。该工具能自动扫描代码仓库，实现文档随代码变更实时更新，避免过时。其核心功能包括由Gemini驱动的智能聊天，可将整个Wiki作为知识库进行问答，并支持超链接跳转至具体代码行；还能自动生成架构图、类图、时序图等可视化图表，并链接到源码。工具适用于各种规模的仓库，帮助新人快速上手或理解遗留代码。目前公共仓库已开放预览。

Google 产品更新编码

23:14

IT之家（RSS）

美国政府与微软、谷歌、xAI 达成协议，将提前审查其前沿 AI 模型

美国政府与微软、谷歌及埃隆・马斯克创立的xAI达成新协议，要求这些公司在公开发布新一代AI模型前，提前向美政府开放模型权限，以进行国家安全风险审查。此举旨在应对高性能AI系统可能带来的网络攻击、军事滥用等潜在威胁。负责审查的美国商务部人工智能标准与创新中心表示，该协议是2024年与OpenAI、Anthropic所达成协议的扩展，并已累计完成40余次模型评估。

Google Microsoft 安全/对齐政策/监管

22:19

Rohan Paul@rohanpaul_ai

谷歌、微软与xAI同意美国政府提前测试前沿AI模型

谷歌、微软和xAI已同意在美国商务部机构CAISI的测试下，提前评估其前沿AI模型。测试的特殊之处在于，公司将提供降低或移除安全护栏的模型版本，以便评估其在协助网络入侵、恶意软件规划等高危任务上的原始能力与风险。此前，OpenAI和Anthropic已于2024年达成类似协议。此举背景是白宫正考虑建立针对主要AI模型的政府审查流程，审查重点是其网络能力——即发现和利用软件漏洞以改变现实安全风险的水平。政策转向的触发点是Anthropic的Mythos模型，该公司认为该模型在发现安全漏洞方面能力过强，广泛发布风险过高。

Rohan Paul: Nytimes: The White House is considering a government review process for major AI models before public release. The propo...

Google Microsoft xAI 安全/对齐

21:19

Chubby♨️@kimmonismus

Google、Microsoft和xAI已同意向美国商务部提前提供未发布的AI模型，以便政府在公开发布前评估其能力和安全性。

Google Microsoft xAI 安全/对齐

20:56

Hacker News 热门（buzzing.cc 中文翻译）

精选78

Google Chrome 被曝未经用户同意悄然安装 4 GB AI 模型

据隐私倡导网站报道，Google Chrome 浏览器在未经任何提示或用户同意的情况下，于后台自动下载并安装了一个名为“Nano”、体积达 4 GB 的人工智能模型。该行为旨在增强本地AI功能，但完全隐蔽的安装过程占用了用户设备存储空间，且未提供任何选项或通知，引发了对其数据隐私风险及软件更新透明度的广泛担忧。此事件在Hacker News上获得高度关注，突显了公众对科技公司单方面安装行为的普遍不安。

Google 端侧行业动态

推荐理由：浏览器里偷偷塞进4GB的AI模型，这件事揭开了一个很多人忽视的趋势，你的设备正在变成AI宿主，而且根本不需要征得同意。

20:18

Chubby♨️@kimmonismus

Gemini 中发现了 Gemini 3.2！如果我们现在就能收到 Gemini 3.2 Flash，那么主要版本可能会留到 I/O 大会发布。感谢 @Waguri_Kaoruko8 的发现。

Google 多模态行业动态

17:56

The Decoder：AI News（RSS）

白宫向 Anthropic、Google 和 OpenAI 通报政府AI审查流程计划

白宫在经历一年的放松监管后，正讨论一项可能要求新AI模型在发布前接受政府审查的行政命令。此举的直接导火索是Anthropic的“Mythos”模型。政府已向Anthropic、Google和OpenAI三家领先的AI公司通报了相关计划，标志着美国AI监管政策可能从宽松转向事前审查。该审查流程旨在在模型公开发布前进行安全评估。

Anthropic Google OpenAI 政策/监管

06:45

Google AI Developers@googleaidevs

精选72

告别持续轮询！在构建复杂、长期运行的智能体应用时，使用 Gemini API 中的 Webhooks 来消除 API 流量的浪费，并简化编排逻辑。🙌

智能体 Google 产品更新部署/工程

推荐理由：长期轮询是agent开发的隐形税，Gemini API这次内置webhooks，把编排逻辑简化了一大截，做复杂agent的开发者今晚就能删掉一堆轮询代码。

05:48

Google Blog：AI（RSS）

精选71

通过 Gemini API 中的 Webhooks 减少长时任务的摩擦与延迟

Gemini API 引入了事件驱动的 Webhook 功能，这是一种基于推送的通知系统。它旨在消除低效的轮询需求，为长时运行的任务（如文件处理或复杂推理）提供更优的解决方案。当任务完成时，系统会自动将结果推送到用户指定的端点，从而显著降低延迟并减少资源消耗，提升开发效率与响应速度。

Google 产品更新部署/工程

推荐理由：Gemini API 终于补上 Webhooks 这块拼图，长任务不用再轮询等待，对做自动化流程和 Agent 的开发者是实打实的效率提升。

05:26

Hacker News 热门（buzzing.cc 中文翻译）

OpenAI、谷歌和微软支持一项旨在为学校"人工智能素养"教育提供资金的法案

OpenAI、谷歌和微软共同支持一项旨在为学校“人工智能素养”教育提供资金的法案。该法案计划通过专项拨款，推动美国K-12及高等教育机构将人工智能基础知识纳入课程体系，目标是提升学生对AI技术的理解与应用能力。此举标志着科技巨头正积极推动AI教育的普及化，以应对人工智能快速发展带来的技能需求变化。法案若通过，将为相关教育项目提供稳定的联邦资金支持。

Google Microsoft OpenAI 政策/监管

02:58

Google Gemini@GeminiApp

精选67

从构想到原型，借助Gemini中的Nano Banana 2，将您独特的产品愿景变为现实。🪀

Google 产品更新多模态

推荐理由：Google Gemini塞进一个Nano Banana 2创意工具，把想法转原型只需几句话，产品经理脑暴草案利器，算不上重磅但够实用。

01:25

SemiAnalysis@SemiAnalysis_

澄清TPU v8i因双芯片被误认为训练芯片的常见误解

针对TPU v8i因双计算芯片而被误认为是训练芯片的观点，关键在于计算吞吐与内存容量/带宽的平衡。TPU v8i拥有更高的HBM3E内存容量（288GB对216GB）和带宽（8.6TB/s对6.5TB/s），以及更大的片上SRAM（384MB对128MB），这使其更适合内存带宽受限的推理解码任务。而训练芯片TPU v8t虽为单芯片设计，但通过极致密集的计算单元实现了更高的FP4算力（12.6 PFLOPs对10.1 PFLOPs），以满足训练所需的高算术强度，这也体现了Google尝试使用FP4进行训练的技术方向。

Google 推理现象/趋势

01:18

Google Blog：AI（RSS）

谷歌发布2026年4月AI重要更新

谷歌于2026年4月宣布多项AI进展。核心包括推出新一代多模态模型Gemini 2.0，其上下文窗口大幅扩展至200万tokens，并增强了对实时视频和音频的理解能力。同时，AI深度集成至搜索与Workspace产品中，提供智能规划与自动化助手功能。公司还开源了轻量级模型Gemma 2系列，并升级了AI开发平台Vertex AI，强调实用性、可访问性及负责任部署。

Google 行业动态

01:14

Berryxia.AI@berryxia

Anthropic发布《Agent Stack》蓝图：构建全AI员工公司的"操作系统"

Anthropic联合Google Cloud正式发布《Agent Stack》指南，提供了一套完整的“AI企业操作系统”蓝图。该系统允许人类仅设定目标，由AI员工自主分配任务、决策并推进项目。其核心包括ADK开源框架、MCP工具调用协议、Vertex AI生产部署引擎及A2A智能体协作协议，支持串行、并行等工作流，并具备记忆功能。实际应用表明，AI能在几秒到几分钟内完成以往需数小时的任务，将“AI建公司”从概念转化为可复制的工程模板，推动工作模式向人类指挥AI团队转型。

智能体 Anthropic Google MCP/工具

00:54

Google Developers Blog（RSS）

精选66

在谷歌TPU上实现3倍加速：UCSD利用扩散式推测解码优化LLM推理

加州大学圣地亚哥分校的研究团队在谷歌TPU上成功部署了DFlash，一种基于块扩散的推测解码方法。该方法突破传统自回归草稿生成的序列性瓶颈，通过单次前向传播并行“绘制”整个候选令牌块，而非逐个预测。系统平均实现了3.13倍的推理加速，峰值性能接近EAGLE-3等现有方法的两倍。这一开源方案已集成至vLLM生态系统，通过利用“免费”的并行验证能力和针对复杂推理任务的高质量草稿预测，显著优化了TPU硬件的利用效率。

Google 开源生态推理论文/研究

推荐理由：把扩散式的 speculative decoding 在 TPU 上跑出了 3 倍推理加速，峰值快到 EAGLE-3 的两倍，还直接集成了 vLLM，做推理优化的赶紧试一下。

00:28

Google Gemini@GeminiApp

帮助我们打造I/O倒计时！使用Gemini Canvas，用代码挥洒你最富创意的想法，并在5月6日前通过下方链接发送给我们。游戏？流体模拟器？可演奏合成器？唯一的规则是必须包含一个1到10之间的大数字。最有趣的创作将在Google I/O 2026的大屏幕上展示！获取更多信息并提交作品，请访问：https://io.google/2026/codethecountdown 查看回复中的示例项目以获取灵感⬇️

Google 行业动态

5月4日

21:24

小互@xiaohu

传谷歌I/O将发布Omni模型，Gemini或升级为全模态生产力入口

据传谷歌将在I/O大会发布名为“Omni”的新模型，旨在将Gemini从聊天助手升级为集成写作、图片、视频、长上下文记忆与复杂任务流的全模态生产力平台。该模型可能原生支持视频生成与输出，超越现有的Veo 3.1。同时，Gemini 3.2/3.5版本或专注于提升推理速度与效率，而Ultra版本则向长上下文、重记忆及多步骤工作流方向深化。若消息属实，Gemini将成为首个具备视频输出能力的顶级Omni模型。

TestingCatalog News 🗞: GOOGLE I/O 🚨: A NEW OMNI MODEL IS BEING TESTED ON GEMINI FOR VIDEO GENERATION! > "Start with an idea or try a template....