6月4日

03:20

Chubby♨️@kimmonismus

Google 开源 Gemma 4 12B：无编码器架构，本地 16GB VRAM 运行

Google 开源 Gemma 4 12B（密集参数，Apache 2.0 许可），采用全新无编码器架构：移除独立的视觉（550M 参数、27 层 Transformer）和音频（300M 参数、12 层 Conformer）编码器。视觉改为 35M 嵌入层（约缩小 15 倍），音频以 40ms 帧直接投影到大语言模型。模型在 16GB VRAM 笔记本上即可运行智能体推理、视觉和音频任务，性能接近 26B 参数模型。共享权重支持一次 LoRA 调优覆盖视觉、音频和文本。

Google: Today we're introducing Gemma 4 12B - our latest open model that brings advanced agentic reasoning, vision and audio dir...

Google 多模态开源生态模型发布

03:15

TechCrunch：AI（RSS）

Google Dreambeans：用 AI 把你的个人数据变成卡通故事

Google 推出 Dreambeans，这是一个从用户 Google 账户个人数据中筛选出的 AI 插图“故事”合集。

Google 产品更新

02:49

Google Research：Blog（网页）

精选72

洪水韧性新篇章：Google 开源水文建模框架

Google Research 在 GitHub 开源了其水文建模框架，这是一个基于 PyTorch 的 Python 包，采用与 Flood Hub 河段洪水预报相同的模型架构和训练数据。该框架允许研究者和预报员训练 AI 洪水预报模型、添加新模型与数据，并已与捷克水文气象研究所（CHMI）等合作测试。开放模型架构和训练管线旨在让各国气象水文部门在保留数据完全控制权的同时，整合基于 AI 的洪水预报。

Google 开源/仓库开源生态数据/训练

推荐理由：谷歌开源的水文模型框架，是少数真正能救命的AI应用。不是秀参数，而是把工具直接塞给一线预报员，让他们用本地数据训练。务实，值得给赞。

02:48

MarkTechPost（RSS）

Google DeepMind 发布 Gemma 4 12B：无需编码器的多模态模型，支持原生音频，可在16GB笔记本上运行

Gemma 4 12B 是 Google DeepMind 发布的无需编码器的多模态模型，直接将视觉和音频输入大语言模型骨干，支持原生音频，可在 16 GB 笔记本电脑上本地运行，采用 Apache 2.0 开源许可。

Google 多模态开源/仓库模型发布

02:36

Demis Hassabis@demishassabis

同事件精选74

Demis Hassabis 宣布 Gemma 4 系列下载量突破 1.5 亿，并正式发布新版 Gemma 4 12B 模型。该模型是一个统一的、无编码器的多模态模型，兼具边缘端效率与高级推理能力。尽管参数规模仅为 12B，但性能强劲，且足够小巧，可在仅需 16GB VRAM 的笔记本上本地运行。采用 Apache 2.0 开源许可证，方便开发者自由构建。

Google Gemma: Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to y...

Google 开源生态模型发布端侧

同一事件，精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》

推荐理由：Gemma 4 12B 用 Apache 2.0 许可把多模态模型压进笔记本，16GB 显存就能跑，端侧智能的性价比又一次被 Google 拉高，做本地推理的可以马上试试。

02:17

The Verge：AI（RSS）

Google Gemini AI 智能体 Spark 上手体验：高效得令人不安，但也暴露了空洞的承诺

Google 发布 Gemini AI 智能体 Spark，同事 David Pierce 和 Jay Peters 分别进行了体验。Spark 能够自动获取用户未明确输入的信息，例如 David 的狗名 Frida 和 Jay 妻子的名字。尽管功能强大，但文章指出，这种对“生产力”的追逐忽略了真正需要解决的问题。

智能体 Google 现象/趋势

02:16

AYi@AYi_AInotes

Google 发布 Gemma 4 12B：无独立视觉编码器的统一多模态架构

Google 推出 Gemma 4 12B（Apache 2.0），采用无独立视觉编码器的统一多模态架构。仅用 35M 参数的轻量嵌入器，将图像切为 48×48 块、音频（16kHz 原始波形）切为 40ms 帧，直接作为 token 输入 Transformer。M4 Max 上 4-bit 量化识图延迟 1.2-1.5 秒，官方称 16GB 内存可用，但社区指出高分辨率多图会压线。该设计暗示：当基座模型足够大，专用子模块不再是必需，未来一个微调好的统一模型可能取代传统拼装 Whisper、LLaVa 等多模态 pipeline。

Google Gemma: Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to y...

Google 多模态大佬观点端侧

01:38

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选78

Gemma 4 12B：一种统一的、无需编码器的多模态模型

Gemma 4 12B 是 Google 发布的一款统一架构、无需独立视觉编码器的多模态大语言模型（LLM）。该模型直接处理图像与文本输入，无需传统视觉编码器，简化了多模态推理流程。基于 12B 参数规模，Gemma 4 12B 面向开发者工具生态开放。目前其具体 benchmark 分数、上下文窗口、价格及开源/API 可用性等细节尚未披露。

Google 多模态模型发布端侧

同一事件，精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》

推荐理由：我觉得Gemma 4 12B最大的变化不是参数大小，而是第一次在开源模型里把多模态直接交给LLM主干处理，没有单独的视觉编码器，这意味着本地多模态应用的延迟和内存占用都会大幅下降，对于在笔记本上做Agent的开发者，这是一个必试的版本。

01:05

Josh Woodward@joshwoodward

Google Labs 发布实验性移动应用 Dreambeans。该应用利用 Personal Intelligence 连接用户 Google 应用，每天推送个性化故事集合，帮助用户发现可能错过的内容，并聚焦真正重要的事。团队将其理念描述为"希望滚动，而非末日滚动"。当前仅限美国符合条件的 Google AI Ultra 用户（18 岁以上）使用，同时开放公开等待名单。

Google Labs: 🚨 NEW EXPERIMENT 🚨 Dreambeans is a new, experimental mobile app that uses Personal Intelligence to connect to your Goo...

Google 产品更新

00:55

🚨 AI News | TestingCatalog@testingcatalog

GOOGLE 🔥：一项新的 Dreambeans 实验现已于 Google Labs 上线，面向美国地区的 Google AI Ultra 用户（需加入候补名单）。该实验利用个人智能，根据用户的数据上下文提供每日故事。对大多数人来说，这并非测试时间👀

Google 产品更新

00:25

🚨 AI News | TestingCatalog@testingcatalog

Google Gemma: Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to y...

Google 多模态模型发布端侧

00:19

Google AI Developers@googleaidevs

Google推出Gemma 4 12B无编码器多模态模型

Google发布Gemma 4 12B，一款无编码器的统一多模态模型，可直接将视觉和音频输入送入LLM主干，无需传统多模态编码器。该模型填补了移动端E4B模型与26B MoE模型之间的空白，封装前沿推理与原生音频能力，采用Apache 2.0许可。在16GB VRAM下即可本地运行复杂多步骤智能体工作流，性能接近26B模型。

Google 多模态开源生态模型发布

关联讨论 5 条

00:09

Sundar Pichai@sundarpichai

同事件精选70

周一我们宣布了Alphabet的股权融资--这是我们多年投资策略的一部分，旨在抓住未来的AI机遇并支持我们看到的来自企业和消费者的需求。很高兴告诉大家，此次融资已大幅超额认购。我们共募集了约450亿美元，另将通过Q3启动的"按市价发行"计划再募集400亿美元（总计约850亿美元）。非常感谢我们的投资者，包括投资了100亿美元的伯克希尔·哈撒韦。

Google 行业动态

同一事件，精选展示《Alphabet计划筹资800亿美元用于AI建设》

推荐理由：850亿美金，伯克希尔押注10亿，这是AI军备竞赛以来最大单笔融资。谷歌在说：这场仗，我们准备打到2030年。

00:07

Google Developers Blog（RSS）

在笔记本电脑上运行 Gemma 4 12B：借助 Google AI Edge 解锁本地智能体工作流

Google DeepMind 的 Gemma 4 12B 模型可在 16GB RAM 的普通笔记本上运行，支持本地数据处理与视觉洞察生成。macOS 用户可通过 Google AI Edge Gallery 执行动态 Python 代码与可视化，通过 Google AI Edge Eloquent 实现完全离线的语音听写和文本编辑。另外，LiteRT-LM CLI 新增 serve 命令，可创建行业兼容的本地端点，驱动完全本地的 AI 工具和智能体。

智能体 Google 产品更新多模态

关联讨论 5 条

00:07

Google Developers Blog（RSS）

同事件精选78

Gemma 4 12B：开发者指南

Gemma 4 12B 是一款密集多模态模型，专为消费级设备上的高性能本地 AI 执行而设计。其采用新颖的无编码器架构，绕过传统视觉和音频编码器，将多模态数据直接输入大语言模型主干。

Google 多模态模型发布端侧

同一事件，精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》

推荐理由：Google 把多模态模型直接塞进消费级设备，靠的不再是缩水而是架构层面的创新。12B 放在本地跑，这次玩法变了。

6月3日

23:32

Google Gemini@GeminiApp

同事件精选67

参加 @GoogleDeepMind 首席工程师 @__apf__ 的演示，了解 Gemini Spark 如何帮助简化您的日常工作流程。由 Gemini 3.5 Flash 驱动，Spark 建立在 Gemini 与 @GoogleWorkspace 应用（如 Docs 和 Gmail）连接的能力之上，以执行复杂任务。

智能体 Google MCP/工具产品更新

同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

推荐理由：这是 Gemini 把 Agent 能力真正嵌入日常工作流的一步，跟 Workspace 的深度集成会让很多不会编程的人也能用上自动化，值得关注。

23:17

elvis@omarsar0

Google 新研究 LEAP：通用大模型封装在智能体框架中，解决全部 Putnam 2025 问题

Google 新研究 LEAP 将通用大语言模型封装在智能体框架中，每个步骤基于 Lean 编译器，并依赖验证器反馈进行迭代。同一通用模型解决了全部 12 道 Putnam 2025 问题，并将 Lean-IMO-Bench 一次性解决率从不到 10% 提升至 70%，击败了得分 48% 的专业金牌系统。论文链接：https://arxiv.org/abs/2606.03303。

智能体 Google 推理论文/研究

23:15

TechCrunch：AI（RSS）

英国新规要求谷歌提供工具，允许出版商选择退出 AI 搜索

英国监管机构要求谷歌提供一项工具，允许网站出版商选择退出生成式AI搜索功能。该选项将先在英国测试，随后在全球范围内推出。

Google 搜索政策/监管

23:10

IT之家（RSS）

精选86

谷歌：Gemini App 月活超 9 亿同比翻倍，是其增长最快的产品之一

谷歌母公司 Alphabet 公布投资者演示文稿显示，Gemini App 月活跃用户超 9 亿，一年内翻倍超过一倍。Gemini 已为谷歌 13 款超 10 亿用户产品提供支持，其中 5 款用户量超 30 亿（搜索、Gmail、Android、Chrome、YouTube）。谷歌搜索 AI Overviews 月活跃用户超 25 亿。自 Gemini 3 推出，核心 AI 响应成本降低 30% 以上。谷歌预计本月推出 Gemini 3.5 Pro 模型。

Google 搜索行业动态

推荐理由：9亿月活且一年翻倍，AI Overviews月活25亿，这些数字比任何benchmark都更能说明问题。谷歌本月还要推Gemini 3.5 Pro，进度比预期快，做搜索和产品的需要盯紧。