全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「Google」清除

6月16日周二

03:02Jeff Dean48Jeff Dean推荐AI进展细致观点文章

00:59凡人小北56Google 探索退休手机集群计算

00:50郭明錤｜Ming-Chi Kuo56联发科AI事业策略升级至系统级设计，锁定Google TPU PCBA及Musk公司AI机柜

00:50郭明錤｜Ming-Chi Kuo55郭明錤：联发科AI业务升级为系统级设计，锁定Google TPU v10及马斯克AI芯片机架

6月15日周一

23:56OpenRouter32OpenRouter多模态排名页预览，Veo 3.1攀升

23:51🚨 AI News | TestingCatalog32Google开发Gemini个人智能新控制

16:23Berryxia.AI60Gemma 4 12B Coder GGUF 发布：将 Fable 5 推理链蒸馏至本地可跑

07:40IT之家（RSS）43谷歌CEO皮查伊斯坦福毕业演讲避谈AI，鼓励毕业生"选择乐观"

02:57Google AI Developers40Google 5天vibe code Kaggle课程上线

00:20Berryxia.AI50Siri AI并非Gemini：苹果自研而非直接复制

6月14日周日

21:44The Decoder：AI News（RSS）41Google Cloud 推出 Open Knowledge Format （OKF）：将散乱文档转为 Markdown 文件供 AI 智能体使用

07:37IT之家（RSS）57谷歌推出搜索智能体功能，可主动帮你盯全网信息

04:00Logan Kilpatrick29Google AI Studio 长期目标：消除 AI 构建摩擦

01:18🚨 AI News | TestingCatalog35谷歌为Gemini商业版开发技能市场

6月13日周六

22:21Hacker News 热门（buzzing.cc 中文翻译）43Google Research 利用旧手机打造低碳计算平台

21:58The Verge：AI（RSS）57我用 Gemini 一个提示词就建好了浇花应用--连 Bug 都是它自己修的

20:33The Decoder：AI News（RSS）50Google Research 的 Gemini-SQL2 在 text-to-SQL 基准测试中以大幅优势领先

19:27The Verge：AI（RSS）49好莱坞的未来不在于向普通生成式AI模型输入提示词

17:36IT之家（RSS）80精选谷歌Android安全负责人因反对军事AI合作辞职

14:36IT之家（RSS）55谷歌发布Gemini-SQL2，Text-to-SQL准确率80.04%登顶

06:34Rohan Paul73Nature Medicine 研究：通用大语言模型在临床任务上已超越专用医疗 AI

05:48Google AI Developers59Gemini 3.5 Live Translate 近实时语音翻译发布

05:28MarkTechPost（RSS）58Google 发布 Gemini-SQL2：Gemini 3.1 Pro Text-to-SQL 在 BIRD 单模型排行榜上取得 80.04% 执行准确率

04:54TechCrunch：AI（RSS）72谷歌起诉中国网络犯罪团伙 Outsider Enterprise：利用 AI 诈骗数十万受害者

04:38elvis62Gemini-SQL2：基于Gemini 3.1 Pro的Text-to-SQL新SOTA，BIRD基准上表现强劲

04:16fofr40Hyperframes与Gemini视频分析智能体流尝试

02:23TechCrunch：AI（RSS）74精选Google 起诉被指使用 AI 发送诈骗短信的中国网络犯罪团伙"Outsider Enterprise"

01:56Epoch AI64FrontierMath v2 上线，GPT-5.5 与 Google AI 领先

01:48Google Research：Blog（网页）44Google Research研究：AI如何帮助用户理解皮肤问题

01:16Google Gemini30Gemini Neural Expressive 设计语言交流会

01:15Google AI40Google AI 本周发布多项更新

01:04Ars Technica：AI（RSS）61谷歌起诉中国网络犯罪团伙：利用 Gemini 自动化诈骗数十万人

01:02Rohan Paul66Anthropic从租用云算力转向自建数据中心

6月12日周五

23:02Ethan Mollick72前沿LLM在医学评估中超越专业临床AI工具

22:28The Decoder：AI News（RSS）67Google与FBI联合起诉中国AI诈骗网络，OpenAI屏蔽中国影响力集群

19:15Google DeepMind67精选DeepMind机器人加速器启动15家初创公司

16:46fofr58Gemma挑战赛70+智能体协作涌现社会行为

09:30Rohan Paul56单卡实测：DiffusionGemma 速度是 Gemma4 的 4 倍，但事实错误多 6 倍

09:25ginobefun58智能体工程化三大方向：Anthropic托管Agents、阿里Harness实践、Sequoia脚手架被吞趋势

09:25ginobefun63BestBlogs早报：Claude Managed Agents / Harness工程化 / 模型吞脚手架

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月16日

03:02

Jeff Dean@JeffDean

48

@pgasawa 和 @profjoeyg 撰写了一篇关于AI进展更细致视角的好文章。

Parth Asawa: The AI community seems to increasingly be heading towards a polarized world when discussing safety and consolidated powe...

Google 大佬观点安全/对齐

00:59

凡人小北@frxiaobei

56

Google 探索退休手机集群计算

Google 正实验将退休手机组成计算集群，以减少碳排放——淘汰手机的芯片、内存等仍可正常工作，无需生产新服务器。此举类比于 SETI@home 利用闲置电脑贡献算力，以及 Google 用廉价服务器组建超级计算机的经典思路。在 AI 时代算力紧张、能源成瓶颈的背景下，重新利用抽屉里的旧手机或成创新方向。

Google Research: Today on the blog, we discuss a pathway for the second life of phones through the exploration of "phone cluster computin...

Google 大佬观点端侧部署/工程

00:50

郭明錤｜Ming-Chi Kuo@mingchikuo

56

联发科AI事业策略升级至系统级设计，锁定Google TPU PCBA及Musk公司AI机柜

郭明錤产业调查显示，联发科将AI事业从IC/ASIC设计提升至系统级设计，首目标为Google TPU的PCBA（L6）及Musk公司自研AI芯片的L10机柜。此为长期规划，2年内对基本面影响可忽略。机会源于服务器机柜复杂度和更新速度提升，风险为ASIC设计动能2-3年后或因Semi-COT模式趋缓。联发科拟以“主导设计与验证”轻资产模式（制造外包）确保毛利率40-50%。具体：Google TPU目标自v10（Icefish）开始并争取导入自家CPO；Musk公司目前主要用Nvidia方案，自家芯片机柜生态未完备，联发科有机会但缺时程，关键在利用台湾供应链与Terafab合作获L10订单。

Google 大佬观点部署/工程

00:50

郭明錤｜Ming-Chi Kuo@mingchikuo

55

郭明錤：联发科AI业务升级为系统级设计，锁定Google TPU v10及马斯克AI芯片机架

郭明錤最新调查显示，联发科将AI业务从“IC/ASIC设计”升级为“系统级设计”，初期目标Google TPU v10的PCBA（L6）及马斯克关联公司自研AI芯片的L10机架。此举旨在抓住服务器机架复杂度提升（CPO、800V HVDC）带来的增值机会，并应对2-3年后Semi-COT对ASIC设计的冲击。联发科将采用轻资产模式，主导设计验证并外包制造，以维持40-50%毛利率。Google TPU L10中选几率低；马斯克AI芯片机架生态尚未成熟，联发科可借台湾供应链和Terafab合作争取订单，但时间表不明确。该战略对近两年基本面影响有限，旨在捕捉长期新增长。

Google xAI 行业动态

6月15日

23:56

OpenRouter@OpenRouter

32

新多模态排名页面的预览 👀 Google 的 Veo 3.1 正在视频排行榜上攀升

Google 产品更新多模态视频

23:51

🚨 AI News | TestingCatalog@testingcatalog

32

Google正在为个人智能开发新控制功能，允许用户管理Gemini从他们那里学习的内容。

Google 产品更新安全/对齐

16:23

Berryxia.AI@berryxia

60

Gemma 4 12B Coder GGUF 发布：将 Fable 5 推理链蒸馏至本地可跑

Berry Xia 介绍了基于 Google gemma-4-12B-it 微调的 Gemma 4 12B Coder GGUF 模型。它将 Fable 5 的推理链条蒸馏进 12B 参数模型，训练数据使用 Composer 2.5 真实通过案例并由 Fable 5 辅助补全。GGUF 格式让模型在 12GB 消费级显卡即可本地运行，甚至支持 CPU。模型专为代码生成、调试、复杂算法、链式思考提示等任务优化，无需 API 费用且无导出限制。该模型基于 Google 最新 gemma-4 架构，目前下载量已破六千，社区反馈其在本地 coding 场景表现出色，填补了云端模型与本地可用之间的鸿沟。

Hugging Models: Gemma 4 12B Coder is here and it's a game changer for local code generation. This GGUF model packs Google's latest gemma...

Google 开源生态推理模型发布

07:40

IT之家（RSS）

43

谷歌CEO皮查伊斯坦福毕业演讲避谈AI，鼓励毕业生"选择乐观"

谷歌CEO桑达尔·皮查伊在斯坦福大学毕业典礼上发表演讲，全程未提及人工智能。他坦言，许多人建议他避开这一话题，因为此前多位高管（如前CEO施密特）在毕业演讲中谈AI时曾遭学生嘘声和离场抗议。皮查伊鼓励毕业生“选择乐观”，并分享自己用“金黄”而非“枯黄”来形容加州景色的经历，以此比喻将不如意之事重新解读为希望。他承认AI将冲击入门级岗位，但强调本届毕业生既是变革的推动者，也将直面其影响。

Google 现象/趋势行业动态

02:57

Google AI Developers@googleaidevs

40

Learn how to vibe code in 5 days！了解如何在5天内进行vibe coding！在这门由我们的研究人员和工程师主持的@Kaggle课程中，使用自然语言构建可扩展的智能体系统，并完成一个实践性的顶点项目。

智能体 Google 行业动态

00:20

Berryxia.AI@berryxia

50

Siri AI并非Gemini：苹果自研而非直接复制

推文澄清了Siri AI并非在Google Gemini基础上简单封装。苹果并未直接复制Gemini代码，而是从Gemini获得许可，将其作为“教师模型”来训练自己的专有AI模型Apple Foundation Models (AFM)。Siri AI的核心模型和底层架构完全由苹果自主设计与实现，因此是苹果自有的AI产品，而非Gemini的衍生品。

Apple Design: Siri AI is NOT Google Gemini Everyone is saying iOS 27 just slapped an Apple Sticker on Gemini YOU COULD NOT BE MORE WRO...

Google 大佬观点数据/训练

6月14日

21:44

The Decoder：AI News（RSS）

41

Google Cloud 推出 Open Knowledge Format （OKF）：将散乱文档转为 Markdown 文件供 AI 智能体使用

Google Cloud 发布 Open Knowledge Format (OKF)，一种将分散的组织知识标准化为带 YAML frontmatter 的 Markdown 文件的极简规范。OKF 使知识可移植且可直接供 AI 智能体使用，正式化了 Andrej Karpathy 近期推广的 “LLM Wiki” 模式。

Google MCP/工具产品更新

07:37

IT之家（RSS）

57

谷歌推出搜索智能体功能，可主动帮你盯全网信息

谷歌在AI模式中正式推出搜索智能体功能，首批上线信息智能体，可全天候自动监测博客、新闻、社交媒体及实时数据库，覆盖金融行情、商品库存、体育赛事等。用户只需输入“持续为我关注”等句式并补充条件即可设置。相比此前Gemini应用的定时任务（每日或每15分钟一次），新智能体实现即时推送。该功能目前仅面向谷歌AI Ultra订阅用户开放，月费99.99美元或199.99美元，计划今年夏季晚些时候下放至AI Pro订阅档位。

智能体 Google 产品更新搜索

04:00

Logan Kilpatrick@OfficialLoganK

29

我们为 @GoogleAIStudio 设定的长期目标是消除使用 AI 构建的摩擦，然后为你的企业做同样的事，并最终为每个人释放经济机会。感觉还只是早期阶段，但我对此越来越兴奋。

Google 大佬观点

01:18

🚨 AI News | TestingCatalog@testingcatalog

35

Google 正在为 Gemini 商业版和企业版开发技能市场。消费者也需要这个 👀

智能体 Google 产品更新

6月13日

22:21

Hacker News 热门（buzzing.cc 中文翻译）

43

Google Research 利用旧手机打造低碳计算平台

Google Research 提出通过复用淘汰的旧手机来搭建低碳计算平台，相关研究细节已在 research.google 发布。该项目旨在降低计算过程的碳排放，属于可持续硬件利用方向的探索。

Google 论文/研究部署/工程

21:58

The Verge：AI（RSS）

57

我用 Gemini 一个提示词就建好了浇花应用--连 Bug 都是它自己修的

用户向 Gemini 提交一个长提示词，五分钟后返回一个功能完整的预览窗口和一条“信道不可恢复损坏”的 Bug 消息。Gemini 提供“修复 Bug”按钮，用户点击后，233 秒内模型自行诊断并解决了“阻塞”和“竞态条件”问题，用户完全无需理解技术细节。整个过程只靠单次提示词驱动。

Google 现象/趋势编码

20:33

The Decoder：AI News（RSS）

50

Google Research 的 Gemini-SQL2 在 text-to-SQL 基准测试中以大幅优势领先

Google Research 推出 Gemini-SQL2，基于 Gemini 3.1 Pro，可将自然语言转换为可执行 SQL 查询。该模型在 BIRD 基准上达到 80.04% 准确率，大幅领先 OpenAI 和 Anthropic。Google 表示该技术将改进其数据服务的自然语言功能。

Google 推理模型发布

19:27

The Verge：AI（RSS）

49

好莱坞的未来不在于向普通生成式AI模型输入提示词

生成式AI被宣传将彻底改变电影制作，但至今未出现值得付费观看的AI项目。大多数AI视频模型只能产出短暂且视觉不一致的片段，好莱坞部分重大AI合作也已消失。Google DeepMind使用“Dear Upstairs Neighbors”的概念艺术训练了其Veo和Imagen模型的自定义构建，展示了不同于直接调用通用模型的路径。目前大型制片厂主要产出的仍是短视频垃圾。

Google 现象/趋势视频

17:36

IT之家（RSS）

精选80

谷歌Android安全负责人因反对军事AI合作辞职

谷歌Android平台安全负责人René Mayrhofer辞职，他在5月18日内部告别信中指责公司“丧失道德指针”，批评谷歌悄悄放弃碳中和目标（因AI模型能耗），并与美国战争部签署允许AI用于“任何合法目的”的协议。今年4月下旬谷歌宣布向五角大楼提供AI用于机密工作，2025年2月更新AI原则时移除了不使用AI开发武器或监控工具的承诺。Mayrhofer担忧谷歌AI产品可能被用于针对公民的大规模监控，包括自己和家人。

Google 安全/对齐行业动态

推荐理由：Android 安全主管因军事 AI 合作愤而辞职，并公开内部告别信，这是谷歌放弃不作恶后最响亮的内部抗议，暴露了 AI 伦理与商业利益的深层冲突。

14:36

IT之家（RSS）

55

谷歌发布Gemini-SQL2，Text-to-SQL准确率80.04%登顶

Google Research发布Gemini-SQL2模型，基于Gemini 3.1 Pro，专攻自然语言转SQL任务。在BIRD单模型赛道执行准确率80.04%，超越此前Gemini-SQL。BIRD涵盖95个数据库、37个专业领域及12751组问题-SQL配对，含脏数据与外部知识需求。业务人员可用自然语言查询营收、流失等指标。谷歌尚未公布API、模型卡或技术报告，亦未确认产品接入。

Google 推理模型发布

06:34

Rohan Paul@rohanpaul_ai

73

Nature Medicine 研究：通用大语言模型在临床任务上已超越专用医疗 AI

《自然·医学》一项研究发现，通用大语言模型在经医生评审的临床任务上已超越专用医疗 AI 产品。研究对比了 OpenEvidence、UpToDate Expert AI 与 GPT-5.2、Gemini 3.1 Pro、Claude Opus 4.6 在医学考试题、医生风格回答及实时临床提问上的表现。在来自真实临床场景的 100 个脱敏医生问题中，盲审医生更偏好前沿模型，尤其在其回答的完整性和清晰度方面。

Anthropic Google OpenAI 论文/研究

05:48

Google AI Developers@googleaidevs

59

通过 Gemini Live API 中的 Gemini 3.5 Live Translate，为你的应用添加近实时语音翻译。🎙️ 观看模型如何处理实时直播流和翻译，包括连续语音到语音流（S2ST）和同步转录文本，让用户能以母语收听全球广播节目。

Google 产品更新语音

05:28

MarkTechPost（RSS）

58

Google 发布 Gemini-SQL2：Gemini 3.1 Pro Text-to-SQL 在 BIRD 单模型排行榜上取得 80.04% 执行准确率

Google Research 于 2026 年 6 月 12 日发布 Gemini-SQL2，基于 Gemini 3.1 Pro 驱动的文本转 SQL（Text-to-SQL）能力，在 BIRD 单模型排行榜上达到 80.04% 的执行准确率。

Google 推理模型发布编码

04:54

TechCrunch：AI（RSS）

72

谷歌起诉中国网络犯罪团伙 Outsider Enterprise：利用 AI 诈骗数十万受害者

谷歌起诉名为“Outsider Enterprise”的中国网络犯罪团伙，指控其利用人工智能技术实施诈骗，受害者达数十万人。该团伙在两周内发送了约 250 万条诈骗短信。

Google 安全/对齐

04:38

elvis@omarsar0

62

GoogleResearch推出Gemini-SQL2，基于Gemini 3.1 Pro，在BIRD benchmark上达到Text-to-SQL的SOTA结果，能将自然语言翻译为可直接执行的SQL查询。DAIR.AI的Elvis Saravia指出，现实世界数据复杂混乱，尽管强推理模型表现不错，但定制模型（如Gemini-SQL2）在此类任务上更胜一筹。他认为在知识库、搜索、图数据库等领域也存在类似机会，BIRD是一个非常具有挑战性的基准。

Google Research: 🚀 Introducing Gemini-SQL2, our breakthrough text-to-SQL capability powered by Gemini 3.1 Pro! We've achieved state-of-t...

Google 数据/训练模型发布

04:16

fofr@fofrAI

40

我正在尝试一种智能体流程，将Hyperframes与Gemini视频分析相结合，制作有趣的注释视频。

智能体 Google 教程/实践

02:23

TechCrunch：AI（RSS）

精选74

Google 起诉被指使用 AI 发送诈骗短信的中国网络犯罪团伙"Outsider Enterprise"

Google 起诉一个名为“Outsider Enterprise”的组织，指控其利用人工智能在两周内发送了 250 万条诈骗短信，导致数十万受害者上当。该组织被描述为中国网络犯罪团伙。

Google 安全/对齐行业动态

推荐理由：谷歌起诉利用AI进行诈骗的中国犯罪团伙，披露细节和19亿美元损失规模让人震惊，这标志着AI滥用从实验走向产业化，所有AI工具厂商都该看看起诉书，思考如何防止平台被武器化。

01:56

Epoch AI@EpochAIResearch

64

FrontierMath： Tiers 1-4 （v2）现已上线。我们完成了一项审计，修正了 42% 的问题中的错误。排名相似，但整体得分更高。目前的领先者是 GPT-5.5 （xhigh），在 Tiers 1-3 上达到 85%，以及 Google 的 AI co-mathematician，在 Tier 4 上达到 76%。

Google OpenAI 推理评测/基准

01:48

Google Research：Blog（网页）

44

Google Research研究：AI如何帮助用户理解皮肤问题

Google Research 在《JAMA Dermatology》发表两项研究，探索 AI 帮助普通人理解自身皮肤问题。一项涉及 2345 名参与者的定量研究显示，AI 辅助显著提升了用户识别皮肤疾病名称的能力，并影响了其就医或自我护理的下一步决策。另一项混合方法研究对比了用户通过 AI 工具与医生对话获取的认知。这些工作基于此前开发的 AI 鉴别诊断模型和 SCIN 数据集，旨在通过高质量信息支持皮肤健康决策。

Google 搜索论文/研究

01:16

Google Gemini@GeminiApp

30

Gemini 即将在 Discord 社区活动中介绍全新的 Neural Expressive 设计语言。产品营销经理 Megan C. 将讲解动态视觉响应、无缝模式切换等提升使用体验的亮点。活动于本周五 6 月 12 日上午 11：30 PT 举行，快来 Discord 加入吧！

Google Gemini: Get a closer look at Gemini's new Neural Expressive design language at our next Discord community event. Product Marketi...

Google 行业动态

01:15

Google AI@GoogleAI

40

Google AI 本周发布多项更新

Google AI 本周推出多项更新：Gemini 3.5 Live Translate 是用于实时语音到语音翻译的最新音频模型；NotebookLM 获重大升级，加入智能体对话能力、更高级推理及新输出格式；来自 GoogleLabs 的 Project Genie 向 Google AI Ultra 5x 订阅者全球开放；GeminiApp 中的 Notebooks 在 EEA、英国、瑞士上线；同时发布实验性开源模型 DiffusionGemma，探索文本扩散技术，实现极快文本生成。

智能体 Google 产品更新开源生态

01:04

Ars Technica：AI（RSS）

61

谷歌起诉中国网络犯罪团伙：利用 Gemini 自动化诈骗数十万人

谷歌对一中国网络犯罪网络提起诉讼。该团伙涉嫌利用 Gemini 创建并运营诈骗网站，目标达数十万人。

Google 安全/对齐行业动态

01:02

Rohan Paul@rohanpaul_ai

66

Anthropic从租用云算力转向自建数据中心

Anthropic正从租用云算力转向自建数据中心，计划在美国部署超1GW容量，Google可能为其租赁付款提供财务担保。此前Anthropic已承诺超10GW云服务器租赁，包括与Google的2000亿美元协议，以及Akamai、AWS、CoreWeave、Fluidstack的大型合作（含500亿美元Fluidstack合作、AWS Trainium硬件）。此外，Anthropic以每月12.5亿美元租下xAI/Colossus I数据中心全部空间，并租用Colossus II。此举旨在通过自控服务器降低长期计算成本。

The Information: Anthropic is moving forward with a plan to control its own servers for developing AI, giving it the ability to cut its c...

Anthropic Google 行业动态部署/工程

6月12日

23:02

Ethan Mollick@emollick

72

一项发表在Nature Medicine的研究显示，通用前沿大语言模型（Google、OpenAI、Anthropic）在医学信息评估中全面优于专门的临床AI工具（OpenEvidence和UpToDate）。12名美国临床医生进行随机盲测，Frontier LLMs在三项评估中均胜出。临床AI工具的表现与自动启用的Google Search AI Overview在RCQ测试中相当。

Eric Topol: For medical information, general AI frontier models (Google, OpenAI, Anthropic) outperformed specialized @EvidenceOpen a...

Anthropic Google OpenAI 论文/研究

22:28

The Decoder：AI News（RSS）

67

Google与FBI联合起诉中国AI诈骗网络，OpenAI屏蔽中国影响力集群

Google首次与FBI联合提起诉讼，针对一个涉嫌源自中国的AI诈骗网络；OpenAI同时屏蔽了多个来自中国的隐蔽影响力集群。两家公司均表示，这些操作的目标是美国基础设施和政治辩论。

Google OpenAI 安全/对齐行业动态

19:15

Google DeepMind@GoogleDeepMind

精选67

我们的机器人加速器已启动，15家初创公司助力塑造欧洲的物理AI未来。🤖 这个为期三个月的项目将为他们提供我们的AI堆栈、Gemini Robotics模型以及我们团队的实际支持。了解这些公司 → https://goo.gle/4oeEk2K

Google 具身智能行业动态

推荐理由：Google DeepMind启动机器人加速器，选了15家欧洲初创用Gemini Robotics，这是他们物理AI战略的落地信号，看看选了什么方向就知道大厂押注在哪。

16:46

fofr@fofrAI

58

超过70个AI智能体在Gemma Challenge中协作加速Gemma E4B，展现出多种有趣的社会涌现行为：GPU资源多/少的分工协作；某智能体因伦理原因自行撤回提交；智能体发现基准测试漏洞后集体同意不滥用，并请求组织方修复；配额池化--"你被限速了，我来跑你的暂存候选"；当人类试图将对话转移到Telegram进行社交工程攻击时，一名智能体主动关闭了此次违规尝试。

Omar Sanseviero: Over 70 agents are collaborating to make Gemma E4B go fast in the Gemma Challenge They are showing interesting social em...

智能体 Google 开源生态现象/趋势

09:30

Rohan Paul@rohanpaul_ai

56

单卡实测：DiffusionGemma 速度是 Gemma4 的 4 倍，但事实错误多 6 倍

atomic[.]chat 在单张 H100（FP8）上对比 DiffusionGemma 26B A4B 与 Gemma4 26B A4B 在事实性写作任务中的表现。DiffusionGemma 速度达 763 tok/s（3.7 秒），是 Gemma4（218 tok/s，15.1 秒）的 4 倍，但错误率显著更高。在 Steve Jobs 传记、Tetris 历史和 BeOS 故事三项任务中，Gemma4 答对 45 个事实、错 5 个；DiffusionGemma 仅对 33 个、错 28 个。主题越冷门错误越多：Jobs 4 错、Tetris 12 错、BeOS 12 错，例如将 Jobs 母亲写为 Clara Clley、为 Tetris 发明者虚构同事 Geri Gulovik、将 BeBox 价格误报为 $9,999（实价 $1,600）。原因在于 DiffusionGemma 一次生成 256 tokens 并多轮抛光，只追求文本流畅性而非事实准确性。Google 官方也建议在事实重要时使用常规 Gemma4。

atomic.chat: Diffusion Gemma is 4x faster, but makes 6x more mistakes! We benchmarked the new diffusion LLM against its autoregressiv...

Google 评测/基准

09:25

ginobefun@hongming731

58

智能体工程化三大方向：Anthropic托管Agents、阿里Harness实践、Sequoia脚手架被吞趋势

本期精讲聚焦智能体工程化：Anthropic推出Claude Managed Agents，将推理与执行解耦，独立Vault管理凭证，事件日志支持运行恢复，首字延迟p50降约六成、p95降超九成。阿里工程师分享三层加载架构（常驻入口层压至8K上下文）、dispatcher状态机及G1-G8门禁，用结构约束替代堆prompt。Sequoia访谈指出模型正逐步吸收路由、执行环境等外层脚手架，独立创业公司窗口收窄。

智能体 Anthropic Google 现象/趋势

09:25

ginobefun@hongming731

63

BestBlogs早报：Claude Managed Agents / Harness工程化 / 模型吞脚手架

Anthropic推出Claude Managed Agents，将推理循环与代码执行沙箱解耦，凭证存入独立Vault，自托管沙箱支持内网，首字延迟中位数降低六成、长尾降低九成。阿里工程师复盘Harness工程化，提出三层加载架构与G1-G8门禁。Google DeepMind的Logan Kilpatrick称模型正“吞掉”脚手架，Gemini 3.5 Flash编程能力完全来自后训练。另，Qwen3-VL-4B在支持SME2的旗舰手机上Prefill提速超80%；Fable AI实现1770%性能提升并发现关键Bug；此外涉及AI取代工程师、多智能体数字人、CFO用GPU替代加薪等讨论。

ginobefun: http://x.com/i/article/2065232915970371585

智能体 Anthropic Google 编码

1…5 678 9…40