6月30日

07:28

Rohan Paul@rohanpaul_ai

Google 发布 Paper Assistant Tool：以智能体验证应对科学审稿瓶颈

Google 新论文提出“验证债务”概念：AI 加快论文产出，但人工核查成为瓶颈。为此推出智能体验证（agentic verification）方案，并开发 Paper Assistant Tool 原型系统。该系统将论文拆解为多个部分，深入检查难点并汇总审稿意见，聚焦证明错误、实验漏洞、缺失对比等客观错误，而非直接给出接收/拒稿决策。在数学与计算机科学已知错误测试中，该工具比单次模型调用发现更多证明错误；在 STOC 和 ICML 的面向作者试点中，许多作者据此修复了严重理论缺陷或补充了实验。论文指出科学审稿可能需要独立 AI 栈以应对日益自动化的论文生成。

智能体 arXiv Google 论文/研究

6月26日

08:00

HuggingFace Daily Papers（社区热门论文）

迈向自动化科学评审：Google 的 Paper Assistant Tool（PAT）

Google 发布 Paper Assistant Tool（PAT），一个用于深度科学评审和验证的智能体 AI 框架。PAT 能摄取完整学术论文，生成综合评估，包括检查理论结果、验证实验、提出改进建议和识别潜在缺陷。通过利用推理扩展技术，PAT 在 SPOT 基准上对数学错误的召回率比零样本提升 34%。该工具已在 STOC 和 ICML 两大计算机科学会议上作为作者预提交工具进行试点，可发现关键错误并提出实质性改进，在保留评审员对结果控制权的同时减轻其认知负担。

智能体 Google 推理论文/研究

01:37

Google Research：Blog（网页）

用线性弹性缓存优化云经济

Google Research 与 Google Cloud 提出线性弹性缓存，将缓存管理转为线性成本优化问题，动态调整大小以最小化总拥有成本。为每条数据引入“滑雪租赁”决策框架，在租用内存（持续付费）与购买缺失（缓存未命中惩罚）间选择，并用轻量级机器学习实时优化内存占用与缺失率权衡。无服务器云场景下（每 GiB 内存每天 $3），该技术可在不牺牲性能的同时显著降本。论文发表于 CIDR。

Google 论文/研究部署/工程

00:00

Google Research：Blog（网页）

精选55

冻结多token预测加速Pixel上的Gemini Nano模型

Google Research提出一种新架构，在已冻结的Gemini Nano v3模型上改造Multi-Token Prediction（MTP），以加速Pixel 9和10系列上的设备端推理。该方法基于EAGLE框架和CALM，无需单独训练占用内存的草稿模型，通过“晚期退出”策略实现加速。AI通知摘要和校对功能因此生成文本速度显著提升、能耗降低，开发者无需为每个新任务微调独立模型。

Google 推理端侧论文/研究

推荐理由：谷歌这篇技术博客值得端侧开发者细读，他们把多令牌预测硬是装进了已部署的 Nano 模型，Pixel 上生成加速五成，还省了 130MB 内存，零拷贝架构的想法挺巧，但没法直接复现，主要是开脑洞用的。

6月25日

01:05

Google Research：Blog（网页）

精选69

思考即回忆：推理如何解锁LLM中的参数化知识

Google Research研究发现，推理（chain-of-thought）能帮助大语言模型（LLM）回忆简单事实，即使这些事实无需复杂推导。在Gemini-2.5 Flash和Pro以及Qwen3-32B上，启用推理后模型能够回答原本无法直接回答的简单问题，pass@k显示正确事实存在于输出分布中。该现象由两个机制驱动：一是生成的推理token充当计算缓冲，允许模型进行隐藏计算以提取参数化知识；二是推理过程中产生的相关事实起到启动效应（factual priming），帮助模型激活正确答案。

Google 推理论文/研究

推荐理由：发现一个反直觉现象，让模型推理能提升简单事实回忆，不是靠分步解题而是计算缓冲和事实预热，对理解模型知识召回机制很有启发，但中间步骤幻觉也带来风险。

6月23日

00:08

Google Developers Blog（RSS）

精选61

Google Labs 提出用"洞察策略"评估 AI 编码智能体的主动性

Google Labs 提出以“洞察策略”评估 AI 编码智能体的主动性，而非仅按任务完成度打分。团队基于 Google 内部代码库 705 个 bug（1178 个 CL），通过时空近邻与语义相似度聚类还原开发者实际的高层级目标。初步实验显示：Jules 在单轮探索下洞察相关性评分平均 4.5/5；探索预算从两轮增至三轮时，Hit@5 准确率从 33% 升至 57%。团队正将评估方法扩展至公开 GitHub 数据，并探索纳入问题追踪器、对话等更丰富的上下文。

智能体 Google 编码论文/研究

推荐理由：AI 编码代理的评估从任务修复转向目标洞察，Google 这个思路让评估更接近真实开发场景，但实验还是内部数据，等公开 GitHub 版本再看落地效果。

6月19日

02:51

Jeff Dean@JeffDean

Google 发布 TPU v2 至 Ironwood 五代训练超算演进论文

Jeff Dean 等 Google 同事发布论文，回顾 TPU v2 到 Ironwood 五代训练超算的演进，将于 2026 年 7/8 月发表于 IEEE Micro。关键变化：TPU v2 采用气冷，v3 起改为水冷；互联从 2D 升级为 3D torus；每 pod 芯片数从 256 增至 9216；每 flop 能效提升约 30 倍。此外，Google 内部工作负载已大幅转向基于 Transformer 的模型。

arXiv Google 数据/训练论文/研究

6月18日

22:52

The Decoder：AI News（RSS）

精选78

Nature两篇研究：MIRA和AMIE诊断与治疗计划媲美甚至超越医生

德国团队开发的MIRA智能体在模拟电子病历中操作85,000种选项，500余例急诊诊断准确率88.9%，对比测试（311例）得分87.8%，高于资深专科医生（78.1%）和混合团队（71.1%）。MIRA在阑尾炎（98.6%）和胰腺炎（92.3%）最佳，未发现危险药物交互或剂量错误，性能不受语言影响，代码已公开。谷歌AMIE采用双智能体架构，在100个多访视病例中治疗计划适切率95%（初级保健医生72%），并在药物知识基准RxQA上超过医生。两项研究均警告模拟环境与现实存在差距，实际性能可能更低。

智能体 GitHub Google OpenAI

推荐理由：两项 Nature 研究把 AI 诊断推到了和医生掰手腕的水平，但更值得关注的是那个被埋起来的实验：更强的模型一上来，精心搭建的 double-agent 架构几乎归零。医疗 AI 的护城河可能不是架构而是接入院内系统的能力。

21:18

Google DeepMind@GoogleDeepMind

我们不做AI总会按我们意图行事的假设，而是问：如果它不这样做呢？因此我们制定了AI控制路线图：一个用于构建和管理我们在Google内部部署的先进AI的框架。🧵

Google 安全/对齐

6月17日

23:32

Google Blog：AI（RSS）

精选55

Google 医学推理 AI 系统 AMIE 新研究：从诊断迈向长期疾病管理

今日发表在《自然》杂志上的研究展示了 Google 的医学推理 AI 系统 AMIE（Articulate Medical Intelligence Explorer）从单次诊断对话演进到长期疾病管理的能力。AMIE 利用 Gemini 模型的长上下文能力，整合共情对话智能体和深度思考管理推理智能体，可交叉引用数百页临床指南。在盲测中，AMIE 与 21 名初级保健医生相比，在整体管理推理上匹配临床医生，在计划精确性和指南一致性上得分显著更高。

Google 推理论文/研究

推荐理由：Google 把医疗 AI 从一次诊断推到了长期疾病管理，Nature 上的对照实验显示它在计划精确性上甚至优于初级保健医生，做数字健康的人值得认真读一下。

6月13日