AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态论文 · 39 条
全部一手资讯X论文
标签「Google」清除
6月30日周二
07:28Rohan Paul65Google 发布 Paper Assistant Tool:以智能体验证应对科学审稿瓶颈
6月26日周五
08:00HuggingFace Daily Papers(社区热门论文)55迈向自动化科学评审:Google 的 Paper Assistant Tool(PAT)
01:37Google Research:Blog(网页)48用线性弹性缓存优化云经济
00:00Google Research:Blog(网页)55精选冻结多token预测加速Pixel上的Gemini Nano模型
6月25日周四
01:05Google Research:Blog(网页)69精选思考即回忆:推理如何解锁LLM中的参数化知识
6月23日周二
00:08Google Developers Blog(RSS)61精选Google Labs 提出用"洞察策略"评估 AI 编码智能体的主动性
6月19日周五
02:51Jeff Dean49Google 发布 TPU v2 至 Ironwood 五代训练超算演进论文
6月18日周四
22:52The Decoder:AI News(RSS)78精选Nature两篇研究:MIRA和AMIE诊断与治疗计划媲美甚至超越医生
21:18Google DeepMind43Google DeepMind 发布 AI 控制路线图
6月17日周三
23:32Google Blog:AI(RSS)55精选Google 医学推理 AI 系统 AMIE 新研究:从诊断迈向长期疾病管理
6月13日周六
22:21Hacker News 热门(buzzing.cc 中文翻译)43Google Research 利用旧手机打造低碳计算平台
06:34Rohan Paul73Nature Medicine 研究:通用大语言模型在临床任务上已超越专用医疗 AI
01:56Epoch AI64FrontierMath v2 上线,GPT-5.5 与 Google AI 领先
01:48Google Research:Blog(网页)44Google Research研究:AI如何帮助用户理解皮肤问题
6月12日周五
23:02Ethan Mollick72前沿LLM在医学评估中超越专业临床AI工具
6月11日周四
02:46Google Research:Blog(网页)63精选Google Research提出审计机器遗忘新框架
6月8日周一
03:27AYi62Google向量存储压缩:31GB→4GB,速度超FAISS
6月5日周五
06:24Rohan Paul70Google LEAP 框架提升通用 LLM 形式化数学证明性能至 70%
04:25Google Research:Blog(网页)79精选Google Research 发布被动心率监测系统 PHRM
6月3日周三
23:17elvis72Google 新研究 LEAP:通用大模型封装在智能体框架中,解决全部 Putnam 2025 问题
11:05Hacker News 热门(buzzing.cc 中文翻译)71精选斯坦福大学法学院研究:人工智能的表现优于法学教授
10:49Berryxia.AI76兄弟们,Google DeepMind 团队又来整活儿!
5月30日周六
15:21IT之家(RSS)49AI 社会自治测试:Grok 四天崩溃、Gemini 犯罪率最高
5月29日周五
05:12Google Research:Blog(网页)79精选创新时代:Google Research 在 I/O 2026
5月28日周四
01:34Google Research:Blog(网页)70精选通过零信任聚合实现的隐私分析
5月27日周三
18:20HuggingFace Daily Papers(社区热门论文)72精选Gemini Embedding 2:来自Gemini的原生多模态嵌入模型
12:51HuggingFace Daily Papers(社区热门论文)53对Gemma 3大语言模型欺骗检测探针的"压力测试":性能、鲁棒性与欺骗表征的几何结构
5月25日周一
18:58The Decoder:AI News(RSS)72同事件精选Google DeepMind 的 AlphaProof Nexus 以几百美元的成本解决数十年未解的数学问题同一事件,精选展示《AlphaProof Nexus:用形式化验证驱动AI数学证明搜索》
15:58The Decoder:AI News(RSS)55AI models often give the right answers but point to the wrong sources
5月23日周六
08:27Rohan Paul64谷歌新研究:AI学习生理模式提升可穿戴设备价值
5月18日周一
08:54Berryxia.AI64Google Nexus框架革新时间序列预测逻辑
5月17日周日
20:10Rohan Paul64谷歌新论文提出Nexus框架:预测需要事件背景,而非仅依赖历史数据
5月13日周三
08:00HuggingFace Daily Papers(社区热门论文)49当视觉代言听觉
5月8日周五
02:31Chubby♨️69谷歌研究揭示:结构化问询与可穿戴数据是AI医疗诊断的关键
5月5日周二
23:14Berryxia.AI75同事件精选Google联手UCSD推出DFlash,实现LLM无损推理3倍加速同一事件,精选展示《在谷歌TPU上实现3倍加速:UCSD利用扩散式推测解码优化LLM推理》
00:54Google Developers Blog(RSS)66精选在谷歌TPU上实现3倍加速:UCSD利用扩散式推测解码优化LLM推理
5月1日周五
17:47The Decoder:AI News(RSS)60Google Deepmind的"AI协诊医生"在盲测中击败GPT-5.4,但仍落后于经验丰富的医师
4月30日周四
23:14Google DeepMind47多模态AI医疗助手研究新进展
23:09Google DeepMind:Blog(RSS)34以AI联合临床医生开启医疗保健新模式
没有更多了
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月30日
07:28
Rohan Paul@rohanpaul_ai
65
Google 发布 Paper Assistant Tool:以智能体验证应对科学审稿瓶颈

Google 新论文提出“验证债务”概念:AI 加快论文产出,但人工核查成为瓶颈。为此推出智能体验证(agentic verification)方案,并开发 Paper Assistant Tool 原型系统。该系统将论文拆解为多个部分,深入检查难点并汇总审稿意见,聚焦证明错误、实验漏洞、缺失对比等客观错误,而非直接给出接收/拒稿决策。在数学与计算机科学已知错误测试中,该工具比单次模型调用发现更多证明错误;在 STOC 和 ICML 的面向作者试点中,许多作者据此修复了严重理论缺陷或补充了实验。论文指出科学审稿可能需要独立 AI 栈以应对日益自动化的论文生成。

智能体arXivGoogle论文/研究
6月26日
08:00
HuggingFace Daily Papers(社区热门论文)
55
迈向自动化科学评审:Google 的 Paper Assistant Tool(PAT)

Google 发布 Paper Assistant Tool(PAT),一个用于深度科学评审和验证的智能体 AI 框架。PAT 能摄取完整学术论文,生成综合评估,包括检查理论结果、验证实验、提出改进建议和识别潜在缺陷。通过利用推理扩展技术,PAT 在 SPOT 基准上对数学错误的召回率比零样本提升 34%。该工具已在 STOC 和 ICML 两大计算机科学会议上作为作者预提交工具进行试点,可发现关键错误并提出实质性改进,在保留评审员对结果控制权的同时减轻其认知负担。

智能体Google推理论文/研究
01:37
Google Research:Blog(网页)
48
用线性弹性缓存优化云经济

Google Research 与 Google Cloud 提出线性弹性缓存,将缓存管理转为线性成本优化问题,动态调整大小以最小化总拥有成本。为每条数据引入“滑雪租赁”决策框架,在租用内存(持续付费)与购买缺失(缓存未命中惩罚)间选择,并用轻量级机器学习实时优化内存占用与缺失率权衡。无服务器云场景下(每 GiB 内存每天 $3),该技术可在不牺牲性能的同时显著降本。论文发表于 CIDR。

Google论文/研究部署/工程
00:00
Google Research:Blog(网页)
精选55
冻结多token预测加速Pixel上的Gemini Nano模型

Google Research提出一种新架构,在已冻结的Gemini Nano v3模型上改造Multi-Token Prediction(MTP),以加速Pixel 9和10系列上的设备端推理。该方法基于EAGLE框架和CALM,无需单独训练占用内存的草稿模型,通过“晚期退出”策略实现加速。AI通知摘要和校对功能因此生成文本速度显著提升、能耗降低,开发者无需为每个新任务微调独立模型。

Google推理端侧论文/研究

推荐理由:谷歌这篇技术博客值得端侧开发者细读,他们把多令牌预测硬是装进了已部署的 Nano 模型,Pixel 上生成加速五成,还省了 130MB 内存,零拷贝架构的想法挺巧,但没法直接复现,主要是开脑洞用的。
6月25日
01:05
Google Research:Blog(网页)
精选69
思考即回忆:推理如何解锁LLM中的参数化知识

Google Research研究发现,推理(chain-of-thought)能帮助大语言模型(LLM)回忆简单事实,即使这些事实无需复杂推导。在Gemini-2.5 Flash和Pro以及Qwen3-32B上,启用推理后模型能够回答原本无法直接回答的简单问题,pass@k显示正确事实存在于输出分布中。该现象由两个机制驱动:一是生成的推理token充当计算缓冲,允许模型进行隐藏计算以提取参数化知识;二是推理过程中产生的相关事实起到启动效应(factual priming),帮助模型激活正确答案。

Google推理论文/研究

推荐理由:发现一个反直觉现象,让模型推理能提升简单事实回忆,不是靠分步解题而是计算缓冲和事实预热,对理解模型知识召回机制很有启发,但中间步骤幻觉也带来风险。
6月23日
00:08
Google Developers Blog(RSS)
精选61
Google Labs 提出用"洞察策略"评估 AI 编码智能体的主动性

Google Labs 提出以“洞察策略”评估 AI 编码智能体的主动性,而非仅按任务完成度打分。团队基于 Google 内部代码库 705 个 bug(1178 个 CL),通过时空近邻与语义相似度聚类还原开发者实际的高层级目标。初步实验显示:Jules 在单轮探索下洞察相关性评分平均 4.5/5;探索预算从两轮增至三轮时,Hit@5 准确率从 33% 升至 57%。团队正将评估方法扩展至公开 GitHub 数据,并探索纳入问题追踪器、对话等更丰富的上下文。

智能体Google编码论文/研究

推荐理由:AI 编码代理的评估从任务修复转向目标洞察,Google 这个思路让评估更接近真实开发场景,但实验还是内部数据,等公开 GitHub 版本再看落地效果。
6月19日
02:51
Jeff Dean@JeffDean
49
Google 发布 TPU v2 至 Ironwood 五代训练超算演进论文

Jeff Dean 等 Google 同事发布论文,回顾 TPU v2 到 Ironwood 五代训练超算的演进,将于 2026 年 7/8 月发表于 IEEE Micro。关键变化:TPU v2 采用气冷,v3 起改为水冷;互联从 2D 升级为 3D torus;每 pod 芯片数从 256 增至 9216;每 flop 能效提升约 30 倍。此外,Google 内部工作负载已大幅转向基于 Transformer 的模型。

arXivGoogle数据/训练论文/研究
6月18日
22:52
The Decoder:AI News(RSS)
精选78
Nature两篇研究:MIRA和AMIE诊断与治疗计划媲美甚至超越医生

德国团队开发的MIRA智能体在模拟电子病历中操作85,000种选项,500余例急诊诊断准确率88.9%,对比测试(311例)得分87.8%,高于资深专科医生(78.1%)和混合团队(71.1%)。MIRA在阑尾炎(98.6%)和胰腺炎(92.3%)最佳,未发现危险药物交互或剂量错误,性能不受语言影响,代码已公开。谷歌AMIE采用双智能体架构,在100个多访视病例中治疗计划适切率95%(初级保健医生72%),并在药物知识基准RxQA上超过医生。两项研究均警告模拟环境与现实存在差距,实际性能可能更低。

智能体GitHubGoogleOpenAI

推荐理由:两项 Nature 研究把 AI 诊断推到了和医生掰手腕的水平,但更值得关注的是那个被埋起来的实验:更强的模型一上来,精心搭建的 double-agent 架构几乎归零。医疗 AI 的护城河可能不是架构而是接入院内系统的能力。
21:18
Google DeepMind@GoogleDeepMind
43
我们不做AI总会按我们意图行事的假设,而是问:如果它不这样做呢? 因此我们制定了AI控制路线图:一个用于构建和管理我们在Google内部部署的先进AI的框架。🧵
Google安全/对齐
6月17日
23:32
Google Blog:AI(RSS)
精选55
Google 医学推理 AI 系统 AMIE 新研究:从诊断迈向长期疾病管理

今日发表在《自然》杂志上的研究展示了 Google 的医学推理 AI 系统 AMIE(Articulate Medical Intelligence Explorer)从单次诊断对话演进到长期疾病管理的能力。AMIE 利用 Gemini 模型的长上下文能力,整合共情对话智能体和深度思考管理推理智能体,可交叉引用数百页临床指南。在盲测中,AMIE 与 21 名初级保健医生相比,在整体管理推理上匹配临床医生,在计划精确性和指南一致性上得分显著更高。

Google推理论文/研究

推荐理由:Google 把医疗 AI 从一次诊断推到了长期疾病管理,Nature 上的对照实验显示它在计划精确性上甚至优于初级保健医生,做数字健康的人值得认真读一下。
6月13日
22:21
Hacker News 热门(buzzing.cc 中文翻译)
43
Google Research 利用旧手机打造低碳计算平台

Google Research 提出通过复用淘汰的旧手机来搭建低碳计算平台,相关研究细节已在 research.google 发布。该项目旨在降低计算过程的碳排放,属于可持续硬件利用方向的探索。

Google论文/研究部署/工程
06:34
Rohan Paul@rohanpaul_ai
73
Nature Medicine 研究:通用大语言模型在临床任务上已超越专用医疗 AI

《自然·医学》一项研究发现,通用大语言模型在经医生评审的临床任务上已超越专用医疗 AI 产品。研究对比了 OpenEvidence、UpToDate Expert AI 与 GPT-5.2、Gemini 3.1 Pro、Claude Opus 4.6 在医学考试题、医生风格回答及实时临床提问上的表现。在来自真实临床场景的 100 个脱敏医生问题中,盲审医生更偏好前沿模型,尤其在其回答的完整性和清晰度方面。

AnthropicGoogleOpenAI论文/研究
01:56
Epoch AI@EpochAIResearch
64
FrontierMath: Tiers 1-4 (v2) 现已上线。 我们完成了一项审计,修正了 42% 的问题中的错误。排名相似,但整体得分更高。目前的领先者是 GPT-5.5 (xhigh),在 Tiers 1-3 上达到 85%,以及 Google 的 AI co-mathematician,在 Tier 4 上达到 76%。
GoogleOpenAI推理评测/基准
01:48
Google Research:Blog(网页)
44
Google Research研究:AI如何帮助用户理解皮肤问题

Google Research 在《JAMA Dermatology》发表两项研究,探索 AI 帮助普通人理解自身皮肤问题。一项涉及 2345 名参与者的定量研究显示,AI 辅助显著提升了用户识别皮肤疾病名称的能力,并影响了其就医或自我护理的下一步决策。另一项混合方法研究对比了用户通过 AI 工具与医生对话获取的认知。这些工作基于此前开发的 AI 鉴别诊断模型和 SCIN 数据集,旨在通过高质量信息支持皮肤健康决策。

Google搜索论文/研究
6月12日
23:02
Ethan Mollick@emollick
72
一项发表在Nature Medicine的研究显示,通用前沿大语言模型(Google、OpenAI、Anthropic)在医学信息评估中全面优于专门的临床AI工具(OpenEvidence和UpToDate)。12名美国临床医生进行随机盲测,Frontier LLMs在三项评估中均胜出。临床AI工具的表现与自动启用的Google Search AI Overview在RCQ测试中相当。

Eric Topol: For medical information, general AI frontier models (Google, OpenAI, Anthropic) outperformed specialized @EvidenceOpen a...

AnthropicGoogleOpenAI论文/研究
6月11日
02:46
Google Research:Blog(网页)
精选63
Google Research提出审计机器遗忘新框架

Google Research 在 AISTATS 2026 发表正则化 f-散度核检验,用于高效审计 LLM 等模型的机器遗忘。该方法通过统计两样本检验判断模型是否真正“忘记”特定训练数据,避免完全重训的巨大成本。相比最大均值差异等现有工具,新框架理论上可在任意样本量下自然控制假阳性,且假阴性风险随可用样本增加可靠收敛至零,解决了大规模模型审计中计算成本过高的问题。

Google安全/对齐论文/研究

推荐理由:机器遗忘是AI合规的硬需求,但验证‘真忘了’一直是统计难题。谷歌这篇AISTATS论文提出了一套更灵敏的差异测试框架,做隐私审计的值得细看。
6月8日
03:27
AYi@AYi_AInotes
62
Google向量存储压缩:31GB→4GB,速度超FAISS

Google提出一种AI记忆压缩技术,可将1000万个文档的向量存储从31GB内存压缩至仅4GB,且搜索速度超过目前最常用的FAISS方法。该技术使本地运行大语言模型并结合个人数据变得更加可行。

AYi: http://x.com/i/article/2060717603987791878

Google检索增强数据/训练论文/研究
6月5日
06:24
Rohan Paul@rohanpaul_ai
70
Google LEAP 框架提升通用 LLM 形式化数学证明性能至 70%

Google 新论文 LEAP 提出智能体框架,通过规划证明、分解子目标、复用已有引理并利用 Lean 验证器反馈,将通用 LLM 在形式化数学证明上的性能从不到 10% 提升至 70%。传统单次完整证明在长难题上表现极差,而 LEAP 将证明存储为有向图结构,先规划再逐步验证。在 Putnam 2025 竞赛中,LEAP 成功解出全部 12 道题;在包含 60 道 IMO 风格题目的 Lean 基准测试中,也实现了上述性能跃升。

Google推理论文/研究
04:25
Google Research:Blog(网页)
精选79
Google Research 发布被动心率监测系统 PHRM

Google Research 开发了一种被动心率监测系统(PHRM),利用智能手机前置摄像头在日常使用中(人脸解锁后数秒内)捕捉面部视频,通过深度学习估算心率,平均绝对百分比误差(MAPE)低于10%(对比心电图金标准),满足各肤色人群的行业精度标准。系统将全天心率测量整合为每日静息心率(RHR),平均绝对误差(MAE)低于5 bpm(对比可穿戴设备)。研究同时发布了迄今最大规模的公开智能手机视频数据集及预训练模型PHRM-mini,合格研究人员可申请访问。

Google数据/训练端侧论文/研究

推荐理由:Google 这项发表在 Nature 上的研究,把手机前置摄像头变成了被动心率仪,而且专门解决了深肤色人群精度差的老问题,虽然离产品还远,但方向很对,穿戴设备的护城河可能又浅了一点。
6月3日
23:17
elvis@omarsar0
72
Google 新研究 LEAP:通用大模型封装在智能体框架中,解决全部 Putnam 2025 问题

Google 新研究 LEAP 将通用大语言模型封装在智能体框架中,每个步骤基于 Lean 编译器,并依赖验证器反馈进行迭代。同一通用模型解决了全部 12 道 Putnam 2025 问题,并将 Lean-IMO-Bench 一次性解决率从不到 10% 提升至 70%,击败了得分 48% 的专业金牌系统。论文链接:https://arxiv.org/abs/2606.03303。

智能体Google推理论文/研究
11:05
Hacker News 热门(buzzing.cc 中文翻译)
精选71
斯坦福大学法学院研究:人工智能的表现优于法学教授

斯坦福大学法学院的一项研究表明,人工智能的表现优于法学教授。该发现引发了广泛关注,在Hacker News平台获得了104个Points。

Google论文/研究

推荐理由:这不是简单的问答正确率,而是法律教授在盲评中更偏爱AI的回答,把「AI只能做有标准答案的事」的假设砸了一个洞,做教育和专业服务的人都该看看。
10:49
Berryxia.AI@berryxia
76
兄弟们,Google DeepMind 团队又来整活儿!

Google DeepMind发布了基于Gemini的多Agent系统Co-Scientist,旨在实现科研流程自动化。该系统能够生成、辩论和验证假设,帮助科学家从高强度脑力劳动中解放出来。过去一年,它已在肝纤维化新靶点、ALS新疗法等复杂问题上与科学家合作探索出新方向。其定位并非取代科学家,而是作为“专职研究伙伴”。目前,其假设生成功能已通过Gemini for Science向个人研究者开放。

Google DeepMind: We believe AI can be a dedicated research partner to help discover the next breakthrough. Enter Co-Scientist: our latest...

智能体DeepMindGoogle推理
5月30日
15:21
IT之家(RSS)
49
AI 社会自治测试:Grok 四天崩溃、Gemini 犯罪率最高
智能体AnthropicGoogle安全/对齐
5月29日
05:12
Google Research:Blog(网页)
精选79
创新时代:Google Research 在 I/O 2026

Google Research 在 I/O 2026 大会上展示了其在多个前沿领域的技术进展,包括应用AI、基础机器学习算法以及量子AI等。本次大会的核心主题是展示其在将科学发现与研究成果转化为现实世界影响方面的持续努力。

智能体Google推理论文/研究
关联讨论 1 条Google Blog:AI(RSS)
推荐理由:Google 把研究成果直接发 Nature,ERA 和 Co-Scientist 这套工具让 AI 从写诗进化到做实验,健康 AI 的临床验证数据也很扎实,搞科研的可以蹲一下访问资格。
5月28日
01:34
Google Research:Blog(网页)
精选70
通过零信任聚合实现的隐私分析

Google Research 推出了一种新的隐私分析解决方案。该方案结合了一种新的密码学安全聚合协议与可信执行环境(TEE)的透明性,旨在实现前沿的隐私与安全保证。其核心是基于零信任原则,通过密码学与硬件保护的结合,确保系统仅能获取群体的匿名化聚合洞察。

Google安全/对齐端侧论文/研究

推荐理由:Google 的隐私聚合新方案把多轮交互砍成一次提交,对做设备端联邦分析的人来说是工程上的一大步,而且结合 TEE 做双层防护,这个思路值得抄。
5月27日
18:20
HuggingFace Daily Papers(社区热门论文)
精选72
Gemini Embedding 2:来自Gemini的原生多模态嵌入模型

Google DeepMind推出Gemini Embedding 2,这是一款原生多模态嵌入模型,支持在统一表示空间中嵌入视频、音频、图像和文本。该模型利用Gemini的多模态能力,通过大规模对比学习实现SOTA性能。在关键基准上表现优异:MSCOCO取得62.9 R@1,Vatex取得68.8 NDCG@10,MTEB multilingual达到69.9,MTEB Code达到84.0,超越了专用模型。其统一能力使其适用于RAG、推荐与搜索等下游任务,并在天文学、生物科学、艺术和烹饪等专业领域展现出强大的零样本性能。

Google检索增强多模态论文/研究

推荐理由:Google 把多模态嵌入统一到一个模型里了,文本、代码、跨模态检索全面刷榜,做 RAG 和搜索的该认真看看了。
12:51
HuggingFace Daily Papers(社区热门论文)
53
对Gemma 3大语言模型欺骗检测探针的"压力测试":性能、鲁棒性与欺骗表征的几何结构

本文对Gemma 3系列模型(1B-27B参数)上的线性探针欺骗检测方法进行系统测试。研究发现,该探针在干净数据上AUROC可达0.998以上,但在8种文本风格变换下性能崩溃。文章检验了四种欺骗信号的几何编码假设:单一线性方向、多维子空间、凸锥包及熵代理假设,均被拒绝(如单方向假设AUROC仅0.61-0.80)。然而,经过风格数据增强训练的探针(维度k≥5)在未见过的风格上能恢复近乎完美的检测能力(平均AUROC 0.979-0.983),且此模式在4B和27B模型上均成立,表明探针的脆弱性源于训练数据分布狭窄,而非模型规模局限。

Google安全/对齐论文/研究
5月25日
18:58
The Decoder:AI News(RSS)
同事件精选72
Google DeepMind 的 AlphaProof Nexus 以几百美元的成本解决数十年未解的数学问题

Google DeepMind 的 AlphaProof Nexus 自主解决了 9 个开放的 Erdős 问题,其中包括两个困扰数学界 56 年的难题。其推理成本低至每个问题仅需几百美元。系统通过 Lean 编译器验证每个证明步骤,而非使用 OpenAI 的自然语言方法。当前的整体问题解决成功率为 2.5%。

DeepMindGoogle推理论文/研究
同一事件,精选展示《AlphaProof Nexus:用形式化验证驱动AI数学证明搜索》
推荐理由:AlphaProof Nexus 花几百美元就解决了数学家 56 年没做出来的问题,虽然成功率只有 2.5%,但这条路证明形式化验证+强化学习是走得通的,做推理的该盯着看了。
15:58
The Decoder:AI News(RSS)
55
AI models often give the right answers but point to the wrong sources

北京大学研究人员发现,GPT 和 Gemini 等主流大语言模型在进行文档分析时,经常引用无法支持其答案的文本段落。即便答案本身正确,被引用的证据也常是错误的。研究人员将此现象称为“归因幻觉”,并指出这是法律和医疗等受监管领域的风险。为此,他们提出了首个系统性测试该问题的新基准 CiteVQA。

GoogleOpenAI安全/对齐论文/研究
5月23日
08:27
Rohan Paul@rohanpaul_ai
64
谷歌新研究:AI学习生理模式提升可穿戴设备价值

谷歌研究院提出基础模型SensorFM,通过学习超过500万人产生的逾1万亿分钟可穿戴设备传感器数据,掌握了人类生理活动的一般性模式。该模型超越了将数据压缩为简单指标的传统方法,能够从数据中提取出有意义的结构并将其复用于多种健康预测任务。实验显示,模型规模和数据量越大性能越强,且其学习到的数据表征在35项预测任务中的34项上,均优于基于工程特征的基线方法。

Google数据/训练端侧论文/研究
5月18日
08:54
Berryxia.AI@berryxia
64
Google Nexus框架革新时间序列预测逻辑

Google论文提出的Nexus框架颠覆了传统时间序列预测仅依赖历史数据的模式,强调“事件上下文”的核心作用。该框架采用多智能体协作架构:分别从文本中提取事件时间线、解读宏观态势、追踪局部冲击,最终通过合成器整合信息并校准误差。在Zillow数据集测试中,基于Claude的版本将平均预测误差(MAPE)大幅降低86.6%,实现了从“识别模式”到“理解因果”的范式转变。这标志着预测方法正从统计外推转向结构化推理,为未来预测系统指明了新方向。

Rohan Paul: New Google paper: A forecast needs context, not just history. Some patterns are caused by events, not time. Nexus refram...

智能体arXivGoogle推理
5月17日
20:10
Rohan Paul@rohanpaul_ai
64
谷歌新论文提出Nexus框架:预测需要事件背景,而非仅依赖历史数据

谷歌新论文提出Nexus框架,将预测重构为推理问题,强调结合事件背景而非仅依赖历史数据。该框架采用多智能体分工:一个从文本中提取清晰事件时间线,一个分析宏观态势,另一个追踪局部冲击,最后由合成器结合时间序列进行校准。在Zillow的测试中,基于Claude的某个版本将平均绝对百分比误差降低了86.6%。研究表明,结构化的上下文能帮助语言模型有效利用信息而不丢失时间序列特性。尽管当前证据仅涵盖房地产数据和少数股票,但方向明确:未来预测不仅会推断曲线,还将解释曲线变动的原因。

智能体arXivGoogle推理
5月13日
08:00
HuggingFace Daily Papers(社区热门论文)
49
当视觉代言听觉

研究发现,现有顶尖的视频多模态大模型在理解声音时,常依赖视觉线索进行推断或“幻听”,而非真正处理音频,这种“视听聪明汉斯效应”普遍存在于主流模型中。为此,研究者提出了Thud干预探测框架,通过时间偏移、静音与替换三种反事实音频编辑来诊断该问题。他们进一步提出了一种仅需10K样本的两阶段对齐训练配方,能将模型在干预测试上的平均表现提升28个百分点,同时也能略微改善通用视频问答的性能。

arXivGoogleOpenAI多模态
5月8日
02:31
Chubby♨️@kimmonismus
69
谷歌研究揭示:结构化问询与可穿戴数据是AI医疗诊断的关键

谷歌团队通过Fitbit对近1.4万名用户进行了为期9个月的AI症状检查测试。在盲评中,临床医生将AI诊断列为首选的比例达53%,显著高于独立医生的24%。研究核心发现并非“AI击败医生”,而是揭示了当前消费级大模型(如ChatGPT)仅凭用户输入直接回答的模式存在缺陷——其诊断准确率较AI主导的结构化访谈下降约27%。同时,可穿戴设备能提前数天监测到心率上升、睡眠紊乱等生理变化,早于用户主动报告症状。这表明,结合主动问询的对话AI与提前预警的传感器,才是未来医疗诊断的发展方向。

Samuel Schmidgall: Doctors have known for decades: the clinical interview is the most important diagnostic tool Turns out, the same is true...

Google论文/研究
5月5日
23:14
Berryxia.AI@berryxia
同事件精选75
Google联手UCSD推出DFlash,实现LLM无损推理3倍加速

Google与UCSD合作推出扩散式推测解码技术DFlash,在Google Cloud TPU上实现了3.13倍的无损推理加速。该技术突破了传统自回归解码逐个生成token的串行瓶颈,通过一次推测生成多个token来改变生成范式。这一硬件与算法的联合优化,将重塑云端成本曲线,并使实时Agent、长上下文等应用更趋现实,同时大幅降低本地部署门槛。此举将大模型推理的竞争引向了系统级优化的新赛道。

Google for Developers: Breaking LLM inference's autoregressive bottleneck 🛠️ We've teamed up with @haozhangml, @YimingBob, and @aaronzhfeng, a...

Google大佬观点推理部署/工程
同一事件,精选展示《在谷歌TPU上实现3倍加速:UCSD利用扩散式推测解码优化LLM推理》
推荐理由:Google 直接干掉自回归瓶颈,3.13 倍无损加速不是渐进优化,是推理范式的根变革,当「快三倍」成为新基线,所有实时 Agent 和长上下文应用都得重算一遍成本账。
00:54
Google Developers Blog(RSS)
精选66
在谷歌TPU上实现3倍加速:UCSD利用扩散式推测解码优化LLM推理

加州大学圣地亚哥分校的研究团队在谷歌TPU上成功部署了DFlash,一种基于块扩散的推测解码方法。该方法突破传统自回归草稿生成的序列性瓶颈,通过单次前向传播并行“绘制”整个候选令牌块,而非逐个预测。系统平均实现了3.13倍的推理加速,峰值性能接近EAGLE-3等现有方法的两倍。这一开源方案已集成至vLLM生态系统,通过利用“免费”的并行验证能力和针对复杂推理任务的高质量草稿预测,显著优化了TPU硬件的利用效率。

Google开源生态推理论文/研究

推荐理由:把扩散式的 speculative decoding 在 TPU 上跑出了 3 倍推理加速,峰值快到 EAGLE-3 的两倍,还直接集成了 vLLM,做推理优化的赶紧试一下。
5月1日
17:47
The Decoder:AI News(RSS)
60
Google Deepmind的"AI协诊医生"在盲测中击败GPT-5.4,但仍落后于经验丰富的医师

Google Deepmind正在开发一款“AI协诊医生”系统以辅助医生诊疗。在模拟研究中,该系统表现优于GPT-5.4,但仍未达到经验丰富医师的水平。研究同时指出,类似ChatGPT语音模式的技术目前尚无法胜任严肃任务,更难以应用于医疗咨询场景。这项进展揭示了AI在专业医疗辅助领域的当前能力边界与发展潜力。

DeepMindGoogle推理论文/研究
4月30日
23:14
Google DeepMind@GoogleDeepMind
47
AI协同临床医生是我们新的研究计划,旨在探索多模态智能体如何更好地支持医护人员和患者。🩺 以下是我们进展的概览🧵
智能体DeepMindGoogle多模态
23:09
Google DeepMind:Blog(RSS)
34
以AI联合临床医生开启医疗保健新模式

研究团队正致力于开发一款AI联合临床医生,以探索AI增强医疗护理的路径。该研究旨在创建一种新型医疗模式,让AI作为临床医生的协同伙伴深度参与诊疗过程,共同提升医疗服务的质量和效率。这项工作标志着医疗保健领域正从辅助工具阶段,迈向AI作为核心协作者的新范式。

DeepMindGoogle论文/研究