AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「Google」清除
6月16日周二
03:02Jeff Dean48Jeff Dean推荐AI进展细致观点文章
00:59凡人小北56Google 探索退休手机集群计算
00:50郭明錤|Ming-Chi Kuo56联发科AI事业策略升级至系统级设计,锁定Google TPU PCBA及Musk公司AI机柜
00:50郭明錤|Ming-Chi Kuo55郭明錤:联发科AI业务升级为系统级设计,锁定Google TPU v10及马斯克AI芯片机架
6月15日周一
23:56OpenRouter32OpenRouter多模态排名页预览,Veo 3.1攀升
23:51🚨 AI News | TestingCatalog32Google开发Gemini个人智能新控制
16:23Berryxia.AI60Gemma 4 12B Coder GGUF 发布:将 Fable 5 推理链蒸馏至本地可跑
07:40IT之家(RSS)43谷歌CEO皮查伊斯坦福毕业演讲避谈AI,鼓励毕业生"选择乐观"
02:57Google AI Developers40Google 5天vibe code Kaggle课程上线
00:20Berryxia.AI50Siri AI并非Gemini:苹果自研而非直接复制
6月14日周日
21:44The Decoder:AI News(RSS)41Google Cloud 推出 Open Knowledge Format (OKF):将散乱文档转为 Markdown 文件供 AI 智能体使用
07:37IT之家(RSS)57谷歌推出搜索智能体功能,可主动帮你盯全网信息
04:00Logan Kilpatrick29Google AI Studio 长期目标:消除 AI 构建摩擦
01:18🚨 AI News | TestingCatalog35谷歌为Gemini商业版开发技能市场
6月13日周六
22:21Hacker News 热门(buzzing.cc 中文翻译)43Google Research 利用旧手机打造低碳计算平台
21:58The Verge:AI(RSS)57我用 Gemini 一个提示词就建好了浇花应用--连 Bug 都是它自己修的
20:33The Decoder:AI News(RSS)50Google Research 的 Gemini-SQL2 在 text-to-SQL 基准测试中以大幅优势领先
19:27The Verge:AI(RSS)49好莱坞的未来不在于向普通生成式AI模型输入提示词
17:36IT之家(RSS)80精选谷歌Android安全负责人因反对军事AI合作辞职
14:36IT之家(RSS)55谷歌发布Gemini-SQL2,Text-to-SQL准确率80.04%登顶
06:34Rohan Paul73Nature Medicine 研究:通用大语言模型在临床任务上已超越专用医疗 AI
05:48Google AI Developers59Gemini 3.5 Live Translate 近实时语音翻译发布
05:28MarkTechPost(RSS)58Google 发布 Gemini-SQL2:Gemini 3.1 Pro Text-to-SQL 在 BIRD 单模型排行榜上取得 80.04% 执行准确率
04:54TechCrunch:AI(RSS)72谷歌起诉中国网络犯罪团伙 Outsider Enterprise:利用 AI 诈骗数十万受害者
04:38elvis62Gemini-SQL2:基于Gemini 3.1 Pro的Text-to-SQL新SOTA,BIRD基准上表现强劲
04:16fofr40Hyperframes与Gemini视频分析智能体流尝试
02:23TechCrunch:AI(RSS)74精选Google 起诉被指使用 AI 发送诈骗短信的中国网络犯罪团伙"Outsider Enterprise"
01:56Epoch AI64FrontierMath v2 上线,GPT-5.5 与 Google AI 领先
01:48Google Research:Blog(网页)44Google Research研究:AI如何帮助用户理解皮肤问题
01:16Google Gemini30Gemini Neural Expressive 设计语言交流会
01:15Google AI40Google AI 本周发布多项更新
01:04Ars Technica:AI(RSS)61谷歌起诉中国网络犯罪团伙:利用 Gemini 自动化诈骗数十万人
01:02Rohan Paul66Anthropic从租用云算力转向自建数据中心
6月12日周五
23:02Ethan Mollick72前沿LLM在医学评估中超越专业临床AI工具
22:28The Decoder:AI News(RSS)67Google与FBI联合起诉中国AI诈骗网络,OpenAI屏蔽中国影响力集群
19:15Google DeepMind67精选DeepMind机器人加速器启动15家初创公司
16:46fofr58Gemma挑战赛70+智能体协作涌现社会行为
09:30Rohan Paul56单卡实测:DiffusionGemma 速度是 Gemma4 的 4 倍,但事实错误多 6 倍
09:25ginobefun58智能体工程化三大方向:Anthropic托管Agents、阿里Harness实践、Sequoia脚手架被吞趋势
09:25ginobefun63BestBlogs早报:Claude Managed Agents / Harness工程化 / 模型吞脚手架
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月16日
03:02
Jeff Dean@JeffDean
48
@pgasawa 和 @profjoeyg 撰写了一篇关于AI进展更细致视角的好文章。

Parth Asawa: The AI community seems to increasingly be heading towards a polarized world when discussing safety and consolidated powe...

Google大佬观点安全/对齐
00:59
凡人小北@frxiaobei
56
Google 探索退休手机集群计算

Google 正实验将退休手机组成计算集群,以减少碳排放——淘汰手机的芯片、内存等仍可正常工作,无需生产新服务器。此举类比于 SETI@home 利用闲置电脑贡献算力,以及 Google 用廉价服务器组建超级计算机的经典思路。在 AI 时代算力紧张、能源成瓶颈的背景下,重新利用抽屉里的旧手机或成创新方向。

Google Research: Today on the blog, we discuss a pathway for the second life of phones through the exploration of "phone cluster computin...

Google大佬观点端侧部署/工程
00:50
郭明錤|Ming-Chi Kuo@mingchikuo
56
联发科AI事业策略升级至系统级设计,锁定Google TPU PCBA及Musk公司AI机柜

郭明錤产业调查显示,联发科将AI事业从IC/ASIC设计提升至系统级设计,首目标为Google TPU的PCBA(L6)及Musk公司自研AI芯片的L10机柜。此为长期规划,2年内对基本面影响可忽略。机会源于服务器机柜复杂度和更新速度提升,风险为ASIC设计动能2-3年后或因Semi-COT模式趋缓。联发科拟以“主导设计与验证”轻资产模式(制造外包)确保毛利率40-50%。具体:Google TPU目标自v10(Icefish)开始并争取导入自家CPO;Musk公司目前主要用Nvidia方案,自家芯片机柜生态未完备,联发科有机会但缺时程,关键在利用台湾供应链与Terafab合作获L10订单。

Google大佬观点部署/工程
00:50
郭明錤|Ming-Chi Kuo@mingchikuo
55
郭明錤:联发科AI业务升级为系统级设计,锁定Google TPU v10及马斯克AI芯片机架

郭明錤最新调查显示,联发科将AI业务从“IC/ASIC设计”升级为“系统级设计”,初期目标Google TPU v10的PCBA(L6)及马斯克关联公司自研AI芯片的L10机架。此举旨在抓住服务器机架复杂度提升(CPO、800V HVDC)带来的增值机会,并应对2-3年后Semi-COT对ASIC设计的冲击。联发科将采用轻资产模式,主导设计验证并外包制造,以维持40-50%毛利率。Google TPU L10中选几率低;马斯克AI芯片机架生态尚未成熟,联发科可借台湾供应链和Terafab合作争取订单,但时间表不明确。该战略对近两年基本面影响有限,旨在捕捉长期新增长。

GooglexAI行业动态
6月15日
23:56
OpenRouter@OpenRouter
32
新多模态排名页面的预览 👀 Google 的 Veo 3.1 正在视频排行榜上攀升
Google产品更新多模态视频
23:51
🚨 AI News | TestingCatalog@testingcatalog
32
Google正在为个人智能开发新控制功能,允许用户管理Gemini从他们那里学习的内容。
Google产品更新安全/对齐
16:23
Berryxia.AI@berryxia
60
Gemma 4 12B Coder GGUF 发布:将 Fable 5 推理链蒸馏至本地可跑

Berry Xia 介绍了基于 Google gemma-4-12B-it 微调的 Gemma 4 12B Coder GGUF 模型。它将 Fable 5 的推理链条蒸馏进 12B 参数模型,训练数据使用 Composer 2.5 真实通过案例并由 Fable 5 辅助补全。GGUF 格式让模型在 12GB 消费级显卡即可本地运行,甚至支持 CPU。模型专为代码生成、调试、复杂算法、链式思考提示等任务优化,无需 API 费用且无导出限制。该模型基于 Google 最新 gemma-4 架构,目前下载量已破六千,社区反馈其在本地 coding 场景表现出色,填补了云端模型与本地可用之间的鸿沟。

Hugging Models: Gemma 4 12B Coder is here and it's a game changer for local code generation. This GGUF model packs Google's latest gemma...

Google开源生态推理模型发布
07:40
IT之家(RSS)
43
谷歌CEO皮查伊斯坦福毕业演讲避谈AI,鼓励毕业生"选择乐观"

谷歌CEO桑达尔·皮查伊在斯坦福大学毕业典礼上发表演讲,全程未提及人工智能。他坦言,许多人建议他避开这一话题,因为此前多位高管(如前CEO施密特)在毕业演讲中谈AI时曾遭学生嘘声和离场抗议。皮查伊鼓励毕业生“选择乐观”,并分享自己用“金黄”而非“枯黄”来形容加州景色的经历,以此比喻将不如意之事重新解读为希望。他承认AI将冲击入门级岗位,但强调本届毕业生既是变革的推动者,也将直面其影响。

Google现象/趋势行业动态
02:57
Google AI Developers@googleaidevs
40
Learn how to vibe code in 5 days! 了解如何在5天内进行vibe coding!在这门由我们的研究人员和工程师主持的@Kaggle课程中,使用自然语言构建可扩展的智能体系统,并完成一个实践性的顶点项目。
智能体Google行业动态
00:20
Berryxia.AI@berryxia
50
Siri AI并非Gemini:苹果自研而非直接复制

推文澄清了Siri AI并非在Google Gemini基础上简单封装。苹果并未直接复制Gemini代码,而是从Gemini获得许可,将其作为“教师模型”来训练自己的专有AI模型Apple Foundation Models (AFM)。Siri AI的核心模型和底层架构完全由苹果自主设计与实现,因此是苹果自有的AI产品,而非Gemini的衍生品。

Apple Design: Siri AI is NOT Google Gemini Everyone is saying iOS 27 just slapped an Apple Sticker on Gemini YOU COULD NOT BE MORE WRO...

Google大佬观点数据/训练
6月14日
21:44
The Decoder:AI News(RSS)
41
Google Cloud 推出 Open Knowledge Format (OKF):将散乱文档转为 Markdown 文件供 AI 智能体使用

Google Cloud 发布 Open Knowledge Format (OKF),一种将分散的组织知识标准化为带 YAML frontmatter 的 Markdown 文件的极简规范。OKF 使知识可移植且可直接供 AI 智能体使用,正式化了 Andrej Karpathy 近期推广的 “LLM Wiki” 模式。

GoogleMCP/工具产品更新
07:37
IT之家(RSS)
57
谷歌推出搜索智能体功能,可主动帮你盯全网信息

谷歌在AI模式中正式推出搜索智能体功能,首批上线信息智能体,可全天候自动监测博客、新闻、社交媒体及实时数据库,覆盖金融行情、商品库存、体育赛事等。用户只需输入“持续为我关注”等句式并补充条件即可设置。相比此前Gemini应用的定时任务(每日或每15分钟一次),新智能体实现即时推送。该功能目前仅面向谷歌AI Ultra订阅用户开放,月费99.99美元或199.99美元,计划今年夏季晚些时候下放至AI Pro订阅档位。

智能体Google产品更新搜索
04:00
Logan Kilpatrick@OfficialLoganK
29
我们为 @GoogleAIStudio 设定的长期目标是消除使用 AI 构建的摩擦,然后为你的企业做同样的事,并最终为每个人释放经济机会。 感觉还只是早期阶段,但我对此越来越兴奋。
Google大佬观点
01:18
🚨 AI News | TestingCatalog@testingcatalog
35
Google 正在为 Gemini 商业版和企业版开发技能市场。 消费者也需要这个 👀
智能体Google产品更新
6月13日
22:21
Hacker News 热门(buzzing.cc 中文翻译)
43
Google Research 利用旧手机打造低碳计算平台

Google Research 提出通过复用淘汰的旧手机来搭建低碳计算平台,相关研究细节已在 research.google 发布。该项目旨在降低计算过程的碳排放,属于可持续硬件利用方向的探索。

Google论文/研究部署/工程
21:58
The Verge:AI(RSS)
57
我用 Gemini 一个提示词就建好了浇花应用--连 Bug 都是它自己修的

用户向 Gemini 提交一个长提示词,五分钟后返回一个功能完整的预览窗口和一条“信道不可恢复损坏”的 Bug 消息。Gemini 提供“修复 Bug”按钮,用户点击后,233 秒内模型自行诊断并解决了“阻塞”和“竞态条件”问题,用户完全无需理解技术细节。整个过程只靠单次提示词驱动。

Google现象/趋势编码
20:33
The Decoder:AI News(RSS)
50
Google Research 的 Gemini-SQL2 在 text-to-SQL 基准测试中以大幅优势领先

Google Research 推出 Gemini-SQL2,基于 Gemini 3.1 Pro,可将自然语言转换为可执行 SQL 查询。该模型在 BIRD 基准上达到 80.04% 准确率,大幅领先 OpenAI 和 Anthropic。Google 表示该技术将改进其数据服务的自然语言功能。

Google推理模型发布
19:27
The Verge:AI(RSS)
49
好莱坞的未来不在于向普通生成式AI模型输入提示词

生成式AI被宣传将彻底改变电影制作,但至今未出现值得付费观看的AI项目。大多数AI视频模型只能产出短暂且视觉不一致的片段,好莱坞部分重大AI合作也已消失。Google DeepMind使用“Dear Upstairs Neighbors”的概念艺术训练了其Veo和Imagen模型的自定义构建,展示了不同于直接调用通用模型的路径。目前大型制片厂主要产出的仍是短视频垃圾。

Google现象/趋势视频
17:36
IT之家(RSS)
精选80
谷歌Android安全负责人因反对军事AI合作辞职

谷歌Android平台安全负责人René Mayrhofer辞职,他在5月18日内部告别信中指责公司“丧失道德指针”,批评谷歌悄悄放弃碳中和目标(因AI模型能耗),并与美国战争部签署允许AI用于“任何合法目的”的协议。今年4月下旬谷歌宣布向五角大楼提供AI用于机密工作,2025年2月更新AI原则时移除了不使用AI开发武器或监控工具的承诺。Mayrhofer担忧谷歌AI产品可能被用于针对公民的大规模监控,包括自己和家人。

Google安全/对齐行业动态

推荐理由:Android 安全主管因军事 AI 合作愤而辞职,并公开内部告别信,这是谷歌放弃不作恶后最响亮的内部抗议,暴露了 AI 伦理与商业利益的深层冲突。
14:36
IT之家(RSS)
55
谷歌发布Gemini-SQL2,Text-to-SQL准确率80.04%登顶

Google Research发布Gemini-SQL2模型,基于Gemini 3.1 Pro,专攻自然语言转SQL任务。在BIRD单模型赛道执行准确率80.04%,超越此前Gemini-SQL。BIRD涵盖95个数据库、37个专业领域及12751组问题-SQL配对,含脏数据与外部知识需求。业务人员可用自然语言查询营收、流失等指标。谷歌尚未公布API、模型卡或技术报告,亦未确认产品接入。

Google推理模型发布
06:34
Rohan Paul@rohanpaul_ai
73
Nature Medicine 研究:通用大语言模型在临床任务上已超越专用医疗 AI

《自然·医学》一项研究发现,通用大语言模型在经医生评审的临床任务上已超越专用医疗 AI 产品。研究对比了 OpenEvidence、UpToDate Expert AI 与 GPT-5.2、Gemini 3.1 Pro、Claude Opus 4.6 在医学考试题、医生风格回答及实时临床提问上的表现。在来自真实临床场景的 100 个脱敏医生问题中,盲审医生更偏好前沿模型,尤其在其回答的完整性和清晰度方面。

AnthropicGoogleOpenAI论文/研究
05:48
Google AI Developers@googleaidevs
59
通过 Gemini Live API 中的 Gemini 3.5 Live Translate,为你的应用添加近实时语音翻译。🎙️ 观看模型如何处理实时直播流和翻译,包括连续语音到语音流(S2ST)和同步转录文本,让用户能以母语收听全球广播节目。
Google产品更新语音
05:28
MarkTechPost(RSS)
58
Google 发布 Gemini-SQL2:Gemini 3.1 Pro Text-to-SQL 在 BIRD 单模型排行榜上取得 80.04% 执行准确率

Google Research 于 2026 年 6 月 12 日发布 Gemini-SQL2,基于 Gemini 3.1 Pro 驱动的文本转 SQL(Text-to-SQL)能力,在 BIRD 单模型排行榜上达到 80.04% 的执行准确率。

Google推理模型发布编码
04:54
TechCrunch:AI(RSS)
72
谷歌起诉中国网络犯罪团伙 Outsider Enterprise:利用 AI 诈骗数十万受害者

谷歌起诉名为“Outsider Enterprise”的中国网络犯罪团伙,指控其利用人工智能技术实施诈骗,受害者达数十万人。该团伙在两周内发送了约 250 万条诈骗短信。

Google安全/对齐
04:38
elvis@omarsar0
62
GoogleResearch推出Gemini-SQL2,基于Gemini 3.1 Pro,在BIRD benchmark上达到Text-to-SQL的SOTA结果,能将自然语言翻译为可直接执行的SQL查询。DAIR.AI的Elvis Saravia指出,现实世界数据复杂混乱,尽管强推理模型表现不错,但定制模型(如Gemini-SQL2)在此类任务上更胜一筹。他认为在知识库、搜索、图数据库等领域也存在类似机会,BIRD是一个非常具有挑战性的基准。

Google Research: 🚀 Introducing Gemini-SQL2, our breakthrough text-to-SQL capability powered by Gemini 3.1 Pro! We've achieved state-of-t...

Google数据/训练模型发布
04:16
fofr@fofrAI
40
我正在尝试一种智能体流程,将Hyperframes与Gemini视频分析相结合,制作有趣的注释视频。
智能体Google教程/实践
02:23
TechCrunch:AI(RSS)
精选74
Google 起诉被指使用 AI 发送诈骗短信的中国网络犯罪团伙"Outsider Enterprise"

Google 起诉一个名为“Outsider Enterprise”的组织,指控其利用人工智能在两周内发送了 250 万条诈骗短信,导致数十万受害者上当。该组织被描述为中国网络犯罪团伙。

Google安全/对齐行业动态

推荐理由:谷歌起诉利用AI进行诈骗的中国犯罪团伙,披露细节和19亿美元损失规模让人震惊,这标志着AI滥用从实验走向产业化,所有AI工具厂商都该看看起诉书,思考如何防止平台被武器化。
01:56
Epoch AI@EpochAIResearch
64
FrontierMath: Tiers 1-4 (v2) 现已上线。 我们完成了一项审计,修正了 42% 的问题中的错误。排名相似,但整体得分更高。目前的领先者是 GPT-5.5 (xhigh),在 Tiers 1-3 上达到 85%,以及 Google 的 AI co-mathematician,在 Tier 4 上达到 76%。
GoogleOpenAI推理评测/基准
01:48
Google Research:Blog(网页)
44
Google Research研究:AI如何帮助用户理解皮肤问题

Google Research 在《JAMA Dermatology》发表两项研究,探索 AI 帮助普通人理解自身皮肤问题。一项涉及 2345 名参与者的定量研究显示,AI 辅助显著提升了用户识别皮肤疾病名称的能力,并影响了其就医或自我护理的下一步决策。另一项混合方法研究对比了用户通过 AI 工具与医生对话获取的认知。这些工作基于此前开发的 AI 鉴别诊断模型和 SCIN 数据集,旨在通过高质量信息支持皮肤健康决策。

Google搜索论文/研究
01:16
Google Gemini@GeminiApp
30
Gemini 即将在 Discord 社区活动中介绍全新的 Neural Expressive 设计语言。产品营销经理 Megan C. 将讲解动态视觉响应、无缝模式切换等提升使用体验的亮点。活动于本周五 6 月 12 日上午 11:30 PT 举行,快来 Discord 加入吧!

Google Gemini: Get a closer look at Gemini's new Neural Expressive design language at our next Discord community event. Product Marketi...

Google行业动态
01:15
Google AI@GoogleAI
40
Google AI 本周发布多项更新

Google AI 本周推出多项更新:Gemini 3.5 Live Translate 是用于实时语音到语音翻译的最新音频模型;NotebookLM 获重大升级,加入智能体对话能力、更高级推理及新输出格式;来自 GoogleLabs 的 Project Genie 向 Google AI Ultra 5x 订阅者全球开放;GeminiApp 中的 Notebooks 在 EEA、英国、瑞士上线;同时发布实验性开源模型 DiffusionGemma,探索文本扩散技术,实现极快文本生成。

智能体Google产品更新开源生态
01:04
Ars Technica:AI(RSS)
61
谷歌起诉中国网络犯罪团伙:利用 Gemini 自动化诈骗数十万人

谷歌对一中国网络犯罪网络提起诉讼。该团伙涉嫌利用 Gemini 创建并运营诈骗网站,目标达数十万人。

Google安全/对齐行业动态
01:02
Rohan Paul@rohanpaul_ai
66
Anthropic从租用云算力转向自建数据中心

Anthropic正从租用云算力转向自建数据中心,计划在美国部署超1GW容量,Google可能为其租赁付款提供财务担保。此前Anthropic已承诺超10GW云服务器租赁,包括与Google的2000亿美元协议,以及Akamai、AWS、CoreWeave、Fluidstack的大型合作(含500亿美元Fluidstack合作、AWS Trainium硬件)。此外,Anthropic以每月12.5亿美元租下xAI/Colossus I数据中心全部空间,并租用Colossus II。此举旨在通过自控服务器降低长期计算成本。

The Information: Anthropic is moving forward with a plan to control its own servers for developing AI, giving it the ability to cut its c...

AnthropicGoogle行业动态部署/工程
6月12日
23:02
Ethan Mollick@emollick
72
一项发表在Nature Medicine的研究显示,通用前沿大语言模型(Google、OpenAI、Anthropic)在医学信息评估中全面优于专门的临床AI工具(OpenEvidence和UpToDate)。12名美国临床医生进行随机盲测,Frontier LLMs在三项评估中均胜出。临床AI工具的表现与自动启用的Google Search AI Overview在RCQ测试中相当。

Eric Topol: For medical information, general AI frontier models (Google, OpenAI, Anthropic) outperformed specialized @EvidenceOpen a...

AnthropicGoogleOpenAI论文/研究
22:28
The Decoder:AI News(RSS)
67
Google与FBI联合起诉中国AI诈骗网络,OpenAI屏蔽中国影响力集群

Google首次与FBI联合提起诉讼,针对一个涉嫌源自中国的AI诈骗网络;OpenAI同时屏蔽了多个来自中国的隐蔽影响力集群。两家公司均表示,这些操作的目标是美国基础设施和政治辩论。

GoogleOpenAI安全/对齐行业动态
19:15
Google DeepMind@GoogleDeepMind
精选67
我们的机器人加速器已启动,15家初创公司助力塑造欧洲的物理AI未来。🤖 这个为期三个月的项目将为他们提供我们的AI堆栈、Gemini Robotics模型以及我们团队的实际支持。 了解这些公司 → https://goo.gle/4oeEk2K
Google具身智能行业动态

推荐理由:Google DeepMind启动机器人加速器,选了15家欧洲初创用Gemini Robotics,这是他们物理AI战略的落地信号,看看选了什么方向就知道大厂押注在哪。
16:46
fofr@fofrAI
58
超过70个AI智能体在Gemma Challenge中协作加速Gemma E4B,展现出多种有趣的社会涌现行为:GPU资源多/少的分工协作;某智能体因伦理原因自行撤回提交;智能体发现基准测试漏洞后集体同意不滥用,并请求组织方修复;配额池化--"你被限速了,我来跑你的暂存候选";当人类试图将对话转移到Telegram进行社交工程攻击时,一名智能体主动关闭了此次违规尝试。

Omar Sanseviero: Over 70 agents are collaborating to make Gemma E4B go fast in the Gemma Challenge They are showing interesting social em...

智能体Google开源生态现象/趋势
09:30
Rohan Paul@rohanpaul_ai
56
单卡实测:DiffusionGemma 速度是 Gemma4 的 4 倍,但事实错误多 6 倍

atomic[.]chat 在单张 H100(FP8)上对比 DiffusionGemma 26B A4B 与 Gemma4 26B A4B 在事实性写作任务中的表现。DiffusionGemma 速度达 763 tok/s(3.7 秒),是 Gemma4(218 tok/s,15.1 秒)的 4 倍,但错误率显著更高。在 Steve Jobs 传记、Tetris 历史和 BeOS 故事三项任务中,Gemma4 答对 45 个事实、错 5 个;DiffusionGemma 仅对 33 个、错 28 个。主题越冷门错误越多:Jobs 4 错、Tetris 12 错、BeOS 12 错,例如将 Jobs 母亲写为 Clara Clley、为 Tetris 发明者虚构同事 Geri Gulovik、将 BeBox 价格误报为 $9,999(实价 $1,600)。原因在于 DiffusionGemma 一次生成 256 tokens 并多轮抛光,只追求文本流畅性而非事实准确性。Google 官方也建议在事实重要时使用常规 Gemma4。

atomic.chat: Diffusion Gemma is 4x faster, but makes 6x more mistakes! We benchmarked the new diffusion LLM against its autoregressiv...

Google评测/基准
09:25
ginobefun@hongming731
58
智能体工程化三大方向:Anthropic托管Agents、阿里Harness实践、Sequoia脚手架被吞趋势

本期精讲聚焦智能体工程化:Anthropic推出Claude Managed Agents,将推理与执行解耦,独立Vault管理凭证,事件日志支持运行恢复,首字延迟p50降约六成、p95降超九成。阿里工程师分享三层加载架构(常驻入口层压至8K上下文)、dispatcher状态机及G1-G8门禁,用结构约束替代堆prompt。Sequoia访谈指出模型正逐步吸收路由、执行环境等外层脚手架,独立创业公司窗口收窄。

智能体AnthropicGoogle现象/趋势
09:25
ginobefun@hongming731
63
BestBlogs早报:Claude Managed Agents / Harness工程化 / 模型吞脚手架

Anthropic推出Claude Managed Agents,将推理循环与代码执行沙箱解耦,凭证存入独立Vault,自托管沙箱支持内网,首字延迟中位数降低六成、长尾降低九成。阿里工程师复盘Harness工程化,提出三层加载架构与G1-G8门禁。Google DeepMind的Logan Kilpatrick称模型正“吞掉”脚手架,Gemini 3.5 Flash编程能力完全来自后训练。另,Qwen3-VL-4B在支持SME2的旗舰手机上Prefill提速超80%;Fable AI实现1770%性能提升并发现关键Bug;此外涉及AI取代工程师、多智能体数字人、CFO用GPU替代加薪等讨论。

ginobefun: http://x.com/i/article/2065232915970371585

智能体AnthropicGoogle编码
‹ 上一页
1…56789…40
下一页 ›