AIHOT

5月4日

23:59

IT之家（RSS）

精选71

Claude Token 榜：迪士尼「榜一大哥」9 天 46 万次，Meta 月烧 60 万亿

迪士尼内部上线AI使用看板，追踪员工调用Claude的频率和token消耗。数据显示，一名员工在9个工作日内调用Claude约46万次，平均每1.7秒一次。与此同时，迪士尼正裁员约1000人。硅谷正流行“tokenmaxxing”文化，比拼AI token消耗量。Meta内部统计显示，其8.5万名员工在30天内消耗了60万亿token，价值约900亿美元；Uber的年度34亿美元AI预算在4个月内耗尽。报告显示，Claude用户中非程序员用途已超半数。

Anthropic数据/训练现象/趋势

推荐理由：迪士尼搞AI排行榜，Meta月烧60万亿token，这不是段子，是AI真实渗透的活证据。从律师到全职妈妈，所有人都开始用Claude打工，这股浪潮比任何财报都真实。

23:58

Epoch AI@EpochAIResearch

探讨AI基准测试的困境与未来方向

针对“AI基准测试是否已失效”的悲观论调，讨论者进行了反驳，并深入探讨下一代AI基准测试的可能形态。核心议题包括基准测试开发的成本与收益、可扩展基准（如MirrorCode）的构建、AI技术对基准开发本身的加速作用，以及当前基准测试与现实应用能力之间存在的差距。对话还触及了构建通用人工智能（AGI）基准的可行性，并展望了超越自动化评分的更全面评估方法。

数据/训练评测/基准

23:56

Nathan Lambert：Interconnects（RSS）

蒸馏恐慌

AI领域出现“蒸馏攻击”现象，即利用GPT-4等闭源模型的输出训练更小的开源模型。这引发了关于知识产权与创新平衡的激烈争论。支持者视其为技术民主化途径，反对者则谴责其侵犯版权并可能损害模型质量。目前，部分开源模型性能已快速逼近顶级闭源模型，迫使行业重新审视数据使用边界与合规框架。

大佬观点数据/训练现象/趋势

关联讨论 1 条

23:56

IT之家（RSS）

倍耐力把传感器塞进轮胎，力图让车辆知道自身精确位置、应对周边环境

倍耐力与瑞典科技公司Univrses合作，持有其30%股权，以强化Cyber Tyre智能轮胎技术。该系统将传感器集成于轮胎内部，结合外部摄像头和AI计算机视觉，使车辆能精确感知自身位置并实时应对环境变化。2025年，双方在意大利普利亚大区启动道路监测试点，利用轮胎数据与视觉技术构建持续更新的道路地图。该技术仍处概念验证阶段，但已进入深入开发，未来轮胎有望成为互联出行中的重要数据源。

端侧行业动态

23:53

Simon Willison 博客

精选75

Redis 数组类型交互式体验平台上线

Redis创始人Salvatore Sanfilippo提交了为Redis新增数组数据类型的PR，引入了包括ARCOUNT、ARDEL、ARGREP等在内的18个新命令。其中最引人注目的是ARGREP命令，它利用新集成的TRE正则表达式库，可直接在服务器端对数组值进行正则搜索。目前该功能已在一个分支中实现，开发者Simon Willison借助Claude Code构建了一个交互式在线沙盒，通过运行在浏览器中的WASM版Redis子集，供用户体验这些新命令。Salvatore还撰文详细介绍了在AI辅助下开发此功能的历程。

智能体开源生态教程/实践

推荐理由：Redis 加数组类型可能改变很多缓存设计，Simon 这个 WASM playground 是把 PR 变成可试产品的最快路径，后端同学可以直接上手体会 ARGREP 的快乐。

23:53

swyx 🇸🇬@swyx

演讲者基于长期支持，特邀Patrick Debois在欧洲会议进行主题演讲。Debois指出，当前AI编程中语境是工程化最不足的层面。他认为，如果智能体由提示、规则和记忆驱动，那么语境理应获得与代码同等的工程严谨性。该观点呼应了AI工程师社区对语境层重要性的讨论。

智能体大佬观点编码

23:52

Berryxia.AI@berryxia

DeepMind CEO将AGI实现时间表明确设定于2030年

DeepMind CEO Demis Hassabis在AI Ascent 2026上明确将AGI实现时间定于2030年，并指出AI将极大加速药物发现、材料科学等“慢科学”领域，把研发周期从数年压缩至数天。他强调，未来1-2年是关键拐点，真正改变世界的将是AI推动科学迭代速度的指数级加速，而非AGI降临的瞬间。

DeepMind大佬观点现象/趋势

23:45

Chubby♨️@kimmonismus

初创公司Video Rebirth的文本生成视频模型Bach-1.0 Preview在Artificial Analysis的全球AI视频排行榜上首次亮相即位列第六。其性能与Vidu Q3 Pro、Kling 3.0 Omni 1080p （Pro）及grok-imagine-video等知名模型相当。该模型计划于五月下旬广泛发布。

模型发布视频评测/基准

23:30

Google Blog：AI（RSS）

精选71

通过 Gemini API 中的 Webhooks 减少长时任务的摩擦与延迟

Gemini API 引入了事件驱动的 Webhook 功能，这是一种基于推送的通知系统。它旨在消除低效的轮询需求，为长时运行的任务（如文件处理或复杂推理）提供更优的解决方案。当任务完成时，系统会自动将结果推送到用户指定的端点，从而显著降低延迟并减少资源消耗，提升开发效率与响应速度。

Google产品更新部署/工程

关联讨论 1 条

推荐理由：Gemini API 终于补上 Webhooks 这块拼图，长任务不用再轮询等待，对做自动化流程和 Agent 的开发者是实打实的效率提升。

23:28

Chubby♨️@kimmonismus

Anthropic的Jack Clarke现在认为，递归自我改进有60%的概率在2028年底前发生。

Anthropic大佬观点

23:23

Hacker News 热门（buzzing.cc 中文翻译）

精选72

Show HN： Ableton Live MCP

这是一个名为 Ableton Live MCP 的开源项目，它通过模型上下文协议（MCP）将 Ableton Live 音乐制作软件与大型语言模型（如 GPT、Claude）连接起来。该项目在 Hacker News 上获得了 100 点热度，其核心功能是让 LLM 能够读取和控制 Ableton Live 的会话数据，从而可能实现基于自然语言指令的音乐创作与自动化流程。

MCP/工具开源/仓库

推荐理由：给 Ableton Live 接上了 LLM 的大脑，让 AI 能直接操作 DAW，虽然还只是原型，但已经能看到未来音乐制作的人机协作模式。做音频 Agent 的可以拿来玩。

23:23

阿绎 AYi@AYi_AInotes

精选71

一个100行的文件，干翻了所有LLM编码prompt

一个名为CLAUDE.md的百行文件在GitHub上迅速走红，一周内获得超4.4万星。它没有依赖和配置，仅将Andrej Karpathy总结的LLM编码坏习惯浓缩为四条核心规则：先思考再编码、简约至上、手术式修改、目标驱动执行。开发者只需将其置于项目根目录，Claude Code等工具便能自动读取并遵循，从而显著提升代码质量，减少返工和token浪费。此举被视为对当前需要反复纠正AI模型的开发体验的集体反叛，以零成本方案为AI编码设定明确规范。

MCP/工具教程/实践编码

推荐理由：一个100行文件干翻一堆Agent框架，本质是开发者受够了哄模型，不如直接定规矩。如果你也用Claude Code，花一分钟扔进去，Token浪费砍半不是夸张。

23:11

Sam Altman@sama

我们将为所有申请参加GPT-5.5派对但因名额限制未能到场的朋友准备一份心意。希望你们喜欢！

OpenAI行业动态

23:00

GitHub Blog

立即注册 OpenClaw： After Hours @ GitHub

OpenClaw 社区将于微软 Build 2026 大会期间，在 GitHub 总部举办线下聚会。活动将包含项目演示和交流环节。参与者可选择亲临现场，或通过 Twitch 平台观看线上直播。

GitHub行业动态

22:58

elvis@omarsar0

Meta FAIR开发的Autodata是一个能自主构建高质量训练与评估数据的代理系统。其核心在于"代理式自我指导"循环：编排器LLM指导挑战者代理基于领域文档生成问题，由弱、强解算器尝试解答，法官评分后分析失败并循环优化，从而产出能有效区分模型能力的挑战性数据。在CS研究QA任务中，该方法产生了34个百分点的性能差距，远超标准方法的1.9点。系统还具备元优化能力，通过外循环调整指令，将验证通过率从12.8%提升至42.4%。研究处理了超万篇论文，产出2，117个优质QA对，通过增加推理计算使数据更具挑战性，从而提升下游模型性能。

智能体Meta数据/训练论文/研究

22:40

Rohan Paul@rohanpaul_ai

路透：AI芯片制造商Cerebras瞄准35亿美元美国IPO，每股定价115-125美元

AI芯片制造商Cerebras正计划在美国进行IPO，目标融资高达35亿美元，每股定价区间为115至125美元。该公司采用独特的晶圆级芯片技术，将几乎整个硅晶圆集成为一个巨型处理器，旨在通过将海量计算和内存置于单一硅片上，减少芯片间数据移动的瓶颈，从而为特定大型AI工作负载加速训练和推理过程。其技术路线与依赖多GPU协作、受限于数据移动速度的传统AI硬件形成对比。此次IPO是公司在撤回先前尝试后的新一轮努力，其竞争对手包括英伟达和AMD，后者同时也是其支持者。

行业动态部署/工程

22:37

Rohan Paul@rohanpaul_ai

精选71

OpenAI启动百亿美元合资公司"部署公司"加速企业AI应用

OpenAI成立了名为“部署公司”的百亿美元合资公司，筹集超40亿美元，旨在帮助企业克服AI部署障碍。核心观点是，当前企业采用AI的主要瓶颈已非模型质量，而是缺乏整合团队、工作流程、数据访问和安全规则的能力。该公司通过联合TPG、Brookfield等私募股权投资者，打包软件、咨询和部署方案，直接触达超2000家投资组合公司，实现规模化分发。同时，Anthropic也正与Blackstone、Goldman Sachs等华尔街机构组建类似合资公司，为私募股权支持的企业部署Claude并重建工作流程。这标志着AI实验室的竞争焦点正从模型性能演示转向工业化部署速度与路径控制的争夺。

AnthropicOpenAI行业动态部署/工程

推荐理由：OpenAI和Anthropic几乎同时拉上黑石、高盛成立合资公司，把模型部署包装成服务卖给数千家企业。模型竞争正在降级，谁能最快把AI塞进真实业务流程才是下一阶段的王。

22:32

Gary Marcus：The Road to AI We Can Trust（RSS）

日益增长的 AI 抵制浪潮

由于您提供的正文内容仅为开篇句“Nobody should be surprised”，缺乏具体论述与事实细节，无法据此生成符合要求的摘要。摘要需要基于文章主体内容，提取如“发布了什么”、“具体变化”、“关键数据”等核心信息。建议提供完整的文章内容，以便撰写准确、信息量充足的摘要。

大佬观点现象/趋势

22:27

IT之家（RSS）

被"AI 教父"辛顿"判死刑"十年后，美国放射科医生平均年薪达 57.1 万美元

“AI教父”辛顿十年前预言AI将在5-10年内取代放射科医生，但现实恰恰相反。过去十年美国放射科医生数量增长约10%，目前仍供不应求，平均年薪高达57.1万美元。AI并未取代该职业，而是成为协作工具，帮助医生提升效率。同时，影像检查需求激增也增加了工作量。专家指出，AI自动化了流程化任务，但放射科医生将更多时间转向需要人性化沟通的临床工作，而共情、安慰等能力是AI无法替代的。这一案例表明，AI更可能改变而非消除复杂职业。

Anthropic现象/趋势

22:23

elvis@omarsar0

精选71

Sakana AI提出新型7B"指挥者"模型，通过协同多个智能体实现性能突破

Sakana AI在ICLR 2026上发表研究，提出一个仅70亿参数的“指挥者”模型。该模型不直接解决问题，而是通过强化学习训练，专注于为混合开源与闭源模型的工作者智能体设计通信拓扑结构，并为每个工作者生成精准指令以发挥其特长。经随机化智能体池训练后，它能在推理时适应任意智能体组合。其关键创新在于，当允许指挥模型将自己也选为工作者时，系统会形成递归拓扑，实现动态测试时扩展。该模型在GPQA-Diamond和LiveCodeBench上达到SOTA水平，在AIME25和GPQA-D上的性能比最佳单体工作者提升约3%，这相当于前沿模型一个代际的改进幅度，且增益完全来源于协同优化。

智能体arXivMCP/工具推理

推荐理由：Sakana AI 这篇 ICLR 论文把 Agent 之间的通信拓扑和提示词一起做成可训练的，协调本身变成模型，做多 Agent 系统的人真该重新想想架构了。