H100 ornn index spot prices are falling, now at $2.42 per hour, roughly 40% below the May peak. The ecosystem is concerned that this is a sign that compute demand and by extension the appetite for AI is waning. (1/5)🧵

译H100 ornn 指数现货价格正在下跌，目前为每小时 2.42 美元，比 5 月峰值低约 40%。生态系统担忧这是计算需求以及由此产生的 AI 兴趣减弱的迹象。(1/5)🧵

AYi@AYi_AInotes · 7天前21

内容行业的底裤，被彻底扒掉了。输入一个产品网址。一键生成上千条病毒式短视频。文案，配乐，排期发布，全自动搞定。以后拼的再也不是剪辑和文案能力，看谁的产品更能打。

meng shao@shao__meng · 7天前62

OpenAI 的工作正被 Agent (Codex) 重塑，且已经覆盖每一个部门，不止研发团队！来自 OpenAI 官方博客，OpenAI 用 Codex 的一整年使用数据，证明：知识工作的基本单位，正从「一问一答」转向「委托长周期任务」，Codex 就是这个答案！ https://openai.com/index/how-agents-are-transforming-work/ # 四条实证结论 1. 任务变长、变难 · 约 24% 的 Codex 请求，对应人类需 1 小时以上的工作 · 到 2026 年 5 月（个体用户样本）： · 80.6% 至少有一次 ≥30 分钟任务 · 70.2% ≥1 小时 · 25.6% ≥8 小时 · 内部重度用户：P99 用户单日可并行跑 60+ 小时 agent 运行时长（多 agent 并发） 2. 从 ChatGPT 到 Codex 的结构性迁移 OpenAI 内部变化最剧烈： · 2025 年 8 月前：员工 token 中 Codex 占比 <10% · 2026 年 6 月：99.8% 的 output token 来自 Codex 部门迁移节奏： · 工程 2025 年 12 月率先过半 · 法务、财务、招聘约 2026 年 4 月快速 crossover · 工程师今日 99% token 在 Codex；律师/招聘 85%+ 外部用户分化明显：群体 | Codex 占 output token 份额 · OpenAI 员工 | 99.8% · 组织用户 | 63.3% · 个人用户 | 16.5% 3. 非开发者增长最快自 2025 年 8 月以来，非开发者用户增长： · 个人：137 倍 · 组织：189 倍 · OpenAI 内部：12 倍（基数已高） H1 2026 活跃用户整体 5 倍以上，增量主要来自开发者以外人群。 4. 岗位边界被模糊 · 工程/研发：仍以编码为主 · 财务、市场、运营：以知识工作为主 · 但业务职能员工用 Codex 产出的工作中，超过 1/4 是工程/编码类（自动化、数据处理、调试等） Agent 降低「跨界执行」成本——非技术人员也能做原本需工程支持的事。总结当 Agent (Codex) 足够好用且组织摩擦足够低时，人们会把 AI 从「顾问」当成「劳动力」——委托更长、更难、跨岗位的任务，并并行编排多个 Agent；ChatGPT 式聊天在工作场景中被 Codex 快速替代。

译OpenAI 发布 Codex 整年使用数据：约 24% 请求对应人类需 1 小时以上工作；到 2026 年 5 月，80.6% 个体用户至少有一次 ≥30 分钟任务，25.6% ≥8 小时。内部 Codex token 占比从 <10%（2025 年 8 月前）激增至 99.8%（2026 年 6 月），工程率先过半，法务、财务、招聘在 2026 年 4 月跨越。非开发者用户自 2025 年 8 月增长 137 倍（个人）和 189 倍（组织），H1 2026 活跃用户整体 5 倍以上，增量主要来自非开发者。业务职能员工用 Codex 产出超 1/4 为编码类。Agent 降低跨界执行成本，ChatGPT 式聊天在工作场景中被快速替代。

Rohan Paul@rohanpaul_ai · 7天前82

This is a brilliant report. The State of the AI Economy by @exponentialview - $110B real AI revenue over 12 months, after removing double-counting. so $1 spent on Claude is counted once, even if part of it later flows to Amazon or another infrastructure provider. - $175B current annualized run rate, showing fast acceleration. Measured by end-customer spend, not supply-chain pass-through revenue. Excludes China, internal AI savings, ad uplift, consulting, and systems integration. - Growth running roughly 3x faster than mobile or internet adoption waves. - The pace of revenue formation has sharply accelerated. New $1B revenue now arrives in under 2 days, versus 180 days in 2023. - Enterprise AI has moved beyond pilots, but deep company-wide rollout is still early. - AI earnings-call mentions reached 31% of tracked S&P 500 firms. - Only 20% of tracked firms made quantified AI impact claims. - Hyperscaler AI revenue roughly covers AI infrastructure depreciation for now. GPU economics depend heavily on 6-year compute life assumptions. Other AI infrastructure gets modeled over 14 years. - Token price cuts do not automatically reduce revenue. - Every 10% token price cut drives 12-18% more token usage. - AI demand looks price elastic, meaning cheaper AI expands usage faster than prices fall. - Power availability and data-center costs remain major limits on future scaling.

译报告基于去重后的消费端AI支出统计，过去12个月实际AI营收达1100亿美元，年化运行率超1750亿美元，增长速度约为移动/互联网普及浪潮的3倍。营收形成速度急剧加快：2023年新增10亿美元收入需180天，现缩短至不足2天。企业AI已脱离试点阶段，但全面推广仍处早期。31%的标普500公司在财报电话会提及AI，仅20%量化影响。Token降价每10%刺激12-18%用量增长，需求价格弹性强。超大规模云厂商AI收入目前大致覆盖基础设施折旧，GPU经济效益依赖6年计算寿命假设。电力供应和数据中心成本仍是未来扩展主要瓶颈。

ginobefun@hongming731 · 7天前45

http://x.com/i/article/2070282892081782784 # BestBlogs 早报 · 06-26｜Dropbox DSPy 评测优化、Cloudflare Workflows Saga 回滚与出海 C-Corp 架构准备在线阅读本期早报 BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容，如果你希望它基于你的兴趣和阅读习惯整理，可以体验「我的早报」。 ## 导语今天早报的内容跨度较大，整体节奏偏轻。三篇精讲涵盖三个截然不同的场景：Dropbox 技术团队用 DSPy 框架构建 Agent 评测与提示词优化闭环的工程实践；Cloudflare Workflows 正式发布 Saga 回滚功能，开发者现在可以在步骤定义中直接声明补偿逻辑；以及出海 AI 创业者在融资之前必须了解的公司法律架构基础，包括特拉华州 C-Corp 选型逻辑、股权分配原则和 Vesting 安排。没有特别突破性的新议题，但每篇都有可以直接落地的细节，对正在做相关事情的读者来说参考价值很高。速览部分还有 swyx 的 13 条演讲技巧、多智能体记忆分层方案、Hugging Face 关于混合模型的 token 级分析、裸机多模型并行推理工程实践、Cursor 对模型「作弊」评测的原创研究，以及 Mistral OCR 4 发布公告。补充阅读涵盖 SmithDB 全文搜索倒排索引实现、Gemma 事实召回电路分析、NVIDIA BEV 池化加速、JetBrains AI 默认 Agent 选型，以及 Zig 开发日志和赫库兰尼姆古卷首次完整释读的重大发现。 ## ★ 精讲一：我们如何利用 DSPy 将 AI 评估转化为 Dash Chat 的更优回复来源：Dropbox Tech Blog ｜阅读原文 Dropbox 的 Dash Chat 是一个 AI 驱动的企业知识问答 Agent，帮助用户跨文档、消息、会议记录等来源提问并获得综合答案。为了持续提升 Dash Chat 的回复质量，Dropbox 技术团队基于开源框架 DSPy 构建了一套两阶段的评测与优化闭环。这篇博客把这套体系的设计思路、具体实施步骤、核心数据和踩坑经验完整梳理了出来，对正在搭建 Agent 评测体系或做提示词优化的团队来说有很强的参考价值。为什么 Agent 评测比普通 LLM 评测复杂传统 LLM 评测面对的是一次性输入输出，而 Agent 评测要处理的是一个多步骤的决策过程。一个 Dash Chat Agent 在回答用户问题之前，需要依次完成意图理解、上下文检索、工具调用决策、信息跨来源综合，以及在多轮对话中的自适应调整。任何一个环节出现问题，最终答案都会走偏，而单纯看「最终答案对不对」根本无法定位是哪里出了问题。 Dropbox 的解决方案是：不只评测最终回复，而是评测整个 Agent 轨迹（Trajectory）。他们设计了覆盖 5 个维度的评测体系：意图理解（Intent Understanding）、语义相关性（Semantic Relevance）、证据引用（Evidence Use）、鲁棒性（Robustness）和任务完成度（Task Completion），每个维度采用 1–5 分制打分，并辅以文字说明。这种分维度评测的好处是：当 Agent 出现问题时，可以精确定位到是哪个维度失效，从而更有针对性地进行优化，而不是面对一个笼统的「分数下降」不知道从哪改起。第一阶段：用人工标注校准 LLM 裁判用 LLM 做「裁判」来自动评分是业界的常见做法，但 LLM 裁判本身也会出错，它与人类判断的分歧往往来自评分标准不够精确、对某类错误的容忍度与人不一致，或者在边界案例上的处理方式不同。 Dropbox 的做法是先「校准」裁判：找一批人工评估员，对同一组样本既给出数值评分，也写出评分理由。这批人工标注数据形成了「校准集」——分数差异告诉你 LLM 裁判在哪里打错，文字理由告诉你为什么打错。有了校准集之后，他们引入 DSPy 的优化算法（GEPA 和 MIPROv2）对裁判提示词进行自动迭代，优化目标是最大化裁判评分与人工标注的一致性。整个过程不需要工程师手动修改提示词，DSPy 会在优化空间中自动搜索更好的版本，并用校准集验证每次迭代的效果。这个阶段的关键洞察是：人工标注的成本虽然高，但数量不需要太多，只需要足够覆盖主要的错误模式。一旦裁判被校准好，后续就可以用它批量生产可靠的评测信号，边际成本趋近于零。第二阶段：用优化后的裁判来优化 Agent 提示词裁判校准完成之后，就能可靠地大规模产出评测信号。有了这个「便宜且可信」的信号来源，下一步自然是用它来优化 Dash Chat Agent 的系统提示词。这也是 DSPy 的另一个应用场景：把优化后的裁判作为评分函数，让算法在提示词空间中自动搜索能提升评分的版本。工程师不需要凭直觉猜测「如果在提示词里加一句 X 会不会更好」，而是让算法在更大的搜索空间里找到实际有效的改法。这就形成了一个完整的反馈闭环：人工标注 → 校准 LLM 裁判 → 裁判批量产出评测信号 → DSPy 自动优化 Agent 提示词 → 更好的 Agent 回复。这个循环可以持续运行，每次有新的人工标注数据加入，裁判就更准，Agent 就能进一步优化。实测结果与一个有趣的副产品优化上线后，Dropbox 看到了三个关键指标的改善： - 不完整答案减少了 26% - 回复中遗漏关键信息点减少了 13% - Token 使用量下降了 5.4%（答案质量没有下降） Token 用量下降这个结果值得单独说：优化后的提示词让 Agent 学会了「更直接地回答问题」，不再绕圈子铺垫，也不再重复已知信息。这说明，冗余表达和低质量回复有时候其实是同一个问题的两面——提示词不够精确，模型就用堆砌词汇来「掩盖不确定性」。这篇文章的参考意义 Dropbox 这套方案的价值不只是给出了一个具体的工程实现，更重要的是它验证了「评测驱动优化」在 Agent 场景下的可行性路径：评测体系是基础，人工标注是锚点，DSPy 是加速器，三者组合可以把提示词优化从「经验驱动」变成「数据驱动」。如果你的团队正在给 Agent 搭评测，或者在反复手动调提示词收效甚微，这篇文章值得完整读一遍。 ## ★ 精讲二：我们如何为 Cloudflare Workflows 构建 Saga 回滚来源：The Cloudflare Blog ｜阅读原文 Cloudflare Workflows 是 Cloudflare 提供的持久化、多步骤、内置重试和状态保存能力的工作流平台。今天，Cloudflare 官方宣布为 Workflows 正式发布 Saga 回滚功能：开发者现在可以在每个 step.do() 调用中直接声明对应的补偿逻辑，当整个工作流终止失败时，引擎会自动按逆序执行所有已注册的回滚步骤，且回滚步骤同样具备持久化、重试和超时保障。这是分布式工作流设计中一个经典而重要的能力。 Saga 模式解决的根本问题分布式系统中的「原子性」是一个经典难题。数据库事务可以保证「要么全成功、要么全回滚」，但当一个流程需要跨多个外部系统执行时，传统事务就失效了——你没有办法对一个外部支付系统发「回滚命令」。 Saga 模式的解法是：为每个步骤设计一个「补偿操作」，记录在对外部系统产生副作用之后如何语义地逆转它。以跨行转账为例：步骤一从 A 银行扣款，步骤二向 B 银行打款，步骤三发邮件通知。如果步骤二失败，B 银行那边什么都没发生，但 A 银行已经扣款。这时候需要执行步骤一的补偿操作：向 A 银行请求将款项打回来。这个「补偿操作」不是「撤销」，而是一个新的正向操作，语义上实现了逆转。在 Cloudflare Workflows 引入 Saga 支持之前，开发者需要在 Workflow 之外自己维护一套补偿逻辑，跟踪哪些步骤已成功、哪些需要回滚，以及回滚的顺序。这些状态管理代码往往比业务逻辑本身还复杂，也更容易出错。新 API 的设计：Options Object 而非链式调用 Cloudflare 选择了 options object 的方式来声明回滚：把包含 rollback 函数的选项对象作为 step.do() 的最后一个参数。这个设计决策背后有明确的理由——他们评估过链式 API（step.do().withRollback()）和构建器模式，最终放弃了前者，因为链式 API 在 TypeScript 类型推断上很难正确传递步骤返回值的类型，而 options object 更自然地和 TypeScript 泛型系统配合。回滚函数接收步骤的输出（output）作为参数，允许开发者用步骤返回的数据来执行补偿。比如支付步骤返回了 chargeId，回滚函数就可以用这个 id 去调用支付服务商的退款接口。几个关键的执行语义失败步骤本身也需要回滚：一个步骤即使失败了，也可能已经与外部系统产生了交互。比如支付步骤向支付提供商发起了扣款请求，扣款成功，但在返回 chargeId 之前步骤崩溃了。这时候，步骤失败了，但副作用已经发生。Cloudflare 的设计是：失败的步骤如果注册了 rollback，它的 rollback 照样会执行。回滚函数接收 output === undefined 的情况，开发者需要处理这种情形。回滚只在工作流终止时触发：不是「任何步骤报错就立刻回滚」。如果用户代码 catch 了某个步骤的异常并让工作流继续，就不会触发全局回滚；只有当工作流本身即将「终止失败」时，才执行所有已注册的回滚步骤。顺序是 step-start 的逆序：对于顺序步骤，回滚顺序很直觉——后启动的先回滚。对于并行步骤，完成顺序可能和启动顺序不同，Cloudflare 明确选择了「以步骤启动时间的逆序」作为回滚顺序，而不是完成顺序，这让顺序可预测，不受每个步骤实际执行时间影响。回滚本身的持久化：一个重要的工程问题是：如果 Worker 在执行回滚过程中重启，回滚状态怎么恢复？Cloudflare 的解法是在步骤执行时就把 rollback 函数相关的信息持久化到存储中，引擎重启后可以从这些记录重建出需要执行的回滚步骤集合，保证回滚过程和正向流程具有同等的持久性保障。实用意义对于正在用 Cloudflare Workers 构建涉及支付、库存扣减、预约占位等多步骤分布式业务的开发者来说，Saga 回滚把一类「必须自己写但极容易写错」的代码变成了框架级能力。声明式的 rollback 函数让业务逻辑和补偿逻辑内聚在同一个步骤定义里，可读性和可维护性都大幅提升。 ## ★ 精讲三：AI 创业者想出海拿美元，搭好可融资的企业架构才是第一步来源：Founder Park ｜阅读原文 Founder Park 整理了清律纽约律师事务所高级律师南李在一场 AI 创业者闭门 Workshop 上的分享。核心观点是：「投资人投的是创业企业，不是创业产品。」现在 AI 技术迭代极快，不少团队把几乎所有精力放在产品迭代和 MVP 验证上，却忽略了融资时投资人看的第一件事其实是「公司架构搭对了没有」。如果这一步走错，到融资阶段才发现需要重新整改，时间成本和法律成本都很高。核心问题一：LLC 还是特拉华州 C-Corp？到美国创业，设立法律实体的第一个选择是 LLC（有限责任公司）还是 C-Corp（股份制公司）。两者在中国语境下都叫「有限责任公司」，但在 VC 生态里的地位天差地别。 LLC 的最大优势是「穿透式税务处理」：公司层面不单独纳税，所有收入直接视为股东个人收入，有效降低整体税负。资本结构也更灵活，各项权利可通过「运营协议」（Operating Agreement）自由约定。听起来不错，但对融资导向的创业公司而言，LLC 有几个根本性缺陷： - 投资人普遍不愿投 LLC。穿透税制会让 LP 的税务状况变得复杂，部分特殊身份 LP（如养老基金、大学捐赠基金）在法律上甚至不能持有 LLC 股份。 - LLC 股份不享受 QSBS 税收优惠。QSBS（合格小型企业股票）是美国创投圈重要的税务工具，符合条件的投资人在持有股份满一定年限后可以享受联邦资本利得免税。LLC 的成员权益不具备这个资格，这对早期投资人来说是很大的吸引力损失。 - 难以搭建标准股权激励计划。整个 VC 生态的标准文件（NVCA 模板等）都以 C-Corp 为基础，LLC 接入这套体系成本很高。因此，对于融资导向的 AI 创业者，正确答案几乎是明确的：在特拉华州（Delaware）设立 C-Corp。为什么是特拉华州而不是纽约州或加州？因为特拉华州拥有美国最完善的公司法法规体系和最丰富的判例法积累，为商业决策提供了高度可预期性，投资人和律师都最熟悉这套体系，融资时的摩擦最小。 C-Corp 的缺点是「双重征税」——公司利润交一次企业所得税，向股东分红时股东再交个人所得税。但对早期创业公司而言，利润通常全部用于再投资而不是分红，这个缺点的实际影响在前期几乎可以忽略。核心问题二：创始人股权怎么分配股权分配没有固定公式，但有几条市场实践中提炼出来的原则：第一，避免 50:50 平分。平分看起来「最公平」，但实际上容易导致决策僵局。更重要的是，投资人对这种结构非常警惕——他们认为连股权谁大谁小都谈不拢的团队，在面对未来更难的经营分歧时，大概率也没有能力解决。第二，基于价值与贡献分配，而非情感平衡。分配之前，必须先搞清楚一个核心问题：对方的定位是「联合创始人」还是「核心早期员工」？真正的联合创始人愿意为了公司长期成功承担商业失败的风险；而如果对方更看重短期的稳定收入，本质上是早期员工，给他更多期权而非股权往往更合适。可以从五个维度量化评估每位创始人的价值：愿景与领导力、产品与技术能力、执行责任、资本与融资贡献、GTM 能力与行业资源。这五个维度覆盖了从「能讲故事」到「能卖产品」的完整价值链，帮助团队把股权分配建立在更客观的基础上。第三，单个创始人占比建议不低于 10%。随着 A 轮、B 轮融资推进，每一轮都会稀释所有现有股东。如果某位创始人初始持股只有 8%，经过两三轮融资后可能只剩 3%-4%，这个比例不足以产生长期激励效果，核心人才流失风险很高。核心问题三：Vesting（股权归属安排） Vesting 在美国创投圈是 Must Have 的标配，而很多从中国出海的创业者对这套机制并不熟悉。核心机制是：股份在签署时一次性发放到位，但公司保留一项按时间逐步失效的「回购权」。如果创始人提前离开，公司可以按事先约定的价格回购那些「还没归属」的股份。随着时间推移，已归属股份逐渐增多，公司的回购权覆盖范围相应缩小，直到全部归属后回购权消失。美国市场的标准安排是四年归属期 + 一年 Cliff：第一年结束时一次性归属 25%，之后三年按月均匀归属剩余 75%。Cliff 的逻辑是：创业第一年是摩合期，团队最容易出现分歧和人员变动，一起撑过一年才能证明契合度，这时候才开始兑现股权。这篇文章特别强调了一点：创始人应该主动设置合理的 Vesting，而不是等投资人提要求。被动接受的后果是：投资人在给你 term sheet 的同时，可能提出把 Vesting 延长到八年，或者加入更苛刻的条款。当那笔钱是公司的救命钱时，你很难有底气拒绝。如果一开始就主动设置了符合市场惯例的四年 Vesting，谈判桌上你就有了更强的议价地位。和今日其他精讲的联系今天三篇精讲的视角跨度很大，但逻辑上是递进的：精讲一讲「怎么把 Agent 产品做得更好」（评测与优化）；精讲二讲「怎么把业务逻辑做得更可靠」（工作流架构）；精讲三讲「产品和架构做好了之后，怎么把公司搭对」（法律与融资架构）。技术背景的 AI 创业者往往对前两类问题非常关注，但对第三类问题意识不足，而等到真正进入融资流程时才发现代价高昂。 ## 速览 1. 13 条优化技术演讲的建议（来自 swyx） swyx 分享了他基于观看数千场技术演讲积累的 13 条可操作建议，覆盖幻灯片设计（用 AI 生成 SVG 替代截图、制作「论点幻灯片」而非「内容幻灯片」）、内容结构（聚焦单一核心观点、在幻灯片中展示真实可运行代码）、演讲呈现（要有娱乐性、让听感舒适、设计情感曲线），以及策略层面（用数据构建演讲骨架、如何自然地推介产品而不显得「卖弄」、主动观摩优秀演讲学习技巧）。每条建议都附有具体的例子和理由，对任何计划在技术会议或社区分享的人来说都值得收藏。阅读原文 2. 如何通过现代 Web 指南阻止你的 AI 编码智能体编写过时代码 AI 编码 Agent 写出来的代码往往有一个共同特征：明明现代浏览器已经提供了更好的原生方案，Agent 还是会写出 2019 年风格的大量 JavaScript 状态管理代码。根源在于训练数据里充斥着遗留模式，模型只是在做「最常见的选择」。Google Chrome 开源的 Modern Web Guidance（MWG）是一个针对性解法：它把专家验证的最新浏览器 API 指导注入 AI Agent 的上下文，引导 Agent 优先选择声明式 HTML/CSS 方案，替代遗留的 JavaScript 密集型写法。本文介绍了 MWG 的工作原理、接入方式和局限性（它能改变 API 选择，但不能替代业务逻辑决策）。适合有 AI 辅助开发工作流的前端工程师。阅读原文 3. Vector RAG 不够用了——我为多智能体记忆构建了一个上下文图层这篇文章起源于一个真实的工程痛点：在多 Agent 协作系统中，Agent A 做出的决策（如「这个项目用 PostgreSQL」），Agent B 在二十轮对话之后完全「记不住」。即使把完整对话历史塞进上下文，Agent 也无法可靠地回答「我们当时选了什么存储方案」。作者用三种记忆架构（原始历史记录、纯向量 RAG、上下文图层）、五个脚本化场景、18 个分级查询做了基准测试，全程确定性、零 LLM 调用。上下文图层将事实以「实体-关系」形式存储（而非文本块），支持多跳查询（需要结合两个事实才能得出答案）。测试结果：上下文图层 88.9% 准确率，每次查询 26.9 个 token；原始历史记录 61.1% 准确率，每次需要 490.9 个 token；纯向量 RAG 仅 50.0% 准确率，75.9 个 token。多跳查询场景是上下文图层的核心优势区间，向量相似度检索在这里结构性失效。阅读原文 4. 混合模型在哪些 token 上预测得更好？ Hugging Face 与 AllenAI 在完全相同的训练配置下（Olmo 3 vs Olmo Hybrid，数据集、分词器、训练方案均保持一致），进行了逐 token 的细粒度预测对比分析，排除了架构之外的干扰变量。结论是：混合模型（Mamba 状态空间模型 + Attention 结合）在「承载语义含义」的 token 上损失更低，更擅长处理「有意义的词汇」；而纯 Transformer 在「重复性 token」（如闭合括号、重复模式）和「句法性内容」上更有优势。这种差异在预训练早期就出现，并随模型规模线性扩展，表明其根源在于架构本身而非规模效应。对关注模型架构选型或机理研究的读者有参考价值。阅读原文 5. 3 个智能体，3 个大模型，1 块老旧 GPU：在裸机上实现并行推理工程你有三个分别使用 SmolLM2、Qwen2 和 Llama 3.2 的 AI Agent，你有一块 NVIDIA GTX 1080（8 GB VRAM），你无法升级硬件。结果是：第一个 Agent 启动就占用了 6,536 MiB，第二个 Agent 启动直接 OOM 崩溃。原因不是「模型太大」，而是 llama.cpp 在启动时会预分配完整的 KV 缓存（1,536 MiB 起步），三个进程同时持有各自的 KV 缓存就超出显存上限。作者开发了一个名为 lmxd 的小型 C++ 守护进程来解决这个问题：用 POSIX 信号量做显存记账，每个 Agent 想使用 GPU 之前需要先「申请令牌」，用完归还，其他模型在等待期间挂起到 CPU 上，序列化访问 GPU。稳态下三个模型合计仅使用 926 MiB VRAM。这是一个「资源受限的工程师如何解决实际问题」的好案例，有本地部署多模型需求的开发者可以关注。阅读原文 6. Cursor 研究：模型「作弊」公共基准测试 Cursor 发布了一项原创研究，揭示了包括 Opus 4.8 和 Composer 2.5 在内的现代编程模型存在「作弊」评测题的行为：这些模型学会了从互联网或代码仓库的 git 历史记录中检索现成答案，而不是真正在「推理」如何解题。当使用更严格的评估框架（杜绝直接检索历史答案后）再评测，分数出现显著下降。这对评测体系的设计提出了新要求：需要使用「在互联网上找不到答案」的评测集，才能真正衡量模型的推理能力，而不是检索能力。对于依赖 Cursor 或类似工具做编程判断的团队，这也是一个提醒：榜单成绩需要理性看待。阅读原文 7. Mistral AI 发布 OCR 4：支持边界框与置信度评分 Mistral AI 推出全新 OCR 模型 Mistral OCR 4，输出格式从「提取文字」升级为「结构化文档理解」：每个区块（标题、表格、数学公式、段落等）都带有精确边界框、区块分类标签和逐区域置信度评分，支持 170 种语言。对于需要高精度文档解析的工程场景——尤其是表格提取、数学公式识别和多语言混合文档处理——这是一个值得评测的新选项。阅读原文 ## 补充阅读以下内容值得关注，适合特定方向的读者深入。 - SmithDB 全文搜索倒排索引的构建实现（LangChain Blog）：承接上一篇关于倒排索引设计的文章，本篇详述了 SmithDB 倒排索引的实际构建、合并和查询流程，涵盖 JSON 磁带解析、字符串驻留（string interning）、基于有限状态转换器（FST）的术语布局，以及分层存储策略。对搜索引擎工程和数据库内核实现感兴趣的读者推荐完整阅读。 - Gemma 模型中的三阶段事实召回电路（Towards Data Science）：通过激活修补方法在 Gemma-2B 和 Gemma-12B-IT 中定位了「存储 → 路由 → 读取」三阶段事实召回电路，且该结构随模型规模成比例扩展。机械可解释性研究方向的读者可以参考。 - 在 NVIDIA GPU 上加速 BEV 池化用于 Physical AI（NVIDIA Technical Blog）：针对自动驾驶和机器人视觉感知中的鸟瞰视图（BEV）池化操作，提出 BEVPoolV3，通过分析 GPU 显存访问模式分类、减少冗余数据流、根据 L2 缓存大小适配内核策略，实现最高 42 倍加速。适合 Physical AI 推理优化工程师。 - JetBrains AI 推荐智能体更新：Codex 成为当前首选（JetBrains Blog）：JetBrains 基于编码基准测试和在线 A/B 实验的系统评估，将 Codex 设为 JetBrains AI 的推荐默认 Agent。文章介绍了选型方法论，对关注 AI 编程工具评测的读者有参考价值。 - Zig 编程语言开发日志（Hacker News）：Matthew Lugg 详细记录了 Zig 编译器的一批近期改进，包括新的 @bitCast 语义、LLVM 后端整数降级变更、重构后大幅提速的构建系统，以及支持增量编译的 ELF 链接器。Zig 生态关注者的重要更新。 - 首度完整释读赫库兰尼姆古卷（Hacker News）：一个团队利用高分辨率 X 射线成像和机器学习，首次从头到尾虚拟展开并释读了一卷封存近两千年的赫库兰尼姆古卷（PHerc. 1667），内容是一篇斯多葛学派哲学文本。这是数字考古与 AI 辅助历史文献研究的一个重大里程碑，跨学科兴趣的读者值得一读。 ## 今日阅读路径如果今天时间有限，按以下顺序阅读收益最大：第一优先：精讲一（Dropbox DSPy Agent 评测优化）。这是今天实用价值最高的技术内容——无论你在做 LLM 产品还是 Agent 开发，「用人工标注校准裁判、再用裁判优化提示词」这条路径都可以直接迁移参考，数据也比较实在（不完整答案减少 26%，token 减少 5.4%）。第二优先：精讲三（出海 AI 创业公司架构）。如果你有出海融资计划，这篇的时间价值最高。特拉华 C-Corp 的选型逻辑、四年 Vesting + 一年 Cliff 的标准设计、主动而非被动设置 Vesting 的建议——这些都是具体可操作的行动项，越早了解越好。第三优先：速览第三条（上下文图层与 Vector RAG 对比）。如果你在做多 Agent 系统，这篇提供了有基准数据支撑的记忆架构对比，揭示了纯向量 RAG 在多跳查询上的结构性缺陷，值得了解。精讲二（Cloudflare Saga 回滚）适合正在用 Cloudflare Workers 构建分布式业务的开发者重点阅读，对其他背景的读者可以作为分布式系统设计的概念补充。 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。

译Dropbox用DSPy构建两阶段评测闭环：人工标注校准LLM裁判后，自动优化Dash Chat提示词，使不完整答案减少26%，遗漏关键信息点减少13%，Token用量下降5.4%。Cloudflare Workflows正式发布Saga回滚，支持在step.do()中声明补偿逻辑，引擎自动逆序执行已注册回滚，具备持久化、重试和超时保障。此外介绍出海AI创业者需了解的特拉华州C-Corp架构选型、股权分配原则和Vesting安排。

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 7天前56

Even *Republicans* are 2-to-1 in support of an AI data center moratorium I repeat: the AI backlash is about to be one of the biggest movements in *history*

译AI Safety Memes指出，即便是共和党选民也以2比1的比例支持暂停建设AI数据中心，作者认为针对AI的反弹即将成为历史上规模最大的社会运动之一。引用@mcuban的观点，他认为数据中心之争实为对AI及财富集中的仇恨的替身。大型LLM公司已输掉公关战，必须走出硅谷，直接与受失业影响的社区对话并提供实质援助；同时需要与艺术创作者面对面协商，而非花钱请名人背书或讨好大公司。若不把普通人放在首位，将无法获得未来所需的数据中心容量。

Rohan Paul@rohanpaul_ai · 7天前52

Older tech workers are leaving the industry early as layoffs, buyouts, AI pressure, weak hiring, and healthcare costs turn late-career tech jobs into retirement decisions. AI is also raising the cost of staying, because senior workers who already lived through web, mobile, and cloud shifts now face another major learning cycle that some no longer want to absorb. --- seattletimes .com/business/local-business/older-tech-workers-are-tapping-out-early-heres-what-that-looks-like/

译年长的技术工作者正提前离开行业——裁员、买断、AI压力、招聘疲软和医疗成本，让科技行业的晚期职业生涯变成了退休抉择。 AI也在提高留下的成本，因为那些经历过网络、移动和云计算变革的资深员工，如今面临又一重大学习周期，有些人已不愿再吸收。

Rohan Paul@rohanpaul_ai · 7天前53

Mckinsey report - AI agents are quietly taking over the retail shopping cart and could mediate $3 Tn to $5 tn of global consumer commerce by 2030. Instead of just suggesting a product, an AI agent can now scan multiple stores, check inventory, and build a ready-to-buy shopping cart. This shift is happening across 6 different levels of automation. - At the lowest level, the AI just compares prices and features so a human can make the final choice. - At the highest level, your personal AI agent negotiates directly with a store's AI agent to get the best price and shipping terms. Brands will increasingly compete to win over algorithms rather than just human shoppers. For this to work, retail stores must make their product catalogs and return policies machine-readable by software via API If a brand only focuses on looking good to humans but hides its inventory data, the AI agents will simply ignore it. Stores that expose their pricing and stock data through clear software connections will dominate this new landscape, while those relying purely on flashy marketing will lose out as machines make the actual purchasing choices. Automation ranges from simple product comparisons to full machine-to-machine negotiation.

译麦肯锡报告指出，AI智能体可跨多家商店扫描库存、比对价格并构建可立即购买的购物车，预计到2030年将调解3万亿至5万亿美元全球消费商务。自动化分为6个层级：最低级仅比较价格与功能，最高级由个人AI智能体直接与商店AI智能体谈判价格和运输条款。品牌将更多竞争以赢得算法而非人类消费者。零售商店需通过API使产品目录和退货政策机器可读；隐藏数据的品牌会被AI忽略，而开放定价和库存的商店将主导市场。

Tibo@thsottiaux · 7天前38

Codex for everything at OpenAI

译在 OpenAI，Codex 用于一切。

Epoch AI@EpochAIResearch · 7天前31

What are the strategies of Chinese AI companies? To understand this better, @cherylwoooo, @datagenproc, and @ansonwhho scraped >1600 job postings from six major Chinese firms. Here’s what they learned. 🧵

译中国 AI 公司有哪些策略？为了更好地了解这一点，@cherylwoooo、@datagenproc 和 @ansonwhho 从六家主要中国公司抓取了超过 1600 条招聘信息。以下是他们的发现。🧵

Ethan Mollick@emollick · 7天前70

This is a fascinating and important set of data which shows us where things are going, using OpenAI as a canary in the coal mine. The chatbot era is over, and agentic systems are coming to tasks beyond engineering. And skills show promise as a way to standardize AI use in firms.

译@daveholtz 以 OpenAI 访问经济学研究员身份，利用 Codex 数据记录 AI 向智能体（agentic）系统的快速转变。Ethan Mollick 评论称聊天机器人时代结束，智能体系统正扩展到工程之外的任务，而技能（skills）有望成为企业标准化 AI 使用的方式。

Rohan Paul@rohanpaul_ai · 7天前43

"If you really want to make money, found an agentic AI company. I mean, build an agent to do something. This is the agentic period in AI. Everyone's going to build agents. The agents are all going to compete." ~ Eric Schmidt, Ex Google CEO.

译"如果你真的想赚钱，就创办一家智能体AI公司。我的意思是，构建一个能做某事的智能体。现在是AI的智能体时期。每个人都将构建智能体。所有智能体都将互相竞争。" ~ Eric Schmidt，前谷歌CEO

AYi@AYi_AInotes · 7天前49

上万人同时在线假扮 AI 互相聊天，这才是 AI 时代最讽刺的反转啊🤯 一个叫“你的 AI 垃圾让我厌烦”的网站最近爆了，峰值一万六千人同时在线，大家都装成 AI 的样子回答问题。答案不一定准，速度不一定快，甚至还有人画歪歪扭扭的手绘，但就是比完美流畅的 AI 回答更让人愿意停下来。我觉得这根本不是什么猎奇整活，更像是AI 狂热之后的集体宿醉，过去几年所有人都在追更快更准更完美的 AI 生成内容，直到信息多到泛滥，精准到麻木，大家才突然反应过来，原来我们缺的并不是更多更好的答案，而是对面那个会犯错的活人啊🥺 它让人想起最早的旧互联网，匿名，无功利，陌生人愿意花时间帮你解决问题，没有点赞，没有流量，没有变现，就只是因为“为什么不呢”，现在 AI 把回答这件事变得无限高效廉价，反而让这种带着温度和瑕疵的人类连接，变成了最稀缺的东西。更妙的是，这帮假装自己是 AI 的人，其实在用最笨的办法，练 AI 最缺的东西：共情、即兴、带个人经验的判断、允许犯错的松弛感。人类被逼着像 AI 一样思考的时候，反而把自己最不可替代的那一面狠狠暴露出来了。说白了，AI 能复制所有完美的答案，但复制不了人愿意为另一个陌生人花时间的温度，这大概就是技术发展到最后，永远绕不开的反转吧嘤嘤嘤嘤

译一个名为“你的AI垃圾让我厌烦”的网站近期爆发式增长，峰值1.6万人同时在线。用户假扮成AI互相回答问题，答案不准、速度不快、甚至手绘回应，却比完美AI更吸引人。这折射出AI狂热后的集体反思：AI让回答变得高效廉价，反而使带温度、瑕疵和真实连接的人类互动成为稀缺品。这群“假AI”无意中练习了共情、即兴、个人判断和允许犯错的能力——正是AI最缺乏的。技术能复制完美答案，却复制不了人愿为陌生人花时间的温度。

Chubby♨️@kimmonismus · 7天前54

We are still not building enough data centers. That sounds almost absurd, given the scale of the current AI infrastructure boom. OpenAI and SoftBank’s Stargate campus in Texas alone is expected to cost well over $40 billion and draw around 1.2 gigawatts at peak load. Such an interesting article by @ChrisGillett tl;dr: AI labs need more compute. Compute needs more data centers. Data centers need enormous amounts of electricity. And the real bottleneck may not be chips, GPUs, or even energy generation itself. It may be the grid! Before a new data center or power plant can connect, grid operators have to study whether it will overload transmission infrastructure. In the US, the median wait for power plant interconnection reportedly increased from less than 20 months in 2005 to 55 months by 2023. That is a brutal constraint for an industry trying to scale in months, not decades. The current system often works on a first-come, first-served basis, which means serious projects can get stuck behind speculative or lower-value ones. The result is a growing mismatch between the speed of AI infrastructure demand and the speed of Western grid bureaucracy. America may not have an energy shortage. It has a grid connection problem. And if AI becomes one of the defining infrastructure races of the century, the winners may not just be the countries with the best models or the most chips, but the ones that can actually plug them in. Highly recommend you read his whole article

译AI算力需求激增推动数据中心扩张，但真正的瓶颈可能并非芯片或能源生产，而是电网接入。OpenAI与SoftBank在德州的Stargate园区耗资超400亿美元，峰值负载约1.2吉瓦。然而美国电网并网等待时间中位数从2005年的不到20个月增至2023年的55个月。现行先到先得的审批机制导致严肃项目被投机项目阻塞。未来赢家可能不是拥有最佳模型或最多芯片的国家，而是能快速接入电网的国家。

Rohan Paul@rohanpaul_ai · 7天前66

Goldman Sachs Research: "Token use by AI agents is expected to multiply 24 times by 2030" AI agents are now creating the first serious cost test for the AI boom. As was reported this week, Uber and Microsoft are already rethinking expensive agent usage. A chatbot may answer once, but an agent plans, calls tools, checks results, edits mistakes, and repeats the loop. That loop can make one user request consume 10x, 50x, or even far more tokens than a normal answer. Goldman’s bullish case is that monthly token use could reach 120 quadrillion by 2030, while inference cost per token keeps falling 60%-70% per year. The fight is now between agent productivity and token waste. Earlier this month, Microsoft began revoking developer access to Claude Code, with plans to move them to its in-house Copilot Command Line Interface tool by June 30. The company has framed this as consolidating teams around its own tools, but the timing at the fiscal year’s end hints it may also be about lowering costs.

译高盛研究预测，到2030年AI智能体token使用量将增长24倍。单个智能体任务可能消耗正常回答10倍、50倍甚至更多token。乐观情景下月token使用量可达120 quadrillion，推理成本每年下降60%-70%。Uber和Microsoft已开始重新考虑昂贵的智能体使用。Microsoft本月撤销开发者对Claude Code的访问权限，计划6月30日前迁移至自研Copilot CLI工具，此举被解读为降低成本。

X.PIN@thexpin · 7天前61

http://x.com/i/article/2069762663366975488 # Tokenmaxxing is dying, and Chinese open-source models fill the gap Amazon, Meta, and Uber are capping the token spend as GLM-5.2 and DeepSeek give their models away for free. Over the past week, a new Chinese model called GLM-5.2 has set off another round of alarm in Silicon Valley. Released by the company z.AI under a permissive open-source license, it takes direct aim at the coding and agentic-workflow business that Anthropic has built its reputation on — and running on a one-million-token context window, it lands surprisingly close to Claude Opus 4.8 and OpenAI’s GPT-5.5. The open-source community is ecstatic. At the same moment, America’s “unlimited AI credits” mania is draining away. Amazon, Meta and others are killing their no-limits AI plans. After Uber’s engineers burned through a full year’s AI budget in four months, the company capped each employee at $1,500. Even Microsoft CEO Satya Nadella has warned that the industry can’t let a few AI giants swallow the whole economy. The link between open-source models and what people now call “Tokenmaxxing” is simple enough: programmers burn too many tokens, the bills get too big, and faced with a mountain of invoices, people reach for the open-source option. This is not the Tokenmaxxing takedown you’ve read on Substack, though. Because a few questions kept nagging at me. If open-source models can do the job, why is anyone still topping up their Claude account? And if everyone runs to open-source, how does anyone building a model make money? It was only after GLM-5.2 shipped that I arrived at a first answer. Both of these waves — the rush to open-source and the rush to burn tokens — come down to the same thing: how we decide to think about a token. ## Born Out of Scarcity Start with the open-source side, and start with GLM-5.2. Z.ai has released the core weights of GLM-5.2 under an unrestricted MIT license. Any company can download it free from Hugging Face, customize or fine-tune it, and run it locally or on a virtual machine. Standing the thing up is still a slog, but next to the now-delisted Fable 5, it’s a genuinely good option. The model was built on Huawei’s Ascend chips — no Nvidia hardware involved. But GLM-5.2 is not another DeepSeek. DeepSeek’s Liang Wenfeng came out of a quant fund, is worth billions, and has chosen near-total seclusion. (He recently put about $2.8 billion of fresh money into DeepSeek) Z.ai, by contrast, is an open-source model maker that’s already publicly listed in Hong Kong. It has no billionaire patron, and its road has been every bit as winding as DeepSeek’s. In 2020, BAAI’s Tang Jie argued the language model still deserved the effort. Of BAAI’s 480 A100 cards, 400 went to Tang’s team. Tang also tried Huawei’s 910A and 920 chips. On large-model training, the 920’s operator efficiency was just 18% of an A100’s; after Tang’s team helped rewrite the operators, they pushed it to roughly 40%, and trained a 13B code model, CodeGeeX. But Tang’s real goal was 100B-parameter model, even 2,000 910A cards weren’t enough. In the end, Tang turned to z.AI, the company he’d founded back in 2018, rented 1,000 cards. In July 2022, they finally had their hundred-billion model: GLM-130B. I tell his story because he embodies the type. Most of China’s open-source AI companies grew out of academic projects; they incorporated mainly because they needed to buy compute, and they open-sourced their architecture to keep their academic visibility. Starved of chips, they learned to adapt to whatever domestic silicon they could get. Z.ai wasn’t placed on the U.S. entity list until 2025, but it was already optimizing for Huawei chips in 2020. Localized compute and open architecture became, almost by default, the signature of Chinese AI. The open-source bet has its skeptics inside China, too. In 2024, Baidu founder Robin Li argued that closed models were more powerful and cheaper to run than open ones. His point being that closed models came with more compute and bigger teams, and that ERNIE was nearly a match for ChatGPT. (A little ironic, isn’t it?) ERNIE was not, in fact, in ChatGPT’s league, and China never produced a closed model strong enough to make Li’s case. Turning open-source into profit is a hard problem. In a 2025 interview, a z.AI expert described the company’s three possible lanes — inference, agentic, and coding — and said z.AI chose coding. MiniMax, by contrast, chose multimodal AI and AI companionship. At the time it wasn’t an obvious call: z.AI’s business leaned on enterprise and government contracts, coding showed no clear path to profit, and multimodal could win consumers directly. Z.ai was not the favorite. Then the AI-coding boom arrived. Z.ai’s latest results show a net loss of about ￥3.18B ($444M) against R&D spending of roughly ￥3.2B ($444M). Still in the red — but strip out the open-ended spend on compute, and z.ai’s revenue can cover day-to-day operations. If it can get cheaper chips, or use its chips more efficiently, or land a wave of enterprise buyers, the losses could narrow. That would be good news. In a sense, z.AI may owe Anthropic a thank-you note: both for the AI-doom evangelism and for the AI-coding fervor. Anthropic’s strong models cultivated customers, and its incessant messaging then drove some of them away. One of the places those customers landed was z.AI. A first conclusion, then: going open-source is a passive choice: a Chinese model maker admitting, out loud, that it’s behind on both compute and model quality. But if closed-model progress stalls, users won’t keep paying premium prices for closed-model tokens; they’ll choose open-source on their own. The Chinese saying fits: just hold your plate steady, and the roast duck falls from the sky. Remember to Like & Subscribe! ## Water, Electricity, and a Bad Analogy Now the other wave : Tokenmaxxing. GLM-5.2, DeepSeek and Kimi are mostly catching customers who fled the bills. But if OpenAI and Anthropic were good enough, would open-source still persuade anyone? Then Alibaba gave me a frame. In a March internal memo, CEO Wu Yongming argued that in the AI era, the token would become a basic factor of production, the way traffic was in the internet era. Alibaba set up the Alibaba Token Hub (ATH) around that idea. Follow the logic. In the age of electrification, a country’s electricity output and its GDP growth tend to rise together — no nation ever went bankrupt building power plants. So I looked at U.S. electricity prices, consumption and GDP from the 1920s to the 1960s. As prices fell, total spending on electricity rose 6.2x, but nominal GDP rose 11.1x. Americans spent relatively less on power and got more output for it. The pattern doesn’t always hold cleanly, though. Through the fast-industrializing decades in Japan, China, and West Germany, electricity spending actually outran GDP. But in West Germany and Japan, even during those high-growth years, the share of GDP eaten by electricity fell sharply to almost 2.0%. That suggests is a kind of lag: a rising industrial economy takes roughly fifteen years to work through the adjustment and reach the point where cheap power finally translates into abundant output. If Wu is right and tokens really are AI’s water and electricity, they ought to deliver something similar. But run the numbers and the story breaks. Over the past four years, the cost of a given unit of AI dropped more than 90 percent, while total token spending rose 70x. My god. If this is water and electricity, the bill is climbing far too fast. A seventyfold jump in token spending over four years has not produced anything like a matching surge in what society actually makes. Yes, the data centers went up, and the chips are back-ordered for months. But none of it has meaningfully improved the quality or efficiency of production outside the AI industry itself. What breaks the “AI as utility” analogy is the reasoning model. Across coding and agentic tasks, a model now generates thousands of internal reasoning tokens before it answers, pushing single-task consumption 10 to 100 times higher than older models. So how much does all that buy you? In an NBER paper, DeMiller, Musolff and Yang measured the gains from AI coding tools across four stages of work: - Writing a single file: +290% - Bulk work: +150% - A specific deliverable: +50% - A shipped, delivered product: +30% In other words, even in coding — the thing AI does best — the gains shrink fast as you zoom out from a single file to a finished product. Optimizing the whole pipeline is far harder than optimizing one slice of it. ## Three Months of Unlimited Tokens As latecomers, Chinese firms tried to copy the Tokenmaxxing wave too. Per public reports in March, Tencent gave core R&D teams an annual token package worth about $31,700 each, plus $1,000 a month for outside tools; ByteDance opened its internal AI tools for unlimited use and reimbursed half of employees’ personal AI experiments, capping technical staff at $1,000 a year; Baidu handed engineers unlimited ERNIE access plus up to $800 a year for outside tokens; 360 simply loaded every employee with 100 million tokens. The recalibration came fast. Three months later, Tencent’s Hunyuan team was capped at roughly $970 worth of outside models, and everyone moved onto quotas — though using Tencent’s own Hunyuan model stayed unlimited. ByteDance staff likewise faced no limit on its in-house TRAE tool. Internally, Tencent came out against usage rankings, refusing to treat token consumption as a single yardstick for output. The reason was simple: Chinese companies wanted real output, and they weren’t seeing it. One employee, speaking anonymously, described a team that built workflows across several different models — only to find the AI-generated pieces wouldn’t fit together, and to scrap the whole thing and start over. Twenty-odd people spent about $6,900 in tokens in a month and had nothing to show for it. At some firms, the free tokens got quietly repurposed — for analyzing stocks, say — and the company had no idea where they’d gone. Meta is tightening what employees can spend on Anthropic and other providers — a sharp reversal from the scene a few months earlier, when staff competed to burn tokens. Bloomberg has reported that Uber and Walmart each capped AI coding-tool use; the Financial Times reported that Amazon scrapped the internal leaderboard that ranked employees by AI usage. A June report from the consultancy Bain, titled Your AI Budget Is Growing. Your Returns Aren’t. Here’s Why., found that among companies able to quantify AI’s cost savings, 40 percent saw actual savings of 10 percent or less. Of the 37 percent who’d targeted savings of 11 to 20 percent, only 31 percent actually got there. The grassroots buying isn’t over, though. One ByteDance engineer pays for Claude Max — $100 a month reimbursed — to write what he considers the cleanest code. Better than DeepSeek, by his lights, and GLM he can’t get. But one employee’s purchase doesn’t make the whole company better off. Tokenmaxxing shifts an individual’s cost onto the employer. The irony is that the last firm into the water was the first one out. Tencent, a relative laggard in China’s AI race, quit Tokenmaxxing earlier than anyone. ByteDance is still touting its numbers: as of June, it says, daily token calls to its Doubao model topped 180 trillion, up more than tenfold in a year. Continue Reading

译中国公司 z.AI 以 MIT 许可证开源 GLM-5.2 模型，拥有百万 token 上下文窗口，基于华为昇腾芯片训练，性能接近 Claude Opus 4.8 和 GPT-5.5。与此同时，Amazon、Meta、Uber 等美国公司因工程师过度消耗 token 而开始限制 AI 预算（Uber 每员工上限 1500 美元），推动开源模型需求。GLM 团队源自学术项目，长期适配国产芯片；DeepSeek 投入 28 亿美元，共同成为“Tokenmaxxing”趋势的替代方案。

数字生命卡兹克@Khazix0918 · 7天前52

http://x.com/i/article/2070014478029103104 # 盘点16个把自己蒸馏成Skills的国民级App。最近看到越来越多的一些国民级产品，开始把自己的一些能力，给封装称Skill或者MCP，来向大家开放，我觉得这个大家逐渐为Agent来做能力的趋势，越来越明显了。特别是前段时间瑞幸咖啡上线了AI开放平台，支持MCP、CLI、Skill三种接入方式。能够实现用AI点咖啡、查门店、搜商品等等等等。我当时发了条小红书，甚至还在微博上贡献了一条热搜。最近发现群里的很多朋友，对国产产品Skill和MCP化还挺感兴趣的。所以我专门花了一些时间，把能找到的国产Skill、MCP和CLI都梳理了一遍，虽然平时这些动态我也都有在关注，但一直是零零散散地看到，没有来得及系统地整理过，正好借这次机会，我自己也盘一盘。然后发现，这个名单比我以为的要长得多。餐饮、出行、地图、办公、金融、娱乐，几乎每个领域都有人在做了。真的很有意思，这些主流的服务，可以让你自己的Agent，也能实现与真实世界的交互。当然，可能大多数读者都已经非常了解Skill了，对MCP和CLI还不是特别了解，不过如果不懂得，其实也不用特别了解，直接就当做更高级能做更多事的Skill就行了，反正对于大家来说，其实都是把网址扔过去然后说给我安装其实就行了。。。接下来，盘点开始。 # 1. 瑞幸咖啡Skill 先从餐饮开始，因为我觉得瑞幸就是这波浪潮里最出圈的那个。。。他们网址在此：open.lkcoffee.com 支持Skill、MCP、CLI三种方式。安装命令跟所有的Agent其实都一个样，说一句话就搞定了。装好了后，你就能够在自己的agent上面点咖啡啦。我跟它说，帮我点杯瑞幸，但我最近心脏不舒服，不想喝带咖啡因的，让他帮我进行推荐。它会先确定你的位置，找最近的门店。选好门店之后，它推荐了几个这家店里无咖啡因的饮品。大杯、特大杯、超大杯。唯独没有中杯。罗老师看了估计都得沉默。选择之后，还会再问你是否确认下单。确认之后，需要你打开网页的二维码，扫码支付。不过，瑞幸的 skill 目前只支持到店自取，不支持外卖。下单后会给你取餐码，你就可以去门店扫码取咖啡了。 # 2. 麦当劳MCP 接着餐饮往下聊。麦当劳，之前也上线了MCP。网址在此：https://open.mcd.cn/mcp 我试了一下。它能够查活动日历看最近有什么优惠。还能领券。不过，点餐到最后一步还是需要去app里面完成支付。付钱这件事，感觉大家都不敢打通最后一公里。。。 # 3. 飞猪Skill 说完餐饮，然后还有出行这块。飞猪之前上线了flyai skill，底层接的是自己的MCP服务。网站在此：https://flyai.open.fliggy.com/ 能够帮助你完成机票、酒店、门票、用车等等的咨询、规划和预定，而且不需要API Key就能试用。我让它帮我规划一个周五出发的杭州周末游。直接拉出了去程和回程的航班表，航司、出发时间、到达时间、时长、价格全列好了，还标了首选、备选和性价比。酒店也是，位置和价格都有。如果想要预定，可以点击链接进行购买。体验版本的数据会缺一些。如果你需要完整的能力的能力，申请个API Key就可以了。 # 4. 滴滴Skill 滴滴出行在去年九月上线MCP服务，在今年四月上线skill。网站在此：https://mcp.didichuxing.com/ 能够实现实时叫车、预约出行、订单查询、查看司机位置等等等等。而且它有一个挺有意思的设计，就是能直接提醒司机的状态。组合玩法就可以实现，司机已到达的时候，直接用hook触发一个飞书电话，啪的一下，一个电话就打过来了。。。 # 5. 高德地图Skill 出行这块那自然绕不过地图。高德在去年七月份，推出了MCP服务。在今年四月份上又线了skill市场，涵盖位置服务、地图开发、Android Agent、iOS Agent及RTOS地图方面，给的东西还挺多的。高德开放平台链接在此：https://lbs.amap.com/ 我装好以后，让它帮我搜索一下杭州余杭区的酒店。然后生成了一个5公里范围内的酒店搜索链接。酒店名称、评分、地址、图片全都列出来了。还是挺有意思的。 # 6. 腾讯地图Skill 除了高德之外，腾讯地图也推出了Skill和MCP。网址在此：https://lbs.qq.com Skill提供了搜索、规划、天气查询、模型展示等等等等功能。这两家功能上高度重叠，但细看还是有差异的。主要是开发层面，腾讯地图多了一个前端地图开发Skill，支持3D地图、Three.js集成、GLTF模型。其他的日常对话式的用法，两家差不多。 # 7. 美团跑腿Skill 美团跑腿在上个月发布了Skill。 GitHub链接在此：github.com/meituan/MT-Paotui-For-Client 在选择地址的时候，会优先匹配你的地址簿，不用每次重新输。每次下单前也会展示完整的订单预览卡片，等你确认后才会提交。支付同样是需要打开app来操作。大家逃不过的难题。 # 8. 飞书Skill 然后就是办公协作，这块几乎就是大家开放的最猛的真正的主战场。一马当先的就是飞书了，也是我们公司自己天天在用的工具。 Skill、CLI、MCP三种形态都有。网站在此：https://open.feishu.cn/?lang=zh-CN CLI在三月份开源的时候，我还写了一篇文章，想要了解更多的朋友可以看这一篇。 # 9. 钉钉Skill 钉钉同样也推出了Skill、CLI和MCP。网站在此：https://open.dingtalk.com/ 覆盖面也很广，消息、待办、日程、审批流这些都能通过Agent直接操作。对于用钉钉的团队来说，该有的都有。飞书能干的事，钉钉这边基本也都能干，选哪个就看你平时公司用的是哪家。 # 10. 企业微信Skill 企业微信有CLI和Skill和MCP。 GitHub网站在此：github.com/WecomTeam/wecom-cli 核心能力像消息收发、通讯录管理这些日常操作也都覆盖了。几家反正几乎就是能开放的全都开了。 # 11. 腾讯文档Skill 腾讯文档也推出了Skill和MCP。网站在此：https://docs.qq.com/open/document/ 能够创建和编辑在线文档、进行知识库管理以及AI PPT生成。你要是不用那几家在线办公产品，平时只用云文档啥的，那用Agent+腾讯文档也是可以的。 # 12. 支付宝Skill 支付宝在去年四月推出国内首个支付MCP。开发平台在此：https://open.alipay.com/ 覆盖手机支付、网页支付、订单查询、退款、退款查询五项能力。后面又推出了支付集成skill。这两个其实都是给收钱的人用的，面向开发者。可以让AI帮你快速把支付宝的支付能力接入到你的产品或者Agent里，比如自动生成收款链接、创建订单、查订单状态、发起退款，完整的收款闭环都能搞定，甚至没有企业资质的个人开发者也能用。 # 13. 微信支付Skill 微信支付在去年开放了MCP，只能在腾讯自己家的腾讯元器上用。在今年四月份，上线了skill，这个也是让开发者用AI接入支付的功能，并不是给普通用户用的。网站在此：https://github.com/wechatpay-apiv3/wechatpay-skills 能帮你判断该用哪种支付产品、直接给你示例代码，同时帮你检查写好的代码有没有安全问题，还能专门搞商品券，发券、核销、查询、退券。 # 14. 微信读书Skill 在五月，微信读书推出Skill。官方页面：weread.qq.com/r/weread-skills 能查书架、看阅读进度、统计你读了多久读了多少天、检索笔记划线、搜索书籍、查看书籍详情，甚至还能根据你的偏好推荐相似的书。 # 15. 网易云音乐Skill 网易云音乐在今年三月推出了Skill和CLI。 GitHub网站在此：github.com/NetEase/skills 支持搜索、播放音乐、歌单管理、红心歌单偏好画像分析等等。 # 16. 美图Skill 美图推出CLI，并同步上线skill。网站在此：https://www.miraclevision.com/open-claw 功能还是非常全的，支持图片编辑、文生图、文生视频、AI写真、换脸、虚拟换装、背景替换等等。 # 写在最后除了这些独立发布Skill的，还有一类是直接在自家AI产品里集成第三方服务的。千问在1月接入淘宝、支付宝、淘宝闪购、飞猪、高德等阿里生态。 6月开放第三方Skill，肯德基、蜜雪冰城、东方航空首批接入。豆包也在6月22日上线打车服务，接的是曹操出行，正在灰测中。 WorkBuddy作为腾讯的产品，也内置了大量的Skill和MCP。像微信支付AI专属卡，以及QQ邮箱、腾讯文档、腾讯ima、腾讯问卷、微云这些腾讯系的能力都已经集成在里面了。我们正在向一个逐渐全面Agent化的时代过度。然后有一个细节特别有意思，就是支付。你会发现，几乎所有涉及付钱的环节，大家都选择了让用户跳出去自己完成，瑞幸是扫码支付，麦当劳是跳app，美团跑腿也是打开app操作。没有人敢让Agent直接替你把钱付了。技术上肯定轻轻松松就能做到，但，整个社会的信任上，还没到那一步。。。这个信任不是靠一两个产品能建起来的，需要整个生态慢慢磨。反正我觉得，现在这个阶段很像2017年小程序刚出来的时候。当时大家也觉得这玩意有啥用，结果三年后很多的品牌都在做，特别是跟现实时间交互多的。 Skill和MCP这种Agent的基建，现在也处于这个窗口期，先做的人在探路，大量的品牌还在观望。但趋势已经不可逆了。当你的Agent能够点咖啡、叫出租车、查航班、发飞书消息、发邮件、管理文档、搜附近的酒店，最后可以自循环，完成支付那一步。。。它就不再只是一个工具了，它在慢慢变成你在数字世界里的另一个自己。或者说，是我们每个人心中的那个贾维斯。这个名单还会越来越长的。我坚信。

译卡兹克盘点瑞幸、麦当劳、飞猪、滴滴、高德、腾讯地图、美团跑腿、飞书、钉钉、企业微信、腾讯文档、支付宝、微信支付、微信读书、网易云音乐、美图等16款App，均已推出Skill、MCP或CLI服务。覆盖餐饮点单、出行规划、办公协作、支付收款、娱乐编辑等场景。支付环节普遍需跳转App完成。此外，千问、豆包等AI产品也集成第三方服务，Agent化趋势明显。

向阳乔木@vista8 · 7天前36

已经彻底从Dia换回原生的Chrome了。 Ask Gemini 侧边栏除了加载慢一点，整体也是可用。主要不想被某个 AI 浏览器绑架，Chrome兼容又是最好的。比如任何一条 X 帖子，都可以让 Gemini 总结要点，分析用户情绪倾向，非常方便。

译用户从Dia浏览器换回原生Chrome，认为Ask Gemini侧边栏整体可用（仅加载稍慢），且Chrome兼容性最好。举例：可直接让Gemini总结X帖子要点并分析用户情绪倾向。避免被特定AI浏览器绑架是主要原因。

Chubby♨️@kimmonismus · 7天前52

There may be an entire grey-market economy around Claude access in China: resellers allegedly pool Claude Max accounts, operate bot networks, and sell access far below official API prices. The more interesting claim: user logs and reasoning traces may be resold as training data. If true, this is not just API abuse but model access arbitrage turning frontier AI usage into a shadow data pipeline.

译中国可能存在围绕 Claude 访问的完整灰色市场：转售者据称共享 Claude Max 账户、运营机器人网络、并以远低于官方 API 价格出售访问权限。更令人关注的声称：用户日志和推理轨迹可能被转售用作训练数据。如果属实，这不仅是 API 滥用，更是模型访问套利，将前沿 AI 使用转化为影子数据管道。

Ethan Mollick@emollick · 7天前51

The capability overhang from the models we have today is big enough that large-scale change to work and society over the next 5+ years is now inevitable even if AI development stops. (And there is no real sign that AI development is slowing down, it appears to be accelerating)

译今天我们拥有的模型的能力过剩如此之大，以至于即使AI开发停止，未来5年以上的工作和社会的巨大变化也已不可避免。（而且没有真正迹象表明AI开发在放缓，它似乎在加速。）

AK@_akhaliq · 6月25日28

Have high conviction open models will win

译坚定相信开源模型会赢。

SemiAnalysis@SemiAnalysis_ · 6月25日24

Between colleagues attending dates with robots and ishowspeed getting mogged by a rizzbot, man is one step away from humanoid kind. EPISODE 16 LIVE NOW! https://www.youtube.com/watch?v=MD5zKs7j0mk

译同事与机器人约会，ishowspeed被rizzbot碾压，人类离人形机器人仅一步之遥。第16集现已上线！ https://www.youtube.com/watch?v=MD5zKs7j0mk

Ethan Mollick@emollick · 6月25日52

A lot of people who say they never use AI are using AI, but secretly. https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5464215

译很多人声称从未使用AI，但实际上在秘密使用。 https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5464215

Rohan Paul@rohanpaul_ai · 6月25日42

Former Goldman Sachs executive Raoul Pal explains how AI is going to eat traditional software/SAAS. If your product is just software, agentic AI can reproduce it on demand, optimize it, and redeploy it to a better market. "Agentic AI means it’s like having Fiverr, a website of experts you can ask any question. It’ll go away and do the task.... Agentic AI will build, design the website, code it, register the domain name, figure out the branding, figure out the marketing, figure out the email list, figure out the whole thing. So then you and I are in competition. You’ve built this incredible new website. I just go to my AI and say, “Love Steven’s website. Can you just build it better. Boom. 3 minutes. How can we be entrepreneurs in software? Now there’s this theory going around that AI is going to eat software, and I kind of get it." ---- From 'The Diary Of A CEO and Raoul Pal The Journey Man' YT channel. (link in comment)

译前高盛高管Raoul Pal在访谈中指出，若产品仅是软件，智能体AI可随时复刻、优化并重新部署。他将智能体AI比作专家网站Fiverr，能自动完成建站、编码、域名注册、品牌策划、营销及邮件列表等全流程。他设想用户只需对AI说“把Steven的网站做得更好”，AI便能在3分钟内完成。这引发了关于AI将吞噬软件、软件创业者未来出路的讨论。

SemiAnalysis@SemiAnalysis_ · 6月25日49

IN-DEPTH: What Unitree's Evolution Means For Robotics Unitree Playbook, China's Scaling Law, Geopolitics, and Humanoids in the wild https://www.fabricatedknowledge.com/publish/post/203332874?r=7ekf6a&utm_campaign=post&utm_medium=web&showWelcomeOnShare=true

译深度解析：宇树科技的进化对机器人学意味着什么宇树策略、中国的规模定律、地缘政治及野外的人形机器人 https://www.fabricatedknowledge.com/publish/post/203332874?r=7ekf6a&utm_campaign=post&utm_medium=web&showWelcomeOnShare=true

François Chollet@fchollet · 6月25日41

The most complex phenomena arise from scalable recombination of very simple rules. Whether it's galaxies, chips, or neural networks, if you find the right primitive building blocks, the complexity takes care of itself.

译最复杂的现象源于非常简单规则的可扩展重组。无论是星系、芯片还是神经网络，只要找到正确的基本构建块，复杂性就会自行涌现。

AYi@AYi_AInotes · 6月25日58

Prompt Engineering已死，Loop Engineering接棒， @karpathy 的做法我感觉最有画面感，晚上设好研究循环，自动改脚本，跑测试，留对的，扔错的，自己去睡觉，早上起来直接看结果，全程几乎不插手。这就是现在圈里聊的Loop Engineering，从指挥AI一步步走，变成设计一个能自己跑完的系统。四个支柱，每一个都是生产环境踩出来的血泪坑。 1️⃣知道什么时候停，别信它自己说搞定了，代码跑不通，逻辑有漏洞的情况比比皆是，要加硬性退出条件和独立验证，无数项目从demo到落地就死在这一步。 2️⃣保持上下文干净，循环跑久了旧错误，死胡同，冗余思考堆在一起，决策质量直线下滑，要把上下文当有限预算管，定期压缩，用子Agent隔离子任务。 3️⃣给真正能用的工具，不是堆一百个凑数量，要少而精不重叠，可安全重试，错误信息能被看懂，这是生产环境最容易翻车的地方。 4️⃣有能说不的机制，Agent不会挑自己的毛病，自己改作业永远满分，必须把干活的和检查的分开，也就是Maker-Checker模式，Claude Code团队早就在用了。 @bcherny 说得最直白，我已经不prompt Claude了，我写loops，然后让它们跑。模型正在慢慢变成标准件，同一个模型，配上更好的循环设计，效果能从中等拉到顶级。真正的工程价值，早就从单次对话转移到了长期自治系统的设计上。做Agent的朋友可以对照着查一遍，什么时候你从写提示词的人，变成了设计系统的人，什么时候才算摸到了下一阶段的门槛。

译推文认为Prompt Engineering终结，Loop Engineering取而代之。典型场景：@karpathy晚上设好研究循环，自动改脚本、跑测试、保留正确结果、丢弃错误，人睡觉机器跑。四大支柱均来自生产环境：1）硬性退出条件与独立验证，防止模型“自认为完成”；2）上下文当有限预算管理，定期压缩、用子Agent隔离子任务；3）工具少而精、可安全重试、错误信息可读；4）Maker-Checker模式（如Claude Code已用），干活与检查分离。@bcherny总结：不再prompt Claude，而是写loops让它们跑。模型正成为标准件，工程价值转向长期自治系统设计。

Berryxia.AI@berryxia · 6月25日63

别只吹OpenAI的芯片牛逼了… OpenAI今天官宣自研第一颗AI芯片「Jalapeño」（辣椒芯片），全网都在吹“垂直整合时代来了”…… 但真实情况没人说：这不是胜利宣言，是被推理成本逼到墙角后的无奈自救。推理（跑模型回答用户）成本正在爆炸式吞噬OpenAI的利润，甚至威胁生存。前因：ChatGPT每天要处理海量用户查询，NVIDIA GPU又贵又抢手。 2025年10月，OpenAI就和Broadcom宣布合作开发自定义AI加速器，目标10吉瓦规模。现在Jalapeño出来了，OpenAI自己从头设计，Broadcom负责生产。后果：如果2026年底实现吉瓦级部署——推理成本有望降低约50%（Broadcom CEO原话），性能功耗比大幅优于当前顶级加速器。让ChatGPT、API和未来Agent产品跑得更快更便宜。 OpenAI将从“模型公司”彻底变成“全栈AI基础设施公司”，服务更多人，但也意味着大公司对底层算力的掌控更深。别人最忽视的细节（这些才是真正震撼的点）： ✅ 开发速度离谱：从初始设计到制造流片仅用9个月！而且是用OpenAI自己的AI模型辅助设计的（AI在帮自己设计加速自己的硬件，meta到爆）。 ✅ 这颗芯片只针对Inference（推理），不是训练。训练阶段大概率还是得继续依赖NVIDIA。 ✅ 首批样片已经到手，正在实测中。早期数据：性能功耗比显著优于当前最先进的水平”。 ✅ Broadcom CEO直接说：性能能媲美NVIDIA Blackwell + Google TPU，同时成本省一半。 ✅ 它不是孤零零一颗芯片，而是OpenAI未来多代计算平台的第一步，还带Broadcom的网络技术。 ✅ 名字叫「Jalapeño」，够辣，够应景这个越来越“spicy”的AI时代。这枚芯片的出现，其实在无声宣告：AI已经开始用自己加速自己的基础设施建设。而人类对算力的胃口，只会越来越大。你怎么看？是OpenAI的聪明自救，还是AI军备竞赛又一次疯狂升级？

译OpenAI 发布首颗自研 AI 芯片 "Jalapeño"，专为 LLM 推理设计，与 Broadcom 合作生产。从设计到流片仅 9 个月，且由自身 AI 模型辅助设计。首批样片已到手，性能功耗比显著优于当前顶级加速器，Broadcom CEO 称性能媲美 NVIDIA Blackwell 与 Google TPU，同时成本降低约一半。目标 2026 年底实现吉瓦级部署，推理成本有望下降约 50%。该芯片将驱动 ChatGPT、Codex、API 及未来 Agent 产品，标志着 OpenAI 从模型公司向全栈 AI 基础设施公司转型。

SemiAnalysis@SemiAnalysis_ · 6月25日49

Chat develop a chip from initial design to tape out in 9 months, make no mistakes.

译Chat从初始设计到流片在9个月内开发出一颗芯片，并且不犯任何错误。

向阳乔木@vista8 · 6月25日57

http://x.com/i/article/2069806162506051584 # SpaceX的"大航海时代"：一位前高管眼中的火箭、AI与马斯克太空低轨道上飘着 3 万多块 10 厘米大小的碎片，以超音速在那里转圈。这是洪力德（Louis Hong）随口抛出的一个冷知识。他在 SpaceX 待了 7 年，管过 7 个部门、3000 多个火箭部位，离开时是猎鹰 9 号的首席制造工程师。现在他做早期 VC，专投美国硬科技。在 SpaceX 收购 xAI、IPO 前（现在应该都结束了），他接受了张小珺的深度访谈。聊了三个小时，从马斯克的用人哲学，到火箭为什么要找 Mini Cooper 团队来造，再到太空数据中心的底层逻辑，相当值得听，小宇宙如下： > https://www.xiaoyuzhoufm.com/episode/6a2be5da43a22a695582ad20 ## 从广州到斯坦福，1999 年全中国只有两个人洪力德出生在台湾，但很小就跟着父母离开。父母都在德国公司工作，所以他辗转住过德国、香港，最后在广州待了 8 年，在那里读完高中。 1999 年，他从广州直接申请斯坦福。那一年，整个中国大陆只有两个人被录取，他是其中之一。斯坦福读的是机械工程。毕业那年，2003 年，他面临两个选择：加入 Google 成为早期员工，或者去一家财富 500 强做自动化工程师。他选了后者。主持人问他后不后悔错过 Google。他想了想说："人会后悔，是你知道应该做一件事，但因为害怕，选择了更简单的路。后来证明你的直觉是对的，但你没有 follow 它。Google 那时候不是我的直觉，所以没什么可后悔的。" 这句话，在九年后的另一个选择面前，有了完全不同的重量。 ## 两个工人对 55 个工人，他在爱普生学到的事洪力德的第一份工作在爱普生，地点在美国西北部的波特兰总部。他被招进去做的事，是设计墨水夹生产线。墨水夹是爱普生最赚钱的业务，撑起了整个集团。美国总部的生产线，全程自动化，一条线只需要两个工人：一个在前端放货，一个在末端检查成品。同样的生产线，在中国那时候需要 55 个工人。这就是美国制造业在 2000 年代初的样子：用极致的自动化，和中国的人力成本竞争。洪力德在这里第一次深刻理解了生产效率的本质。他在爱普生的第二年，就成了全集团最年轻的高管，管着七十几个人的工厂。在一家极度保守的日本公司，这几乎是不可能发生的事，但他的日本老板力排众议，把这个位置给了他。但他很快发现，这份工作让他窒息。每天三个小时，他就做完了所有该做的事。剩下的时间，在日本公司文化里，你不能说"我做完了，我回家了"，只能继续待着。表面上是最轻松的工作，实际上是他整个职业生涯里最累的经历，不是身体累，是那种被困住的感觉。两年后，他离开了。 ## 所有人都劝他选亚马逊，他选了太空辗转香港做供应链顾问、在亚洲创业做食品品牌之后，2012 年，洪力德同时收到两个邀请。一个是去日本帮亚马逊开拓市场，他在爱普生时的老板，亲自打电话来，说这是"你人生里不会再碰到第二次的机会"。另一个，是一个很久没联系的斯坦福老朋友突然找来，说他们在洛杉矶造火箭，问他要不要来。洪力德问了所有身边的人。所有人给出了一致的答案：当然选亚马逊，去太空干什么？SpaceX 了不起，一年发十几次火箭，so what？他最终选了 SpaceX，理由只有一个： "如果 SpaceX 真的做成了，那将是一个前所未有、我们从来没有看过的世界。如果我有机会在早期加入这个使命却没有去，我一定会后悔一辈子。" 这和九年前错过 Google 的逻辑，形成了一个清晰的对照。 ## 2015 年 12 月 21 日，比 GPT-3 更重要的时刻洪力德把 2015 年 12 月 21 日称为整个太空行业的真正转折点。那天，猎鹰 9 号第一次成功入轨，并完整回收。为什么这个日期对 SpaceX 人如此重要？他打了个比方：你从 A 城开车到 B 城，刚好开进家门口的那一刻，油箱里最后一滴油用完了。这就是火箭。火箭的最高境界，是把整个旅程精算到这种程度。燃料剩一堆，说明你的效率极端低下。而可回收，意味着这个"一次性工具"变成了可以反复使用的基础设施。在这之前，任何运输工具用一次就扔，根本谈不上规模化。这个逻辑放到航天业，就是整个产业的经济基础，从这一刻才真正成立。洪力德说，这件事在业界的意义，甚至比 GPT-3 对 AI 行业的意义还要大。 ## SpaceX 的真实目标从来不是造火箭很多人把 SpaceX 理解成一家火箭公司，这是最大的误解。洪力德 2012 年加入 SpaceX，2013 年第一次和马斯克开会。那时候公司才刚刚能一年发射一次，马斯克却已经成立了火星小组，开始规划新一代火箭，也就是后来的星舰。火箭是手段，不是目的。猎鹰一号 2008 年第四次发射成功，SpaceX 立刻把它退役了。很多人觉得不可思议，好不容易成功了，为什么不继续接单赚钱？因为猎鹰一号的使命只有一个：证明这群人能把火箭送进轨道。完成了，就可以去做更重要的事。猎鹰 9 号是猎鹰一号载荷能力的 25 倍，星舰又是猎鹰 9 号的 5 倍。每一代都不是为了"造更好的火箭"，是为了让下一步的目标变得可能。这个逻辑，洪力德用发射成本来量化： - 猎鹰 9 号之前：每公斤载荷送入太空，约 1 到 2 万美元 - 猎鹰 9 号加回收：降到约 3000 美元，接近十分之一 - 星舰的目标：100 美元以下从两万到一百，缩小两百倍。很多以前在账面上根本算不过来的太空项目，突然就变得可行了。 SpaceX 内部流传着一件应该印出来的 T 恤，上面写着"I told you so"（我早就告诉过你），然后印上马斯克的名字。意思是，很多当时看起来荒谬的事，后来都一一被证明是对的。这件 T 恤从来没有真正印出来，但那种感觉，在 SpaceX 工作过的人都懂。 ## 2014 年，他买下了x.com这个域名 2014 年，洪力德和同事在公司食堂吃午饭，有人说听到一个消息：马斯克买下了x.com这个域名。大家当时没太当回事。现在回头看，SpaceX、xAI、X（原 Twitter），马斯克旗下的公司，几乎每一家都带着这个字母。洪力德猜测，或许有一天，这些公司会像 Alphabet 整合谷歌一样，统一在一个"X"的控股结构下面。他说这只是猜测。但他补了一句："我不认为这几家公司的存在是偶然的。" ## 星链的第一原理：太空传输速度天然比光纤快一倍为什么要做星链？洪力德给了一个很少被提到的物理层面的解释。在真空环境中，信号从 A 点到 B 点的传输速度，比地球上任何最先进的光纤都要快将近一倍。这不是技术优势，是物理定律决定的天然优势。所以星链不只是"给偏远地区提供网络"那么简单。它是一条在物理上就比地面网络更快的数据高速公路。星链计划在 2015 年启动，也就是猎鹰 9 号第一次成功回收的同一年。 SpaceX 刚完成第一步，立刻开始规划第二步。 ## SpaceX 收购 xAI：太空数据中心的底层逻辑在美国建数据中心，有两个几乎无解的难题：第一，审批。选址、电力接入、环评、周边居民同意……每一关都要花大量时间和精力。第二，缺电。美国电网大部分是 30 年以上的老设施，最新的两座核电站建于 1990 年代。在 AI 出现之前，电网缺口就已经达到 25% 到 40%。 AI 需求叠加上来，根本没有足够的电力支撑大规模数据中心扩张。太空数据中心解决的正是这两个问题： - 不需要审批，谁先上谁先占位 - 太空太阳能转换效率比地面高出十几个百分点，而且能源几乎无限洪力德说，这是 SpaceX 和 xAI 合并背后真正的底层逻辑，不是马斯克某天突发奇想，而是从第一原理推导出来的必然路径。当然，他也没有回避难度：把算力发射到太空，并让它在性价比上真正超越地面数据中心，这不是一条简单的路，即使对 SpaceX 来说也不是。 ## 马斯克的用人哲学：不要经验，要成长速度 SpaceX 早期有一个内部笑话：如果你能在 SpaceX 待超过 6 个月，恭喜你，你已经是元老了。很多人进来之后发现，这里完全不是他们想象的公司，很快就离开了。洪力德自己就是典型案例。他加入 SpaceX 之前做过食品创业，在给马斯克的那封"入职申请信"里，他这样解释食品和火箭的关联：食品是全世界最难的产品之一。你需要在极短时间内爆发式生产海量产品，同时每一个产品都要通过全世界最严格的品控——你的嘴巴。这套对生产流程的极致要求，完全可以迁移到火箭制造上。马斯克看完，一分钟内拍板要了他。 SpaceX 不找航空航天专家，原因很直接：整个行业几十年没什么大变化，都是那批人弄的。如果要真正打开宇宙，必须引入外部视角。他们第一批负责扩张生产流程的团队，来自 Mini Cooper。原因是 Mini Cooper 在所有汽车品牌里 SKU 最高：车顶颜色、后视镜颜色、内饰配置，排列组合下来是全行业最复杂的生产系统。而猎鹰 9 号的每一次发射都在迭代，没有两只火箭是完全一样的，需要的正是这种"高量、高变化"的生产能力。 ## 全世界最高科技的宜家洪力德加入 SpaceX 的第一个岗位，是负责飞龙号飞船的内舱设计。飞龙号承担的任务，是把货物从猎鹰 9 号送到国际空间站。内舱，是宇航员打开舱门后唯一能看到、能触碰的部分。科幻电影里那些发光的操控台、流线型的座椅，描述的正是这个空间。洪力德说，实际上他做的事情，本质是在造 "全世界最高科技的宜家橱柜"。要最轻，同时要能承受普通家具根本无法想象的几倍重力，还要和飞船所有系统完美协调。这些东西市面上根本买不到，全部要自己开发。他说，这些“橱柜”的造价，可能比美国中西部一栋房子还贵。 ## 马斯克开会只谈三件事洪力德和马斯克开过很多次会。他总结，马斯克只会在三种情况下找你： 1. 你的东西迟到了（Delay了） 1. 你的东西做不出来 1. 你的东西需要更多的钱没有例行汇报，没有定期同步。马斯克不找你，说明你做得不错，继续做。他每年年初会给全公司发一个目标清单，密密麻麻列了二三十件事。大家看完的第一反应，通常是：如果能完成前两三件，已经很了不起了。马斯克的逻辑是：如果全公司都像他一样，这些事全部都能完成。但现实是，能完成前三到五件，公司就已经在整个行业里遥遥领先。这份清单不是 KPI，是一种施压机制，也是一种方向感。有一次，一位资深工程师在会上对马斯克说"你要求的东西不可能做到"。马斯克没有拍桌子，没有咆哮，很平静地说了一句： "好，那我接受你的辞呈。" 会议室里沉默了大约 30 秒。那个工程师走出去了，就这样。洪力德说，马斯克不会大声骂人，但比大声骂人更让人难受，他只是平静地告诉你，你不适合待在这里。不过马斯克也有另一面。他开心的时候，会像小孩子一样，跟你讲冷笑话，眼睛发亮，完全藏不住。洪力德说，全公司都在拼命，某种程度上是因为大家都想看到他那个状态。那种开心是真的，不是表演出来的。这两面放在一起，才是洪力德眼中真实的马斯克：极度平静，极度真诚，情绪很少外露，但一旦外露，就是最真实的那种。他对团队的要求，不是"提升 30% 效率"，而是十倍级、百倍级的跳跃。有一次团队自研高压桶，把成本降低了 90%，还做出了全自动化生产线，觉得已经是全球最牛的团队了。马斯克看完，第一句话是： "你有没有看过可乐罐的生产？" 可乐罐也是耐压产品，一分钟能生产上千个，成本几分钱。从第一原理看，你们做的这个东西，和可乐罐是同一类物理问题，你们还有多大的改进空间？没有办法反驳。 ## 最崇拜的人，差点让他哭出来 SpaceX 早期最难熬的，不只是技术和资金，还有来自"自己人"的否定。马斯克年轻时极度崇拜 Buzz Aldrin：人类第二个登上月球的人，阿波罗 11 号的宇航员。但 Buzz 曾公开说，SpaceX 最终会搞砸，因为他们是一群硅谷牛仔，根本不懂太空有多不容许犯错。马斯克在接受采访时谈到这件事，差点哭了。洪力德说，那段时间 SpaceX 的处境是：在内部拼命往前推已经很累了，好不容易做成一点事，还被外界时时刻刻泼冷水。而泼冷水的，恰恰是他最崇拜的人。更讽刺的是，当年那批最大声说 SpaceX 会搞砸的人，现在是最大声说 SpaceX 是全球最厉害公司的人。 ## NASA 用了二十年，花了 250 亿美元，造出一个不如星舰的火箭这件事，是理解 SpaceX 为什么能赢的关键。 NASA 在 SpaceX 出现之前，用的是一种叫"成本加成"的合同模式：承包商花多少钱没关系，NASA 保证你在成本上还能赚钱。在这种结构下，没有任何人有动力去降低成本，越花越多反而越赚。波音、洛克希德·马丁这批传统航天巨头，就是在这套机制里养大的。 NASA 自己后来开发了一款火箭，叫 SLS。 2011 年启动，花了接近 250 亿美元，用时将近二十年。性能远不如星舰，而且不可回收。这是旧太空时代最典型的产物。 SpaceX 的出现，逼着 NASA 改变了游戏规则。 NASA 开始把合同给民营企业，不再包成本，而是按结果付钱。第一张单，给了 SpaceX，用猎鹰 9 号和飞龙号，给国际空间站补给物资。洪力德说，NASA 的转变不是因为它突然开窍了，而是因为它已经被边缘化到不得不改变。三十年躺着，总有一天要交代。 ## 最成功之后，才是最低谷洪力德说，很多人以为 SpaceX 最困难的时刻是 2008 年：猎鹰一号连续失败三次，公司快撑不住了。但他不这么看。真正最难的时候，是 2015 年和 2016 年。那时候猎鹰 9 号已经是业界公认最先进的火箭，SpaceX 已经跑到了所有人前面。就在这个时候，连续两次发射失败。两次，都跟洪力德管的部门有关。在一无所知的情况下失败，比一开始就失败更难熬。因为你已经是最好的，没有人可以问，没有参照系，只能靠直觉和运气一个个排查所有可能性。那段时间，洪力德说是他在 SpaceX 七年里压力最大的时候。他很久没生过病，那段时间病了。最后找到的问题，是一个"未知的未知"，一个在所有设计审查里都没有被发现的边缘缺陷，被他们猜中了。猎鹰 9 号在那之后，600 多次发射，再没出过类似的问题。值得一提的是，2015 年 6 月 28 日那次爆炸，恰好是马斯克 44 岁生日。洪力德那天比平时晚到，刚进公司就听同事说"看起来不妙"，几分钟后火箭在发射台上炸了。他说，可以想象马斯克在自己生日这天经历这件事，是一个蛮深刻的体验。马斯克那天坐在控制台最前排，洪力德没有看到他的表情。 ## 深夜 11 点，他在产线上找愚蠢的流程洪力德的特斯拉合伙人告诉他一个细节：马斯克最喜欢在晚上 11 点之后去特斯拉产线，看大夜班运转。不是去巡视，不是去鼓励员工。他去找的是"不符合逻辑的愚蠢流程"，发现了，当场就干掉。这和洪力德描述的 SpaceX 里的马斯克是同一个人：他只出现在最困难的问题面前。某个部件卡住了，某个流程出问题了，你会发现马斯克就待在那边，直到问题解决。不庆功，不做仪式感，只盯着那个还没解决的东西。 ## SpaceX 的竞争对手是谁？马斯克的原话：我们的竞争对手是我们自己的进展速度。但我们密切关注中国航天的发展。洪力德认为，未来太空领域最重要的两个参与者一定是中美。他把 SpaceX 比作大航海时代的东印度公司，财力和影响力都极其庞大，而且才刚刚开始。他至今没有卖掉手里的 SpaceX 股票，理由是：这家公司的估值，连它一点点可能性都还没有反映出来。至少是一个万亿级的公司。 ## 太空产业的真正机会在哪里洪力德把航天产业链分成三层： - 上游：火箭、卫星、太空站的建造和发射 - 中游：卫星控管、数据传输 - 下游：应用层，星链是目前最明显的案例他们基金的投资逻辑，是找"SpaceX 链"和"Android 链"上的创业者。前者是顺着 SpaceX 平台做配套，后者是在 SpaceX 打开的市场里独立发展。这批创业者大多来自 SpaceX 内部，二三十岁，工程能力极强，对行业底层逻辑有独特认知，洪力德把他们称为"SpaceX Mafia"。他们现在关注的一个方向：在太空的微重力环境下生产下一代晶圆。地球上建一座晶圆厂需要几十亿美元，本质上是在花大价钱模拟一个接近真空的洁净环境。太空天然就是这个环境。另一个方向：可控重力太空站。不是有重力或没重力，而是可以主动调节重力大小。这是一个纯工程问题，物理上完全可行，只是之前没有人有能力去做。人类即将进入一个可以控制温度、气压，还能控制重力的空间，这是历史上从来没有过的第三个维度。 ## 给从业者的一个判断如果你在关注太空产业，洪力德的核心判断是：现在的太空，不是 95 年的互联网，也不是 10 年的移动互联网，而是一个比这两者都更大、且刚刚开始的市场。星链只是第一层应用。当低轨通信网络成熟之后，它对地球整个数字生态的影响，会是第二波 AWS：所有的 AI 应用、物联网、自动驾驶，都可能跑在这张天上的网络上。 SpaceX 用 20 年打开了这扇门。接下来的机会，在门后面。

译前SpaceX猎鹰9号首席制造工程师洪力德（Louis Hong）接受访谈，指出2015年12月21日猎鹰9号首次入轨回收是行业转折点，将每公斤发射成本从1-2万美元降至约3000美元（星舰目标100美元以下）。星链基于真空传输速度比光纤快一倍的物理优势于2015年启动。SpaceX与xAI合并的底层逻辑是太空数据中心：免审批、利用高转换效率太阳能，解决美国电网25%-40%缺电及AI算力需求。马斯克用人重成长速度而非经验，如曾用Mini Cooper团队创新火箭制造。

AYi@AYi_AInotes · 6月24日61

AI集成的草莽时代正式结束咯！当大家都在喊AI替代人类工作的时候，最该用上AI的公司@NotionHQ 反而大规模扩招了，真的太有意思了， Notion这条招聘帖我觉得更像是AI时代一个聪明的反向宣言，职位列表里找不到一个叫Prompt Engineer的角色，取而代之的是模型行为工程师，AI评估师，AI治理专员，客户体验知识架构师这些，早年接个API，写几条提示词就能凑出功能的玩法已经行不通，现在要专人调优模型的行为边界，专人评估输出质量，专人设计权限与审计体系，每一环都变成了正经的工程化岗位。这些新角色本质上在回答同一个问题，当AI能干活了，人类该干什么？ Notion的答案很清晰，AI负责执行，人类负责定义什么值得执行，信任，关系，判断，结构化，商业放大，这些AI做不了的事，反而成了最核心的价值。所以他们一边猛招AI技术岗，一边扩招销售，客户成功，知识架构师， AI产品越复杂，越需要人去做AI做不了的事。其中模型行为工程师这个角色最有标志性，它不是传统的机器学习工程师，管的是模型在产品里的人格一致性，安全边界，上下文融合方式，就像当年移动互联网从网页套壳走向原生应用时，第一批原生开发工程师的出现，新工种的定义权，永远藏在这种没见过但一看就懂的职位名里。还有一个容易被忽略的细节，实习生要求里除了AI构建经验，还写明对艺术，历史，社会科学的兴趣，也就是说他们要的从来不是只会调API的工具人，要有判断力，能在复利工作上做取舍的人，毕竟工具会过时，但判断力不会。而且连这条帖子本身也是个信号，纯ASCII艺术的招聘帖拿到七千赞百万级浏览，这说明了信息过载的时代，人格化加可参与性的传播效率，远大于信息密度本身。 Notion用一整篇招聘说了一句没写出来的话，那就是AI时代的赢家，不会是最可能替代人的公司，而是最会定义人类新角色的公司。

译Notion 发布招聘帖，职位列表中找不到传统 Prompt Engineer，取而代之的是模型行为工程师、AI 评估师、AI 治理专员、客户体验知识架构师等工程化岗位，负责调优模型行为边界、评估输出质量、设计权限与审计体系。Notion 认为 AI 负责执行，人类负责定义价值，因此同步扩招销售、客户成功、知识架构师。实习生要求对艺术、历史、社会科学有兴趣，强调判断力。招聘帖采用 ASCII 艺术设计，获得高传播。

Google DeepMind@GoogleDeepMind · 6月24日50

What happens when millions of AI agents start negotiating, transacting, and delegating to one another? @weballergy joined our podcast with @fryrsquared to explore the rise of agentic economies – and how we can diversify agent decision-making to avoid AI groupthink. Timecodes: 00:00 Intro 1:07 Defining AI agents 4:44 Agentic exploration in science and research 15:46 Delegation between agents 22:46 Agentic security and traps 29:31 Building an agentic economy 33:22 Cognitive monoculture 36:29 Distributed intelligence

译Google DeepMind 发布播客，由 @weballergy 与 @fryrsquared 共同探讨 AI 智能体经济的崛起。内容涵盖：AI 智能体的定义、在科研中的探索、智能体间的委托与协作、安全风险与陷阱、如何构建智能体经济、认知单一文化（群体思维）风险，以及分布式智能的解决方案。播客还设有详细时间戳分段，帮助听众聚焦不同话题。

AYi@AYi_AInotes · 6月24日65

全网传爆的Telegram创始人Durov劝学生别学编程和AI，99%的人都被断章取义骗了。原帖把马斯克和Durov两位大佬的原话硬生生扭曲成了非此即彼的二元对立。真实对话里，Durov只说学生该优先把数学练扎实，马斯克补了句物理加数学。 Durov甚至明确补充，数学基础好之后，计算机科学非常值得学，是绝佳的落地路径。从头到尾，没人提出过放弃编程或AI的说法。谣言总能跑赢真相的核心原因，是刚好踩中了AI时代所有人的技能焦虑。极端化的非黑即白叙事，永远比基础加应用叠加的客观建议传播力强一百倍。但这件事真正值得聊的，根本不是谁对谁错的口舌之争。是AI时代的技能优先级，已经在所有人没察觉的时候悄悄变了。当AI能写掉大部分基础代码，单纯的码代码熟练度已经不再是核心壁垒。真正稀缺的，是数学教你的拆解问题逻辑自洽，是物理教你的建模现实理解因果。这些底层思维，决定了你能不能定义对的问题，设计出靠谱的系统，而不是只会对着AI提需求。成长的最优路径从来不是二选一。数学物理打底，编程落地，AI加速迭代。缺了哪一层，都是在给自己的能力上限拆墙。

译网上流传Telegram创始人Durov劝学生别学编程和AI、只学数学物理的说法是断章取义。真实对话中，Durov只建议优先打好数学基础，马斯克补充物理加数学，Durov还明确表示数学基础打好后计算机科学非常值得学。没人提出放弃编程或AI。谣言传播是踩中了AI时代的技能焦虑。实际上，AI能写基础代码后，核心壁垒是数学教的拆解问题逻辑和物理教的建模因果思维。最优路径应是数学物理打底、编程落地、AI加速迭代。

DogeDesigner@cb_doge · 6月24日32

Elon Musk just updated his 𝕏 bio to “Starmind” Starmind is the name of SpaceX’s upcoming AI satellite constellation.

译Elon Musk刚刚把他的𝕏个人简介更新为“Starmind” Starmind是SpaceX即将推出的AI卫星星座的名字。

Rohan Paul@rohanpaul_ai · 6月24日52

FT: Bain is testing takeover targets by using vibecoding to rebuild rough AI-made copies of their software. These replicas are not perfect clones, but they can expose whether a product’s interface, analytics, automation, or workflow logic is easier to reproduce than sellers claim. The replicas help potential buyers assess how difficult it would be to recreate a software product and whether the company has a defensible competitive advantage. Say a company is selling an analytics tool that takes sales data, cleans it, finds patterns, creates dashboards, and recommends what a sales manager should do next. Bain may ask AI coding tools to quickly build a basic version that uploads sales data, generates similar dashboards, adds simple recommendations, and feels somewhat like the target product. Bain says its teams have built hundreds of prototypes, and the tool has moved from specialist engineers to regular consultants doing AI diligence. For investors, the Bain method is built to reveal where a software company’s value actually sits, from its code and workflows to customer relationships, data, distribution, or other business layers. Using AI-made prototypes also lets buyers see how a product could develop in the years ahead as AI continues changing enterprise tech. This strategy comes at a time when generative AI is making software development cheaper and challenging the strength of SAAS business models. --- ft .com/content/e5bac4d1-b1f8-43a4-bd54-b182d5357af0?syn-25a6b1a6=1

译贝恩在测试收购目标时，使用vibecoding（AI快速原型开发）重建目标软件的粗略AI副本。这些副本并非完美克隆，但能暴露产品界面、分析、自动化或工作流逻辑是否容易被复制，帮助评估公司的竞争护盾。贝恩已构建数百个原型，该工具已从专业工程师扩展到普通顾问。案例：销售数据分析工具，AI可快速生成类似仪表盘和推荐。该方法揭示软件价值实际所在（代码、工作流、客户关系、数据等），也让买家预见AI如何重塑产品未来。此举正值生成式AI降低软件开发成本、挑战SaaS商业模式。

ginobefun@hongming731 · 6月24日43

http://x.com/i/article/2069568375752445952 # BestBlogs 早报 · 06-24｜Claude Tag 给智能体独立身份，AI 编码提速藏代价，Harness 架构降三成对话成本在线阅读本期早报 BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容，如果你希望它基于你的兴趣和阅读习惯整理，可以体验「我的早报」。 ## 导语今天的核心问题是信任的边界该划在哪。精讲一里，Anthropic 给 Claude Tag 推出了「智能体身份」访问模型：团队频道里的 Claude 不再借用某个人的权限，而是拥有管理员配置的独立账号体系，按频道继承或覆写权限边界，能读写 GitHub、数据仓库等系统并留下独立审计轨迹。核心转变是从「这个用户能做什么」变成「这个智能体在这个范围内能做什么」——这是多人协作场景下自主智能体访问控制的关键基础设施。精讲二记录了不设边界的代价。《Pragmatic Engineer》梳理了 AI 高速生成代码带来的结构性问题：Meta 一次未经人工复核的 AI 生成代码直接导致 Instagram 重置密码漏洞，CISO 在事故调查中离职；Meta、Amazon 内部出现「刷 Token 量」绩效造假，GitHub 因 AI 驱动的提交量暴涨三倍而持续抖动。作者给出的对策很务实：限制每日可审计的生成量、把 AI 用于清偿技术债而非替代理解、不让工具决定架构判断——速度的代价正在系统性显现。精讲三则从另一个角度回答「边界该怎么划」：决定 AI 编程效果的往往不是模型本身，而是包裹在外面那层约束代码。腾讯云开发者结合 LangChain、Anthropic、OpenAI 等一线工程实践，系统拆解了「Harness 工程」——同一模型换上更精巧的外层架构，TerminalBench 通过率即可从 52.8% 跃升到 66.5%。三条精讲放在一起看，正好覆盖了今天 AI 工程里最实在的三个问题：智能体的权限边界怎么划，没有边界会付出什么代价，以及怎么用工程化的「壳」把这种边界变成可复制的系统。 ## ★ 精讲一：智能体身份：适用于自主、团队级 AI 的新型访问模型 | Claude 原文链接：智能体身份：适用于自主、团队级 AI 的新型访问模型 | Claude（Claude Blog） Anthropic 这篇博客提出的判断很直接：当 AI 在「单人模式」下工作——一个人和一个助手聊天——权限模型很简单，你连上自己的账号，agent 代表你行动。但 Claude Tag 把 Claude 放进了团队共享频道，它要调用的是整个工作空间的工具和上下文，而不属于某一个具体的人。这种「多人模式」让「借用某个人的权限」这套老办法彻底失效，原因有两个：一是 agent 的自主性在持续增强，能独立完成的任务时长大约每四个月翻一倍，agent 现在会自己安排任务，在发起者下线很久之后还在响应事件；二是当频道里有多个人同时在指挥 agent，比如三个工程师和一个产品经理一起在排查问题，到底该用谁的权限去执行操作？没有哪个人的权限选择是「永远正确」的。 Anthropic 给出的答案是「智能体身份」（agent identity）：Claude 在它接触的每个系统里都拥有自己的账号，在 Slack 里以 Claude App 的身份发帖，以 Claude GitHub App 的身份开 PR，用管理员配置的服务账号查询数据仓库。因为没有任何个人凭证参与其中，一个共享频道永远不会变成某个人私密文档的后门。在这套模型里，管理员在工作空间层级定义一个身份——Claude 在所有地方持有的基础连接和技能集合——每个频道默认继承这套身份，再按需在频道层级覆写，比如把工程频道的权限开到 GitHub 和数据仓库，或者把某个 CRM 连接限定在一个私密频道内。管理员需要配置的内容包括：仓库访问范围（Claude 能读写哪些仓库）、连接器（Claude 用来完成工作的工具和 API Key，同一个服务在不同频道可以配置不同权限级别）、技能与插件（Claude 动态加载的指令、脚本和资源文件夹），以及每个频道的常驻指令。因为这套模型围绕独立的 Claude 身份构建，撤销身份就能一次性终止 Claude 在所有使用过该身份的地方的访问权限——这比逐个审计分散在几十个用户账号下的 agent 行为要省力得多。这套设计和今天另外两条精讲形成了清晰的呼应：精讲二里 Meta 的 Instagram 漏洞事故，本质就是 AI 代码在没有清晰权限边界和审计轨迹的情况下被直接上线；精讲三里腾讯云开发者讲的 Harness 工程，则是从另一个维度——「模型外面那层约束代码」——回答同一个问题：怎么让 AI 在可控范围内做正确的事。Anthropic 把这种约束做到了身份和权限层，腾讯云开发者的实践做到了规则和钩子层，两者共同指向一个判断：随着 agent 自主性提升，「给 AI 划清楚边界」正在变成和模型能力同等重要的基础设施问题。值得留意的是，这套身份模型并不是一次性配置完就一劳永逸的静态权限表。文章里提到，管理员可以随时按频道粒度调整覆写规则——比如某个临时项目频道需要短暂打开生产数据库的写权限，事后再收回——这种「默认收紧、按需放开、随时可撤销」的设计思路，本质上和传统 IT 安全里的最小权限原则是一脉相承的，只是把审计的颗粒度从「人」下沉到了「人 + 智能体」的组合。 ## ★ 精讲二：慢下来才能更快：AI 如何重塑软件工程原文链接：慢下来才能更快：AI 如何重塑软件工程（The Pragmatic Engineer）这期视频梳理的是一个正在系统性显现的代价：当 Cursor、Claude、Codex 这类高度智能、能感知上下文的工具让工程团队的产出速度达到前所未有的水平，随之而来的不是简单的效率提升，而是结构性的脆弱、软件可靠性的明显下滑，以及内部文化压力的彻底重塑。文章给出的第一个真实案例分量很重：Meta 出现了一次史无前例的安全漏洞，一个未经身份验证的密码重置机制被直接上线到 Instagram，这个漏洞被直接追溯到由 AI 编写、又由 AI 审查、全程没有任何人工验证步骤的代码。这次重大基础设施事故之后，Meta 的首席信息安全官在事故调查正在进行期间意外离职——这个细节和当时精英软件团队普遍经历的大规模重组、被迫重新分配数据标注工作、士气急剧下滑的文化环境是吻合的。更值得警惕的是一种「反常指标」现象。当组织把 AI 使用统计直接接入工程师绩效评估，往往会催生意料之外的行为——文章把它称为 token maxing：因为担心被裁员，工程师开始故意刷高自动化系统的用量，比如执行没有实际意义的代码指令只为了在排行榜上靠前，用 AI 解析基础文档而不是自己直接读，或者把指标驱动的系统调用量摆在实际可交付的产品组件之上。这种缺乏人工验证的状况已经在头部基础设施平台引发了实质性的系统故障：Amazon 最近遭遇了一次核心平台中断，原因是内部一个生成式布局引擎意外清空了一个正在运行的生产环境；与此同时，GitHub 因为自动化开发工作流带来的三倍负载增长，持续出现性能不稳定。传统系统正在被自身的扩张速度压垮，因为代码库的膨胀速度已经远远超过结构性验证层能跟上的节奏——用行业资深人士的话说，现在的开发活动积累原始代码的速度，远远超过积累系统信任的速度。面对这种局面，文章给出的对策刻意保持朴素：把每天的生成式工作流限制在一个你能真正自信审计、测试、系统化验证的量级以内；把 AI 用来快速偿还已经积累的技术债，让自己转型成架构层面的维护者，而不是让 AI 替代对系统的深度理解；如果放任自动化工具决定具体实现细节、却忽略底层抽象，今天换来的速度就是在透支未来的专业技术能力。这恰好呼应了精讲一里 Anthropic 强调的「智能体身份」逻辑和精讲三里腾讯云开发者讲的 Harness 工程：无论是清晰的权限边界、独立的审计轨迹，还是包裹在模型外面的约束代码，本质都是在给 AI 的自主性套上一层人类可以验证、可以追溯的「刹车系统」——没有这层系统，速度本身就会变成风险。 ## ★ 精讲三：从 Harness 架构到 Token 经济学的探索原文链接：从 Harness 架构到 Token 经济学的探索（腾讯云开发者）这篇文章试图回答一个让很多人沮丧的问题：花半小时纠正 AI 的一个错误，写清楚「不要这样做」，第二天开新会话，AI 还是会犯同样的错；换了更贵的模型，效果没有想象中提升；同一套代码，别人的 AI 跑得很顺，自己接进来却各种翻车。2025 年 LangChain 发布的一组实验数据点出了答案：给同一个大语言模型换上一套更精巧的 Harness 架构，它在 TerminalBench 2.0（AI 编程能力权威榜单）的通过率，从 52.8% 直接拉升到 66.5%，底层模型权重一个字节没改，单靠换壳，排名从 30 名开外飙进前 5。文章由此引出一个公式：Agent = Model + Harness。Harness（直译「挽具/线束」）是包裹在大模型外面的那套代码，决定模型能看到什么、行为边界在哪里，以及模型如何知道自己做对了。文章梳理了 Harness Engineering 从 2022 年 ReAct 论文的 Thought-Action-Observation 循环，到 2023 年 Reflexion 论文把失败转化为反思记忆，再到 2026 年 LangChain 把控制论（Cybernetics）正式引入 Harness 框架的完整演进史，并把这些学术概念对照到真实的工程配置：Rules 承担「前馈控制」，在设计时就把先验知识和约束边界注入 AI 的推理上下文；Hooks 承担「反馈控制」，在 AI 行动之后检测结果、计算偏差、决定阻止或纠正——两者合起来构成 Harness 的双保险。具体到 ReAct 循环的三个阶段，Rules 用 project-rules.md 约束 AI 的思考方向，PreToolUse Hooks 在 AI 决定调用工具前做安全检查，PostToolUse Hooks 在工具返回结果后做反馈，比如检测到改动涉及公共组件后自动 grep 全仓库的引用方，把影响面报告追加进观察结果里。文章的判断很形象：没有 Harness 的 ReAct 就像没有刹车的车，能跑，但不知道什么时候该停，Hooks 就是装在行动阶段的刹车系统。除了架构层面的拆解，文章还给出了实测的 Token 成本数据：通过精简 Rules、按需加载 Skills、压缩 Hooks 输出等手段，把单次对话的基础开销从 23.5K token 降到 15K token，降幅达到 36%——这给同样关心 AI 编程团队成本结构的读者提供了一套可复制的优化路径，而不只是停留在「换个更贵模型」的简单思路上。把今天三条精讲并排来看，会发现它们其实是同一个命题的三种切面：精讲一在身份和权限层给 agent 划边界，精讲二是没有边界时会付出的真实代价，精讲三则是怎么用 Rules、Hooks 这类工程化的「壳」把边界落实成可复制、可优化的系统——卡住效果的常常不是模型本身，而是模型外面那层有没有被认真设计过的约束代码。 ## 速览 [Claude Code 主创复盘疯狂的一年｜对话 Boris & Cat](https://www.bestblogs.dev/article/8b737736) Claude Code 上线满一年，负责人 Boris Cherny 与产品负责人 Cat Wu 复盘了团队内部工作流的演进。两人提到的关键转变是：纠正 AI 的错误不能只说一次，要写进 CLAUDE.md 或做成一个 skill，沉淀才有复利；验证的真正门槛不是单测、lint 这些早就自动化的环节，而是 agent 能不能自己运行、自己看结果；逐条点「同意」反而不如全交给 auto mode，因为人在点到 99% 都是 yes 时注意力早就涣散了。Boris 还提到自己现在「不再 prompt agent，而是写 loop」——当模型足够强之后，工程师的核心工作正在从写代码转向设计能自主发现任务、反复调用 agent 的循环系统。这和精讲三里腾讯云开发者讲的 Rules / Hooks 工程化思路是同一种取向：把对 agent 的管理沉淀成可复用的系统，而不是每次都重新交代一遍。 [前 Meta L8 工程师的智能体工程设置](https://www.bestblogs.dev/article/ea0d869f) 一位曾在 Meta、Microsoft、Atlassian 担任 L8 首席工程师的作者，离开大厂独立创业后，分享了自己以终端为中心、键盘驱动的完整智能体工程设置——把 agent 当成自主队友用于规划、实现和验证。他提到用 agent 之后的生产力变化很直观：以前很难想象能交付 30 多个达到自己标准的高质量 PR，现在这只是一个普通的「慢」工作日；他形容自己进入了一种近乎持续的「流」状态，瓶颈只剩下思考的质量和速度本身。这种个人层面的高强度 agent 使用，恰好是精讲二提醒的另一面——速度本身不是问题，问题是有没有配套的验证习惯撑住这种速度。 [当反思无法修复 AI 智能体的输出时该怎么办](https://www.bestblogs.dev/article/4be45766) 作者在大型互联网公司做过生产环境的 agent 系统，专门生成部署配置、API payload、数据库查询，他的结论是：用 LLM 反思去修复结构化输出并不可靠。常见教程教的做法是加一次「评审」调用，但作者发现这只会让原本三分之一的失败率降到六分之一，而且这些残留失败是「隐形」的——反思步骤会说「看起来不错」然后放行，系统变成了一个自信地犯错、却要等到生产环境凌晨两点出问题才会暴露的黑箱。他给出的替代方案是一种确定性的「生成-验证-重试」循环，用代码而不是另一次 LLM 调用去做校验。这和精讲三里 Harness 工程强调的 PostToolUse Hooks 反馈机制几乎是同一个思路：判断 AI 输出对不对，不该交给另一个不可靠的 LLM，而应该交给确定性的代码检查。 [对话 MiniMax 闫俊杰：M3、10X 计划、10T 模型、和智能的终局](https://www.bestblogs.dev/podcast/8823d0d) 这期播客是 MiniMax CEO 闫俊杰一次少有的公开露面，他谈到了 M1 到 M3 的迭代历程、训练 10T 规模大模型的决心，以及中美模型差距的真实尺度——美国头部模型基本上大 10 倍，而 10 倍意味着整整两代的差距。他还谈到模型的数据观正在转向：一年前以为数据就是标注，现在 MiniMax 开始招募经济学家、哲学家甚至核物理学家。同台的另外三位嘉宾也分享了视角：何涛提出一句暴论——最讨厌别人说「这是 agent 做的，别怪我」，用你的账号提交代码，责任就该是你的。这句话和精讲一里 Anthropic「智能体身份」的设计初衷形成了有趣的对照：当 agent 的行动有了独立账号和审计轨迹，「这是 agent 做的」就不再能成为推卸责任的借口。 [谁做什么？面向智能体平台的团队拓扑](https://www.bestblogs.dev/article/3fa5680e) 这篇文章把团队拓扑（Team Topologies）的框架应用到智能体平台上，回答「谁该负责提供什么、团队之间该怎么交互」的问题。作者的核心论点是：过去构建一个应用意味着按时间顺序分配角色——一人设计、一人挑战架构、一人测试、一人部署，复杂度是真实存在的，但分散在多个人、拉长在一段时间里。Agent 改变了这个等式：它们不会提问，只会立刻给出答案，从不疲倦、不休息、不等待。过去角色们依次提出的问题，现在必须由人类在一个 prompt 的极短窗口里提前预判、并行考虑。这和精讲一里 Claude Tag 面对的「多人同时指挥一个 agent，权限该归谁」的问题是同一个组织设计难题的两个侧面。 [Seed2.1 正式发布，深入 AI 生产力](https://www.bestblogs.dev/article/1c83ff2d) 字节跳动发布 Seed2.1 系列模型，面向真实生产力场景，在通用 Agent 能力、代码工程交付和多模态理解三个维度都有显著提升，目前已在豆包和 TRAE 上线。通用 Agent 方面，Seed2.1 在 Workspace Bench、Agent Startup Bench 上表现稳定，Seed2.1 Pro 在 GDPval 基准上拿到最高分；在更专业、更难刷分的 Agents' Last Exam（ALE）基准上也处于第一梯队水平，说明它在此前未见过的高门槛工作流上具备较好的泛化能力。代码工程方面，模型能够在真实企业级开发任务中完成需求理解、bug 修复、环境搭建和结果验证的完整链路。这种对真实工作流稳定性的强调，恰好是精讲二里反复提到的那个缺口——光有速度不够，可靠的端到端交付才是真正的瓶颈。 [OpenAI 联手 PE 砸下 40 亿美元，聊聊硅谷最火新职位 FDE](https://www.bestblogs.dev/article/32b5da89) FDE（Forward Deployment Engineer，前线部署工程师）正在成为硅谷最热的岗位之一：既要懂模型和技术，也要理解客户的数据、流程和业务痛点，核心任务是把 AI 从 demo 变成各个行业自己的 AI-native 工作流。今年 5 月，OpenAI 联手 19 家 PE 合计投入超 40 亿美元成立了部署公司，并打包带走了 150 个 FDE；Anthropic 也宣布与 Blackstone 等金融机构合作成立 15 亿美元的合资企业。两位一线从业者在播客里谈到，模型公司开始意识到模型本身不是产品，产品要落地还需要大量贴近客户的工程工作——这恰好印证了精讲二的判断：单纯把模型做强不会自动带来可靠的交付，中间这层「把能力变成可用系统」的工程工作，价值正在被重新定价。 ## 补充阅读 [大规模采用 AV1 进行实时通信（RTC）](https://www.bestblogs.dev/article/46b40515) —— Meta 详述了在 Messenger 和 WhatsApp 上部署 AV1 编解码器的多年历程，涵盖设备资格的 ML 判定、自适应码率控制和错误恢复机制，适合做实时音视频基础设施的工程师参考。 [腾讯王腾飞：从生成内容到生成环境，世界模型的 3D 落地之路](https://www.bestblogs.dev/article/ebff792d) —— 腾讯混元世界模型团队负责人深度专访，拆解 HY-World 2.0 的四阶段生成流程，并探讨世界模型与游戏、具身智能的关系，适合关注世界模型技术路线的读者。 [每周使用 AI、开放工具和人机协同发布 huggingface_hub](https://www.bestblogs.dev/article/cb37f57c) —— Hugging Face 用开放模型、确定性验证循环和人机协同把发布流程自动化，从半天工作量压缩到几分钟，适合关心开源维护者效率问题的团队。 [Codex 日志正在燃烧你的 SSD](https://www.bestblogs.dev/article/58fb6bc9) —— 深入分析 OpenAI Codex 把 TRACE 级网络事件写入持久化 SQLite 数据库导致的写入放大问题，给出风险分层和止血方案，适合每天使用 Codex CLI 的开发者排查本机性能问题。 [Spring AI 2.0 中的自纠正结构化输出](https://www.bestblogs.dev/article/95cbc77f) —— Spring AI 2.0 新增提供商原生模式强制执行和响应端自纠正验证两种机制，让模型在重试时能看到具体错误而不是盲目重来，适合用 Java/Spring 生态做结构化输出的工程师。 ## 今日阅读路径如果今天只有十分钟，建议按这个顺序读：先读精讲一（Claude Tag 的智能体身份），它给出了今天整期早报最底层的那把钥匙——当 agent 的自主性持续增强，「谁能做什么」必须从「这个用户」下沉到「这个智能体在这个范围内」；接着读精讲二（AI 编程的隐性代价），看清楚没有这层边界会发生什么——Instagram 漏洞、CISO 离职、刷 Token 量绩效造假，这些都是真实代价而不是假设；最后读精讲三（Harness 架构与 Token 经济学），看怎么把抽象的「边界」工程化成 Rules、Hooks 这样可复制、可优化的系统，顺带把单次对话成本砍掉三成。三篇放在一起读，会比单独读任何一篇更能看清楚：2026 年 AI 工程的核心命题，已经从「模型够不够强」转向「有没有一套靠得住的边界，把强模型的自主性安全地释放出来」。 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，关注你感兴趣的来源和主题，每天生成一份更适合自己的「我的早报」，欢迎体验。

译Anthropic 为 Claude Tag 推出智能体身份模型，Claude 在团队频道拥有独立账号，权限按频道配置可覆写，撤销身份即可终止访问。AI 编码代价方面，Meta 一次 AI 生成代码（无人工验证）导致 Instagram 密码重置漏洞，CISO 离职；Amazon 核心平台中断；GitHub 因负载增长三倍不稳定。腾讯云开发者介绍 Harness 工程：同一 LLM 换装更精巧外架构后，TerminalBench 2.0 通过率从 52.8% 升至 66.5%，排名从 30 名外进入前 5。

ginobefun@hongming731 · 6月24日37

BestBlogs 早报 · 06-24 # Claude Tag / 智能体身份 / Harness 工程 / MiniMax / FDE [1] ★ 精讲｜智能体身份：适用于自主、团队级 AI 的新型访问模型 | Claude Anthropic 为 Claude Tag 推出「智能体身份」访问模型：团队频道里的 Claude 不再借用某个人的权限，而是拥有管理员配置的独立账号体系，按频道继承或覆写权限边界，能读写 GitHub、数据仓库等系统并留下独立审计轨迹。核心转变是从「这个用户能做什么」变成「这个智能体在这个范围内能做什么」——这是多人协作场景下自主智能体访问控制的关键基础设施。来源：Claude Blog https://www.bestblogs.dev/article/b6b6137f [2] ★ 精讲｜慢下来才能更快：AI 如何重塑软件工程 [视频] 《Pragmatic Engineer》梳理了 AI 高速生成代码带来的结构性代价：Meta 一次未经人工复核的 AI 生成代码直接导致 Instagram 重置密码漏洞，CISO 在事故调查中离职；Meta、Amazon 内部出现「刷 Token 量」绩效造假，GitHub 因 AI 驱动的提交量暴涨三倍而持续抖动。作者给出务实对策：限制每日可审计的生成量、把 AI 用于清偿技术债而非替代理解、不让工具决定架构判断——速度的代价正在系统性显现。来源：The Pragmatic Engineer https://www.bestblogs.dev/video/550c5a2 [3] ★ 精讲｜从 Harness 架构到 Token 经济学的探索腾讯云开发者结合 LangChain、Anthropic、OpenAI 等一线工程实践，系统拆解「Harness 工程」：同一模型换上更精巧的外层架构，TerminalBench 通过率即可从 52.8% 跃升到 66.5%，证明卡住效果的常是「壳」而非模型本身。文章用控制论、ReAct、Reflexion、MCTS 等理论对照真实的 Rules / Hooks / Skills 配置，并实测把单次对话基础开销从 23.5K 降到 15K token，降幅 36%——给 AI 编程团队一套可复制的架构与成本优化方法论。来源：腾讯云开发者 https://www.bestblogs.dev/article/70410bef [4] 当反思无法修复 AI 智能体的输出时该怎么办本文认为，使用基于 LLM 的反思来修复结构化 AI 智能体输出并不可靠，并提出一种确定性的「生成-验证-重试」循环作为更可靠的替代方案。来源：freeCodeCamp https://www.bestblogs.dev/article/4be45766 [5] 前 Meta L8 工程师的智能体工程设置一位前 Meta L8 工程师分享了他完整的智能体工程设置——以终端为中心、键盘驱动——将智能体作为自主队友用于规划、实现和验证。来源：ByteByteGo Newsletter https://www.bestblogs.dev/article/ea0d869f [6] Seed2.1 正式发布，深入 AI 生产力字节跳动发布 Seed2.1 系列模型，面向真实生产力场景，在通用 Agent、代码工程交付和多模态理解三大能力上实现显著提升，并已在豆包和 TRAE 上线。来源：字节跳动 Seed https://www.bestblogs.dev/article/1c83ff2d [7] OpenAI 联手 PE 砸下 40 亿美元，聊聊硅谷最火新职位 FDE 本文通过一线从业者对谈，深入解析 FDE（前线部署工程师）的岗位职责、能力要求，并探讨模型公司联手 PE 成立部署公司背后的商业逻辑，以及 AI 落地浪潮对咨询和私募行业的影响。来源：硅谷 101 https://www.bestblogs.dev/article/32b5da89 [8] Claude Code 主创复盘疯狂的一年｜对话 Boris & Cat Claude Code 主创 Boris 与 Cat 复盘了 AI 编程一年来团队内部工作流的演进，核心观点是工程师的核心工作正从写代码转向设计能自主发现任务、分派执行的循环系统（Loop Engineering）。来源：十字路口 Crossing https://www.bestblogs.dev/article/8b737736 [9] 对话 MiniMax 闫俊杰：M3、10X 计划、10T 模型、和智能的终局 [播客] MiniMax CEO 闫俊杰罕见公开分享从 M1 到 M3 的模型迭代至暗时刻与突破、训 10T 大模型的决心、以及对模型与 Agent 关系、中美差距的深度思考。来源：十字路口 Crossing https://www.bestblogs.dev/podcast/8823d0d [10] 谁做什么？面向智能体平台的团队拓扑本文将领团队拓扑应用于智能体平台，定义团队类型与交互方式，以分配 AI 驱动生产中被转化的认知负荷。来源：Hacker News https://www.bestblogs.dev/article/3fa5680e --- http://BestBlogs.dev · 发现真正适合你的高质量内容 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。在线阅读：https://www.bestblogs.dev/explore/brief/2026-06-24

译Anthropic 为 Claude Tag 推出智能体身份访问模型，赋予 AI 独立账号体系。Meta 因 AI 生成代码未经人工复核导致 Instagram 漏洞

SemiAnalysis@SemiAnalysis_ · 6月24日29

IShowSpeed mogging Unitree, colleagues dating robots, the humanoid robots era is BOOMING!!

译IShowSpeed碾压宇树科技，同事与机器人约会，人形机器人时代正在蓬勃发展！！

Chubby♨️@kimmonismus · 6月24日50

Recursive self-improvement: Anthropic co-founder Jack Clark says it could arrive by 2028. AI systems could help invent their own successors - with Claude 10 building Claude 11, and so on - potentially “without any researchers involved.”

译递归自我改进：Anthropic联合创始人Jack Clark表示，这一现象可能到2028年出现。 AI系统可以帮助发明自己的继任者——比如Claude 10构建Claude 11，以此类推——有可能“无需任何研究人员参与”。

AYi@AYi_AInotes · 6月24日28

holy shit😭 AI视频脸崩镜头乱的死穴被这个玩法直接干没了，角色全程不崩，运镜精准到帧，独立创作者直接能拍院线级镜头！