Most teams are overpaying for inference without realising it. Fixed rate cards have no competitive pressure. The Grid replaces them with live supply and demand, prices track the market, not a vendor's margin. The Grid sits in the middle and basically says, “Don’t pick the model, pick the level of work you need.” A boring task like classifying support tickets does not need the smartest model, so it can run on standard. A normal production task like RAG, drafting, support replies, or agent steps can run on prime. A hard task with long context, high error cost, or difficult reasoning can run on max. Your app sends the request to The Grid, not directly to OpenAI, Anthropic, or one hosting company. The Grid then checks which suppliers currently qualify for that tier and sends the request to the cheapest one available at that moment. You still use one API key and mostly the same code, but the model behind the request can change as prices and quality change. So you stop paying premium prices for easy work, and also you are not trapped inside one vendor’s model names, pricing, outages, or deprecations. New accounts get the first 200 million tokens covered. Here, I integrated Hermes Agent with The Grid in minutes, kept the agent running locally on my Ubuntu machine, and used “agent-prime” to read support tickets, apply a policy file, and write a triage report through The Grid’s API. You just need to - install Hermes Agent - select The Grid as a custom AI provider. - No local model download. No GPU setup. The request goes through the grid. - The Hermes Agent ran locally, but the AI calls went through The Grid. 🧵 1.

译The Grid推出新的LLM推理平台，用实时供需市场定价取代传统的固定费率。它按任务难度分层：简单任务（如分类）用“standard”，常规生产任务（如RAG、智能体步骤）用“prime”，高难度任务（如长上下文推理）用“max”。应用将请求发送至The Grid，平台会自动匹配该层级当前最便宜的可用供应商。开发者仍使用单一API，但后端模型可动态切换。新账户享受前200 million tokens免费额度。文中以Hermes Agent集成为例，展示了如何通过“agent-prime”层级处理工单。

小互@xiaohu · 5月28日63

OpenRouter 完成了 1.13 亿美元 B 轮融资在过去 6 个月里，OpenRouter 的每周交易量从 5T Tokens 增长到 25T Tokens... Token 专卖看来是个大生意... 中转的也赚的很厉害

Hao AI Lab@haoailab · 5月28日70

🚀Generate a 30-second 1080p video in just 7 seconds! We’re open-sourcing FastVideo Dreamverse: real-time vibe directing for video generation on a single NVIDIA B200 GPU with LTX-2 model @ltx_model Repo: https://github.com/hao-ai-lab/FastVideo/tree/main/apps/dreamverse Blog: https://haoailab.com/blogs/fastvideo-dreamverse-release/

译🚀仅需7秒即可生成30秒1080p视频！我们开源了FastVideo Dreamverse：基于单张NVIDIA B200 GPU和LTX-2模型，实现实时视频生成的氛围引导工具。 Repo: https://github.com/hao-ai-lab/FastVideo/tree/main/apps/dreamverse Blog: https://haoailab.com/blogs/fastvideo-dreamverse-release/

swyx@swyx · 5月28日42

insanely good company to keep

译Railway推出“代理原生云”，宣称拥有3M用户、每周10万注册量，其编码智能体上的支出超20万美元。创始人阐述了AI智能体为何需要新型云环境：Railway已将大部分工作负载迁移至自有的裸机数据中心，智能体使得CLI（命令行界面）比仪表盘更重要，而传统的Git/PR/CI/CD循环开始失效。文章还介绍了如何通过生产分支和功能开关使AI SRE更安全，并引用其观点：“如果你还在手动写代码，那你就是做错了。”

OpenRouter@OpenRouter · 5月28日54

Honored to be included in @Redpoint’s 2026 InfraRed 100! https://www.redpoint.com/infrared/report/

译很荣幸入选 @Redpoint 的 2026 InfraRed 100 榜单！

Perplexity@perplexity_ai · 5月27日68

We're open-sourcing the Unigram tokenizer we rebuilt to reduce CPU utilization by 5-6x. Small rerankers and embedders run in single-digit milliseconds on GPU, making CPU tokenization a meaningful share of total latency. http://github.com/perplexityai/pplx-garden

译我们开源了重新构建的Unigram分词器，可将CPU占用降低5-6倍。小型重排序器和嵌入模型在GPU上运行时间仅为个位数毫秒，使得CPU分词成为总延迟的重要组成部分。 http://github.com/perplexityai/pplx-garden

Claude@claudeai · 5月27日63

New in the Claude Marketplace: @augmentcode, @boltdotnew, @coderabbitai, @hebbia, and @WeAreLegora. Apply your existing Anthropic spend commitment toward their Claude-powered products. Learn more: http://claude.com/platform/marketplace

译Claude Marketplace 新增成员：@augmentcode、@boltdotnew、@coderabbitai、@hebbia 和 @WeAreLegora。您现有的 Anthropic 消费承诺可用于购买其 Claude 驱动的产品。了解更多：http://claude.com/platform/marketplace

Berryxia.AI@berryxia · 5月27日66

现在可以Warp跑一个跨夜的AI agent coding项目。以前总得把MacBook半合着带在身上，生怕关机后agent就断了上下文。结果今天升级到最新版，发现一个细节直接把这个痛点抹平了。现在你只要合上笔记本，Warp就会自动把当前agent对话无缝切换到云端。整个过程零中断，agent继续执行任务，上下文完整保留。设置里一点，Agents -> Warp Agent -> Cloud Handoff，就开好了。 Warp本来就是从终端出生、支持本地和云端agent的开源开发环境。这次更新把“人离开电脑后agent还能继续干活”这件事，做成了默认行为。以前大家觉得agent要实用，得靠24小时开机或者复杂的手动迁移。现在它告诉你，真正的生产力来自这种安静的连续性。你出门旅行、合上电脑睡觉，agent照样在云端推进进度，等你打开就是最新状态。这步把agentic workflow从实验玩具，真正推向随时可用的工具。

译Warp最新版解决AI智能体跨夜运行痛点：用户合上笔记本电脑后，当前智能体会自动无缝切换到云端继续执行任务，上下文完整保留。设置路径为Agents -> Warp Agent -> Cloud Handoff。此前用户需保持电脑开机以维持智能体运行，此次更新将“离线连续执行”设为默认能力，使智能体工作流更接近实用工具，支持离线后云端持续推进项目状态。

Ethan Mollick@emollick · 5月27日63

The fact that tokens went from something no one even put in a budget line a year ago to an absolute requirement for coding now is the cause of handwringing, not that AI is not turning out to be useful No one knows who should get tokens, how much they should get & how to control

译Token 从一年前无人问津到如今成为编程的绝对必需品，这引发了焦虑，而非 AI 无用。没人知道谁该获得 Token，该获得多少，以及如何控制。

Rohan Paul@rohanpaul_ai · 5月27日61

Uber’s COO: AI tokenmaxxing still has not shown it can reliably create successful features. "When you hear companies talking about, hey, 25% of code commits over the last quarter were AI-driven, or our token usage went from x to y... and it's amazing... but then you sometimes go and you talk to your senior engineering leaders and you're saying, okay, how many projects that were on the cutting room floor got moved above the line because of the productivity gains... That link is not there yet." ~ Andrew Macdonald, Uber’s COO ---- From "Rapid Response and Masters of Scale " YouTube channel, (link in comment)

译Uber首席运营官Andrew Macdonald对当前AI应用热潮中的“tokenmaxxing”现象提出质疑。他指出，当公司高调宣称上季度25%的代码提交由AI驱动或token使用量显著增长时，这些亮眼数据并未转化为实际的产品成功。他询问资深工程负责人是否有原本搁置的项目因此得以推进，得到的答复是否定的。这与Uber CEO Dara Khosrowshahi此前描绘的乐观图景形成对比：后者曾表示90%的工程师使用AI，其中头部30%的用户生产力获得前所未有的提升，并预测未来AI智能体和GPU算力的投资回报率将超越人类工程师。

Fuli Luo@_LuoFuli · 5月27日59

Behind the MiMo API Price Reduction: The deepest price cut, up to 99%, is for Input (Cache Hit). The core reason is our inference framework now supports hierarchical KV cache optimization for SWA. Production inference engine tests show this optimization increases cached token capacity by 5x, equivalent to an 80% reduction in caching costs. Combined with Cache Read Overlap among multiple Full Attention modules in the Hybrid model, actual costs are further reduced. Prices for Input (Cache Miss) and Output are also reduced by 60%-80%. This mainly benefits from the extreme 1:7 Full:SWA sparsity ratio brought by the model architecture (the prefill compute of the 70-layer MiMo-V2.5-Pro roughly equals a 10-layer GQA model). This kept our original inference costs well below the industry average, naturally leaving a 2x-3x profit margin in pricing. This price adjustment simply reflects our decision to pass these structural cost efficiencies directly to developers. Operating at these newly reduced API prices, our production inference engine is running at near full capacity, and we can still essentially break even. We previously advised LLM companies not to "blindly cut prices" precisely because very few model architectures and inference optimizations can keep API costs from running at a loss. If more architectures that save compute and KV cache emerge, along with better inference Infra to drive down API costs, this will form an excellent virtuous cycle in the industry. More crucially, affordable, high-performance model APIs will drive real, sustained, and at-scale inference demand. This upstream demand pulls forward the development of the entire AI infrastructure chain—including chips, servers, optical transceivers, PCBs, liquid cooling, power, energy storage, and data centers—serving as a strategic fulcrum for a systemic revaluation of AI hardware. In the long run, this injects more affordable and accessible compute into both training and inference pipelines, accelerating the parallel evolution of global AGI across multiple regions and technical routes. For more technical details, we will release a detailed Blog post later.

译本次价格调整源于模型架构与推理框架带来的结构性成本优势。推理框架层面，对SWA的层级KV cache优化使缓存容量提升5倍，相当于缓存成本降低80%，再结合混合模型中多个Full Attention模块的缓存读取重叠，进一步降低了实际成本。模型架构层面，MiMo-V2.5-Pro实现了极端的1:7 Full:SWA稀疏比例，其预填充计算量极低，使得原始推理成本远低于行业平均。因此，输入（缓存命中）价格最高降幅达99%，输入（缓存未命中）和输出价格降幅为60%-80%。此番调整是将效率提升直接让利给开发者，而非亏损运营。

Berryxia.AI@berryxia · 5月27日67

我今天刷到OpenRouter的公告。过去半年，他们每周处理的token量从5T直接冲到25T。这可不是实验阶段的小打小闹，是实打实的生产级使用在爆发。企业把AI真正塞进工作流里，每天都在跑大规模任务。他们刚完成了1.13亿美元的B轮，由CapitalG领投。 a16z、Menlo Ventures、NVIDIA的NVentures、ServiceNow、MongoDB、Snowflake、Databricks这些机构都跟进了。这笔钱背后，是整个行业对“多模型时代基础设施”的押注。你不用再为每个模型单独对接、比价、处理限流。一个统一API就能切换500多个模型，包括50多个免费的，还带私有聊天和可探索数据。增长数据把一个趋势讲得很清楚： AI的下一阶段不是谁的参数更大，而是谁能让生产环境真正稳定、高效、可控。 OpenRouter正好卡在这个节点上，把路由这件事做成了基础设施。

译OpenRouter宣布完成1.13亿美元B轮融资，由CapitalG领投，a16z、NVIDIA的NVentures等跟投。过去6个月，其平台每周处理的token量从5T增长至25T。该平台提供统一API，可切换包括50多个免费模型在内的500多个大语言模型，并提供私有聊天功能。此轮融资和增长数据反映了市场对其多模型时代基础设施价值的认可。

Chubby♨️@kimmonismus · 5月27日65

DeepSeek just made its 75% price cut on V4-Pro permanent. Xiaomi's MiMo slashed V2.5 pricing by up to 99%, effective today. Most coverage frames this as a price war. The more interesting part is the engineering that makes these numbers sustainable. DeepSeek's V4 paper describes a *hybrid attention architecture* that attacks the core bottleneck of long-context inference: the KV cache. Traditional transformers store key-value pairs for every token in the context. At 1 million tokens, this cache alone can fill an entire GPU's memory. V4 introduces two interleaved attention types. Compressed Sparse Attention (CSA) compresses every 4 tokens into a single KV entry, then selects only the top-k most relevant compressed blocks per query. Heavily Compressed Attention (HCA) goes further, compressing 128 tokens into one entry and running dense attention over the result. The compressed sequence is short enough that dense attention stays cheap. V4-Pro's KV cache at 1M tokens is 10% (!!) of V3.2's. Single-token inference FLOPs drop to 27% (!!). The model has 1.6 trillion total parameters but only activates 49 billion per token through Mixture-of-Experts routing, the knowledge capacity of a massive model at the compute cost of one thirty times smaller. MiMo's approach is different but lands in the same place. Xiaomi's team implemented Sliding Window Attention via SGLang HiCache, reducing KV cache data transfer across GPU memory, CPU memory, and SSD to roughly 1/7 (!!) of previous volume. Cacheable tokens expanded by 5x (!!). Combined with expert parallelism optimization and input length bucketing, per-token serving cost dropped enough to make permanent pricing at these levels viable. V4-Pro now sits at $0.87 per million output tokens. MiMo V2.5-Pro at roughly $3/M output, with Flash variants far below that. A year ago, sub-dollar output pricing meant you were using a small distilled model with real capability tradeoffs. These are frontier-class reasoners with million-token context windows. Both companies can commit to permanent cuts because the reductions come from the architecture itself. When your attention mechanism physically processes fewer FLOPs per token and your cache occupies a fraction of the memory, the cost to serve is structurally lower. The price follows the cost curve.

译DeepSeek V4-Pro宣布永久降价75%，小米MiMo V2.5降价高达99%。此次降价核心是架构革新带来的成本结构性降低。DeepSeek V4通过混合注意力架构大幅压缩了长上下文推理的KV缓存，使其在100万token时仅为V3.2的10%，单token推理FLOPs降至27%。小米MiMo团队则通过SGLang HiCache实现滑动窗口注意力，将KV缓存跨内存数据传输量减少至约1/7。这些架构优化使V4-Pro定价降至$0.87/百万输出token，MiMo V2.5-Pro约为$3/百万，两者均为拥有百万上下文窗口的前沿级模型。降价源于推理与缓存成本的实质性下降。

Alibaba Cloud@alibaba_cloud · 5月27日62

Struggling with Agent chaos? 🌪️ Alibaba Cloud’s new Agent Infra solves 5 key pain points: 🛠️ AgentRun: One-stop build & deploy 🤝 AgentTeams: Secure multi-agent governance 📈 AgentLoop: Observability & optimization flywheel 🚀 STAROps: Autonomous AI operations Focus on outcomes, not engineering. Read the full breakdown! 👇 https://int.alibabacloud.com/m/1000413461/ #AI #CloudComputing #DevOps

译面临Agent混乱的困扰？🌪️ 阿里云全新的Agent Infra解决了5个关键痛点： 🛠️ AgentRun：一站式构建与部署 🤝 AgentTeams：安全的多Agent治理 📈 AgentLoop：可观测性与优化飞轮 🚀 STAROps：自主AI运维专注于成果，而非工程。阅读完整解析！👇 https://int.alibabacloud.com/m/1000413461/ #AI #云计算 #DevOps

SemiAnalysis@SemiAnalysis_ · 5月27日48

The next-gen Cerebras CS4 is staying on 5nm. Why? Because going to 3nm doesn't magically fix the fact that SRAM scaling has completely flattened.

译下一代Cerebras CS4将继续采用5nm工艺。原因何在？因为转向3nm并不能神奇地解决SRAM扩展已完全停滞的事实。

swyx@swyx · 5月27日44

ai infra is going VERTICAL

译AI基础设施正在走向垂直整合

凡人小北@frxiaobei · 5月27日68

Claude Code 新插件 security-guidance，一个写代码，另一个 Claude 实例（全新上下文、独立 prompt）审查自己刚改的东西。三层从浅到深， per-edit 正则匹配（零成本）、 turn 结束跑 diff review、 commit/push 时跑 agentic review 读调用链。任何一层都不直接 block 写入，最后会把发现喂回给写代码那个 Claude 让它自己改。最有意思的是这个， reviewer 拿的是全新上下文，没有 writer 的路径依赖，所以能挑出原来那个 Claude 自己看不见的问题。而且底层全部基于 hooks 实现、源码公开。这个本身就是个怎么在 hook 里调独立模型再把结果喂回会话的完整参考实现，做其他的 hook 也可以参考。

译Claude Code 推出新插件 security-guidance，通过一个写代码的 Claude 实例和一个审查代码的独立 Claude 实例进行协作。两个实例完全隔离，拥有全新上下文和独立提示词。审查过程分三层：每次编辑进行正则匹配、对话轮次结束时审查 diff、在提交/推送时进行读取调用链的智能体审查。任何一层都不直接阻断写入，审查结果会反馈给写代码的实例进行自我修正。关键创新在于审查实例因无“路径依赖”，能发现原实例的盲点。该插件基于 hooks 实现并公开源码，同时支持通过 `claude-security-guidance.md` 文件添加组织特定策略。

meng shao@shao__meng · 5月27日72

基于 Claude AI、Claude Code、Claude Cowork 三款产品工程实践对 Agent 安全的实战总结 https://www.anthropic.com/engineering/how-we-contain-claude 核心设计原则放在最前面 · 先环境层，后模型层 — 确定性边界是最后防线 · 隔离强度匹配用户监督能力 — 开发者能理解 bash，知识工作者不能 · 警惕自建组件 — 优先使用久经考验的标准隔离原语 · 出站白名单应视为能力授权，而非目的地过滤 — 每个可调用函数都是攻击面三种风险类型 · 用户误用：用户（有意或无意）指示 Agent 执行有害操作，如绕过检查、执行破坏性命令 · 模型行为失当：Agent 未经请求执行有害操作，如"好心"地逃离沙箱、查看 Git 历史获取测试答案、自动识别 benchmark 以破解答案 · 外部攻击：通过工具、文件、网络访问等向量攻击 Agent，包括提示注入和传统运行时攻击三层防御架构 1. 环境层（最可靠） · 沙箱、VM、文件系统边界、出站控制 · 核心原则：确定性边界 > 概率性防御 · 若凭证从不进入沙箱，无论何种原因都无法被窃取 2. 模型层 · 系统提示、分类器、探测、训练改进 · Claude Opus 4.7 在 Gray Swan 的 Agent 红队基准上，单次攻击成功率约 0.1%，100 次自适应尝试后约 5-6% · Claude Code 自动模式拦截约 83% 的过度积极行为 3. 外部内容层 · MCP 服务器、第三方插件、网页搜索 · 关键洞察：审计过的连接器 ≠ 审计过的数据（如 GitHub 连接器可加载被污染的 README）三款产品的隔离模式对比（模式、实现和场景） · Claude AI：短暂容器 | gVisor 容器，服务端运行，每次会话文件系统归零 | 通用对话，代码执行 · Claude Code：人机协同沙盒 | Seatbelt(macOS)/ bubblewrap(Linux)，允许读、工作区允许写、默认阻断网络 | 开发者工具，需本地文件访问 · Claude Cowork：密封虚拟机 | 完整 VM（Apple Virtualization/HCS），仅挂载用户指定工作区，凭证留在宿主钥匙串 | 知识工作者，非技术用户关键教训（真实攻击案例） 1. 信任对话框之前的代码执行漏洞 · 问题：Claude Code 在启动时读取 .claude/settings.json（含钩子），此时用户尚未确认"是否信任此文件夹" · 修复：延迟解析项目本地配置，直到用户通过信任提示 2. 用户作为注入向量（钓鱼攻击） · 场景：研究员通过邮件发送恶意提示，诱导员工粘贴到 Claude Code · 结果：24/25 次成功窃取 ~/.aws/credentials 并外泄 · 教训：仅环境防御有效（出站阻断 + 文件系统边界），模型层无法防御"用户本人"的指令 3. 通过已批准域名的外泄 · 漏洞：Cowork 的出站白名单允许 api.anthropic. com，攻击者嵌入 API 密钥，让 Claude 读取文件并上传到攻击者账户 · 修复：VM 内部署防御性中间人代理，仅携带 VM 自有会话 token 的请求可通过 4. 自建组件是最薄弱环节 · 经验：gVisor、seccomp、hypervisor 等久经考验的组件可靠，自定义代理/代理是失败点未来风险方向 · 持久化内存污染：跨会话记忆的增多使注入可在每次启动时重新加载 · 多 Agent 信任升级：子 Agent 输出若被视为主 Agent 的"更高信任"内容，可能成为新的提示注入向量 · Agent 身份：跨平台 Agent 应拥有独立主体身份，还是继承用户权限？需要混合方案

译Anthropic 基于 Claude AI、Claude Code 和 Claude Cowork 的工程实践，系统总结了构建安全 AI 智能体的经验。核心原则是防御应随智能体能力演进，并优先使用沙箱来限制破坏性动作。文章详述了三层防御架构（环境层、模型层、外部内容层）及三款产品的隔离模式：Claude AI 使用短暂容器，Claude Code 采用人机协同沙盒，Claude Cowork 则部署密封虚拟机。关键数字包括：Claude Opus 4.7 在 Gray Swan Agent 红队基准上单次攻击成功率约 0.1%，100 次尝试后约 5-6%；Claude Code 自动模式拦截约 83% 的过度积极行为。通过真实攻击案例，强调了环境层防御（如出站阻断）的关键性。

ginobefun@hongming731 · 5月27日58

http://x.com/i/article/2059407621711626240 # BestBlogs 早报 · 05-27｜Agent 隔离架构、AgentScope 2.0、上下文卸载在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-05-27 ## 导语当 Agent 能力不断膨胀，如何让它在真实环境里跑得稳、管得住，成了工程侧最紧迫的课题。这期早报聚焦 Agent 系统工程的三个维度：Anthropic 首次披露跨产品约束 Claude 的三种隔离架构，揭示 93% 权限弹窗被无脑通过的真相；阿里 AgentScope 2.0 把「可见调试」升级为生产级系统工程，涵盖权限边界、容错机制与执行环境抽象；腾讯云则用上下文卸载与 Mermaid 结构化图谱把超长 Session 的 Token 消耗砍掉六成，任务通过率同步提升 52%。在 Agent 时代，真正的护城河不是调用更多模型的能力，而是让长链路任务稳定落地的工程底座。今天这三篇精讲，正是在这条赛道上最扎实的一批工程实践。今日速览： - 精讲一：Anthropic 披露三种 Claude 约束架构，环境隔离比人工审批更可靠 - 精讲二：AgentScope 2.0 — 从可见调试到生产级稳定运行的系统性升级 - 精讲三：腾讯云上下文卸载 × Mermaid 无限画布，节省 61% Token 提升 52% 成功率 - 速览：7 天将 Token 账单砍掉 87%、Vercel 构建从 90 秒到 5 秒、Cursor 云 Agent 让 PR 吞吐翻倍等 7 篇 - 补充阅读：云原生 Kafka 架构演进、C 端 AIGC 离线生产实践等 12 篇延伸内容 ## 精讲一：我们如何在多个产品中约束 Claude 来源： Anthropic Engineering｜评分： 93 背景：从权限弹窗到爆炸半径管一年前，Anthropic 还不会允许 Claude 获得足以中断内部服务的访问权限。今天，这样的权限已经成了日常标配，工程师的生产力也因此显著提升。这篇文章是 Anthropic 工程团队迄今为止最完整的一次 Agent 安全工程披露，记录了他们在 claude.ai、Claude Code 和 Claude Cowork 三款产品上踩过的坑、改进的架构，以及推导出的核心原则。 93% 的权限弹窗被无脑点击通过 Anthropic 遥测数据显示，用户批准了约 93% 的权限请求。更糟糕的是：用户见到的批准弹窗越多，对每一个的关注度就越低，审查变得越来越流于形式。这个发现直接促成了 Claude Code 自动模式（auto mode）的诞生——系统自动处理低风险审批，减少人工疲劳。但 Anthropic 也明确指出，任何基于概率的防御都有非零的失误率，人工审批作为唯一防线本质上是不可靠的。真正可靠的方法是容器化隔离：不是监督 Agent 做了什么，而是限制它能做什么。通过沙盒、虚拟机和出口控制来压缩爆炸半径（blast radius），即便 Agent 出错，破坏范围也有上界。三种架构，三种权衡文章详细拆解了三款产品对应的三种隔离架构： - claude.ai（临时容器）：每次会话启动一个一次性容器，执行完毕即销毁。优势是简洁，隔离天然。踩过最大的坑是「自建代理层」——团队曾尝试绕过云厂商原生网络控制自己实现出口过滤，结果发现自研方案引入了更多安全漏洞。教训是：能用云厂商的安全原语就用，不要重复造低质量的轮子。 - Claude Code（HITL 沙盒）：采用人工在环（Human-In-The-Loop）设计，有一个特权进程坐在沙盒外部，逐命令决策是否允许执行。这个架构允许 Agent 在更宽松的环境里工作，同时保留精细粒度的人工干预能力。最新的 auto mode 让系统自动处理已知安全的命令，人工只需关注真正高风险的操作。 - Claude Cowork（可信工作空间）：面向企业场景，Agent 需要长期访问组织内的文件、数据库和 API。这里的核心挑战是「访问边界漂移」——一旦 Agent 获得了某项访问权限，随着任务扩展，它往往会尝试访问越来越多的相邻资源。可信工作空间的设计思路是把权限绑定到明确的工作流程，而不是绑定到 Agent 本身。关键教训：防御要有重叠文章最重要的结论之一是：防御层应当相互补充，而非相互替代。当环境防御失效时，模型层要能兜底；当模型层失误时，环境约束要能拦截。Claude Code 的 auto mode 正是这个思路——它不是替代环境隔离，而是在环境隔离的基础上进一步减少不必要的人工摩擦。另一个值得记住的教训是：模型能力越强，越需要更严格的隔离。能力较弱的模型更容易犯显而易见的错误，更容易被人类发现和纠正；能力更强的模型犯错更少，但一旦犯错，它往往能找到更隐蔽的绕过路径——绕过那些没人想到要明确写下来的限制。这是一个反直觉但极其重要的洞察。与今天其他故事的关联这篇文章与 AgentScope 2.0 的权限系统设计高度呼应——后者同样采用「静态规则 + 动态审批」的分层权限架构。腾讯云的上下文卸载方案也可以从爆炸半径管理的角度重新理解：限制 Agent 在单次 Session 中能触及的信息量，本质上也是一种能力边界管理。阅读建议：如果你正在生产环境中部署 Agent，或者在设计 Agent 系统的权限模型，这篇文章是今天的必读。它不只是 Anthropic 的内部经验，更是目前业界关于 Agent 安全架构最系统的一次公开总结。阅读原文 ## 精讲二：从透明开发到系统工程：AgentScope 2.0 发布来源：通义大模型｜评分： 92 背景：Demo 好做，长链路难稳「开发一个能跑通 Demo 演示的 Agent 并不难。难的是，让它在真实场景里稳定地完成任务。」这句话是阿里通义团队写在 AgentScope 2.0 发布文章开头的，也精准概括了当前整个 Agent 框架赛道的核心矛盾。 AgentScope 1.0 以「透明开发」为核心——让开发者能清晰看到 Agent 的消息流转、工具调用和协作过程，降低理解与调试门槛。2.0 在保留这一理念的基础上，全面转向可靠运行：这次升级涵盖模型容错、事件流、权限边界、结构化上下文、Middleware 扩展、执行环境抽象和服务化部署七个层面。模型层：从「能调用」到「稳定运行策略」在真实长任务中，Agent 往往需要多轮推理和多次工具调用。一次模型接口超时或不可用，就可能破坏后续所有步骤。AgentScope 2.0 在模型层引入了统一的重试与备用模型机制：开发者可配置最大重试次数，并设置备用模型；主模型失败时，框架自动切换到备用模型，尽量保持任务连续性。这个改动看起来不复杂，但在生产场景中意义重大——它把「偶发的 API 超时」从致命错误降级为可恢复的异常。权限系统：工具调用的安全边界参照 Anthropic 的经验，AgentScope 2.0 同样引入了系统化的权限控制。工具调用不再是简单的允许/禁止二元判断，而是根据静态规则、工具类型和输入内容进行三级判断： - 允许：符合静态规则的低风险操作直接执行 - 拒绝：明确高风险操作（如危险目录写入、高危命令）直接拒绝 - 用户确认：未知或中等风险操作进入审批流程文件读写会检查是否涉及危险目录和敏感文件；命令执行工具会分析高风险命令、动态 shell 结构和危险删除操作。这与 Anthropic 在 Claude Code 里的 HITL 架构思路高度一致，差异在于 AgentScope 把这套逻辑做成了可配置的框架级能力，而不是绑定在特定产品上。上下文管理：不只是「压缩历史」在长任务执行中，上下文管理的挑战远不止把历史对话压缩进窗口。AgentScope 2.0 的上下文管理进一步结构化： - 压缩结果保留任务目标、当前状态、关键发现、下一步计划和需长期保留的信息（结构化保留，而非简单摘要） - 工具结果自动截断，避免超长日志撑爆上下文 - 内置文件读写新增缓存机制，强制「先读后改」，减少重复 IO 这套设计让 Agent 在持续推理和多次工具调用的过程中保持稳定——它解决的不是「如何把更多内容塞进上下文」，而是「如何让 Agent 在整个任务周期内对状态保持清醒的认知」。 Workspace 抽象：执行环境可替换这是 2.0 版本最有架构创意的改动之一。Workspace 把「Agent 要做什么」和「在哪里执行」彻底分开，支持本地文件系统、Docker 容器、E2B 云沙箱等不同执行后端，统一暴露相同的接口。同一个 Agent 代码，不改运行逻辑，就可以在本地开发环境、容器化测试环境和云沙盒生产环境之间自由切换。Workspace 还内置了预热池机制，支持提前批量初始化执行环境——在 RL 训练的并行 rollout 场景中，这可以显著降低频繁创建环境的开销。这个设计与 Anthropic 在文章中强调的「环境隔离」思路不谋而合，只是把选择权交给了框架用户，而不是由框架自己决定隔离策略。与今天其他故事的关联 AgentScope 2.0 的上下文管理模块和腾讯云的「上下文卸载」方案面向同一个问题，但路径不同：前者强调结构化保留关键状态，后者强调把完整信息卸载到外部，再用 Mermaid 图谱维护关键摘要。两种思路并不互斥，完全可以组合使用。阅读建议：如果你正在从头设计一个 Agent 框架，或者在现有框架基础上构建生产级 Agent 系统，AgentScope 2.0 的每一个模块设计都值得仔细拆解——它是目前开源框架里，对「稳定运行」这个问题回答最完整的一个。阅读原文 ## 精讲三：腾讯云 Agent Memory 节省 61% Token 提升 52%成功率的诀窍：Mermaid 无限画布×上下文卸载来源：腾讯云开发者｜评分： 92 背景：Token 耗尽，任务中途断裂当 Agent 执行一个长任务时，会不断搜索、读文件、调用工具、修改代码。每一步都在产生大量信息——几千字、上万字。如果这些内容全部堆进上下文，结果往往是：Token 被迅速耗尽，模型被细节淹没，逐渐偏离原本的目标。腾讯云 TencentDB Agent Memory 团队的核心洞察是：问题不在于信息太多，而在于信息没有被「压缩成最可用的形式」。他们提出的解决方案是「上下文卸载 × Mermaid 无限画布」的组合策略，并在超长 Session 实验中验证了其效果：最高节省 61% Token，任务通过率从 33% 提升至 50%（相对 +52%）。上下文卸载：完整细节放外部，精华状态留内部「上下文卸载」的核心思路是：把完整的任务信息（搜索结果、工具输出、文件内容）卸载到外部文件系统，上下文中只保留「可供 Agent 快速定位和检索的摘要索引」。这看起来简单，但实现细节很关键：摘要不能只是自然语言概括，因为自然语言的摘要容易丢失结构性信息（比如「三所学校的学费已分别确认」这句话，不能让 Agent 立刻知道三者之间是并行关系，还是依赖关系）。 Mermaid 无限画布：结构化记忆，而非线性列表这就是 Mermaid 图语言发挥作用的地方。Mermaid 是一种被广泛应用于技术文档的流程图/关系图描述语言——它既可以被渲染成可视化图表，也可以被大模型作为纯文本直接读取和修改。腾讯云选择 Mermaid 的原因，来自他们总结的三条符号设计原则： 1. 符号必须是通用知识：压缩格式必须是所有主流大模型在预训练阶段都大量接触过的，否则生成和理解之间会产生语义偏移。Mermaid 满足这个条件，自定义编码方案不满足。 1. 符号的生成不能过于复杂：如果压缩规则太复杂，生成端和理解端对同一个符号的解读容易不一致。Mermaid 的语法相对宽松，允许模型灵活表达。 1. 表达要足够自由：让模型能根据实际情况调整结构，而不是被固定格式束缚。在「无限画布」的比喻中，Mermaid 图就是 Agent 维护的「任务地图」：每次工具调用后，Agent 更新这张图，记录已完成的节点、当前状态、关键发现和下一步计划。当上下文空间紧张时，Agent 可以卸载掉具体的工具输出细节，只保留这张结构化地图——而这张地图包含了重建完整任务状态所需的所有关键信息。实验结果：为什么这套方案有效在超长 Session 实验中（对应办公提效、创作、研究和编程类长任务），单纯的文本摘要方案能减少 Token 消耗，但任务通过率几乎没有改善——因为摘要丢失了任务的结构性信息，Agent 在中途容易「失忆」。而「上下文卸载 + Mermaid 无限画布」的组合方案同时保住了两件事：细节可恢复（外部存储）+ 结构不丢失（Mermaid 图谱），这才是通过率显著提升的根本原因。纯工程优化，无需微调这套方案完全在推理层实现，不依赖模型微调，与具体模型解耦——换模型、升级模型版本，方案照样有效。对于大多数工程团队来说，这是一个直接可以拿来用的优化思路，而不是需要「等模型团队支持」的功能请求。 TencentDB Agent Memory 已开源，GitHub 地址：https://github.com/Tencent/TencentDB-Agent-Memory 与今天其他故事的关联这篇文章是今天三篇精讲里最「有数据支撑」的一篇——它给出了可复现的实验数字，而不只是架构原则。结合《7 天把 Token 账单砍掉 87%》那篇（速览部分），两篇合在一起给出了 Token 成本优化的完整视角：一个侧重工程可观测性和路由策略，一个侧重上下文的结构化管理。阅读建议：如果你正在处理 Agent 长任务的上下文溢出问题，或者在寻找 Token 成本优化方案，这篇文章的实验设计和数据分析值得精读。特别是第二节「Mermaid 无限画布」的原理部分，对于理解「为什么是 Mermaid 而不是其他格式」有很深的洞察。阅读原文 ## 速览我用 7 天把 AI Agent 的 Token 账单砍掉 87%（附代码）来源：高可用架构｜评分：89 作者 Himanshu 分享了一套从 4800 美元降到 620 美元月账单的 7 天行动手册。核心方法论是：先用 Helicone/Langfuse/Portkey 建立可观测性，找出吃掉 60% 预算的那两个函数；再依次实施提示缓存（Anthropic 可达 90% 折扣）、上下文预算控制、按任务路由模型、重试循环限制和缓存命中率验证。文章强调「怀疑调试」纪律——优化后要持续监控，防止成本悄悄回弹。与精讲三形成互补：精讲三聚焦上下文结构化，本文聚焦全链路成本可观测性。 Vercel 如何将构建等待时间从 90 秒缩短至 5 秒来源：ByteByteGo Newsletter｜评分：91 Vercel 2023 年底悄悄上线了内部平台 Hive，把构建预置时间从 90 秒降至 5 秒，实现 18 倍提速。核心是用 AWS Firecracker 微虚拟机替换传统容器，解决多租户构建的对抗性隔离问题；再叠加三层优化：快照恢复（跳过冷启动）、预热池（保持已加载构建镜像的待机实例）和快照分层（共享只读基础层）。这是一篇少见的「先接受更难约束，再在约束内做极致优化」的工程案例，与精讲一的隔离架构思路有异曲同工之处。 Faire 通过 Cursor 云智能体将 PR 吞吐量翻倍来源：Cursor Blog｜评分：91 Faire 把原本需要 18 个月的迁移任务，缩减到由一名工程师管理一个 Agent 舰队完成。关键突破是 Cursor 云 Agent——每个 Agent 有独立开发环境，可以写代码、运行测试、提交 PR，不受本地资源限制。团队还用 Cursor Automations 每周自动跑超过 2000 次 Agent 任务，处理 Slack bug 分类、CI 故障修复和代码审查路由等重复性工作。Agent 规模化落地的案例，值得关注。用括号来监管是一种糟糕的方式来源：LessWrong｜评分：88 这篇文章从一个偏理论但很实用的角度切入：对连续分布使用离散区间监管（速度限制、税率区间、量刑门槛）本质上是低效的，因为区间边缘会产生扭曲激励。作者提出用数学公式替代区间的思路。放在 AI Agent 监管的语境下，文章与精讲一的「权限弹窗」讨论高度相关——「批准/拒绝」的二元判断本身就是一种区间化，AgentScope 的三级权限系统是对这个问题的部分回应。适合对 AI 治理和政策设计感兴趣的读者。 Token 生意在重新洗牌来源：腾讯研究院｜评分：88 从产业经济学视角分析 Token 作为 AI 时代新型生产要素的定价逻辑与市场结构。GPT-5.5 输出价格是 DeepSeek V4-Pro 促销价的 30 多倍，为什么两端都站满买家？文章梳理了三种定价锚点：OpenAI 的「市场渗透 + 分层定价」、Anthropic 的「价值定价」、Google 的「生态效益定价」。结合寡头垄断与开源倒逼、全球化与本地化的多重张力，勾勒出 Token 经济的全景图。刚刚，国产 AI 自己造了 AI，全球首例！来源：量子位｜评分：88 面壁智能发布 ForgeTrain —— 全球首个完全由 AI 编写的生产级大模型预训练框架，训练速度超越英伟达 Megatron 10%，并用其训练出 MiniCPM5-1B 端侧模型（1B 参数在 AA-Index 上超越所有 2B 以下模型）。团队同时提出「Forge Engineering」范式：当 AI 写代码成本越来越低，软件不必做成通用大框架，可以针对不同模型、不同硬件、不同任务「现场锻造」专用代码。 AI 就业恐慌的现实检验来源：MIT Technology Review｜评分：88 尽管普遍担忧 AI 会引发白领工作末日，但当前经济数据显示劳动力市场并未出现大规模混乱。短答案是：没有。尚无证据表明 AI 已对美国劳动力市场产生大规模冲击。但文章同时指出，AI 相关领域的年轻入门级工作者已开始感受到影响——这可能是信号的早期阶段。适合在担忧 AI 对职业影响的读者保持清醒认知时阅读。 ## 补充阅读架构云原生 Kafka：从分层存储迈向无盘未来（InfoQ，评分 91） Kafka 从硬件绑定系统向云原生平台演进的全景分析，涵盖分层存储、FinOps 成本归属、新一代消费者再平衡、虚拟集群和无盘架构。适合在生产环境维护大规模 Kafka 集群、或正在评估 Kafka 云原生迁移的工程师。 Harness Engineering: C 端 AIGC 内容生产自优化实践（阿里云开发者，评分 92）蚂蚁保 DIPG 系统把 C 端 AIGC 内容从「LLM 实时生成直出」翻转为「离线 Harness 生产 + 验证闭环 + DB 直出」，将不可控的质量风险转化为可控的离线流程。技术细节扎实，Host/Research/Verify 三 Agent 协作架构值得参考。 Introducing Music v2，突破性的全新音乐模型（ElevenLabs Blog，评分 90） ElevenLabs 发布 Music v2，人声、配器、作曲控制和多语言支持均有提升，同时将 API 定价最多降低 50%。适合关注 AI 音乐生成能力演进的创作者和开发者。 Google DeepMind 携手 OpenAI、ElevenLabs 和 Kakao，扩大 SynthID 水印应用（Google DeepMind，评分 91） SynthID 水印已应用于超过 1000 亿条内容，现在与 OpenAI、ElevenLabs 和 Kakao 达成合作，推动 AI 内容水印标准化。AI 内容透明度的行业级推进信号。 Microsoft Copilot Cowork 文件泄露漏洞（Simon Willison's Weblog，评分 88） Copilot Cowork 存在漏洞：Agent 可向用户收件箱发送含外部图片的邮件，通过提示注入和预认证 OneDrive 链接实现数据泄露。与精讲一形成直接呼应——自建代理层的安全风险在这里得到了现实印证。教皇利奥十四世关于人工智能的通谕解读（Simon Willison's Weblog，评分 88）梵蒂冈发布 AI 伦理通谕，Simon Willison 认为这是他见过的关于 AI 融入现代社会伦理问题最清晰的写作之一。通谕强调可解释性、人类尊严、问责制和算法决策风险。跨越技术边界的思想材料。 AI 智能体正在悄然制造混沌工程故障，企业尚未察觉（VentureBeat，评分 88）生产环境中的自主 Agent 正充当不受监控的混沌注入器——Agent 行动在技术上是正确的，但上下文不完整，导致级联式基础设施故障。当前的事故追踪与混沌工程框架没有设计来捕捉这类问题。适合 SRE 和平台工程师阅读。创业者闭门探讨：Make for Agent，其实还是 Make for Human（Founder Park，评分 90）一场 Agent 创业者闭门讨论的精华记录。核心发现：Agent 产品当前真实卡点不在宏大前景，而在离人最近的入口、身份、权限、上下文和控制感。与精讲一和精讲二的工程视角形成有趣的产品侧对照。对话李开复：别叫我们「六小虎」，叫「金钱豹」（晚点，评分 88）零一万物放弃预训练赛道、全面转型 To B 企业 AI 转型服务后，2025 年审计收入 2.5 亿元，2026 年订单超 15 亿元，正在筹备上市。这篇访谈记录了李开复对 AI 2.0 商业化路径的最新判断，是观察国内大模型公司战略分化的窗口。编程 Agent 可能是软件开发史上最昂贵的错误之一（InfoQ 中文，评分 88） George Hotz 把市面上所有主流 AI 编程 Agent 都用了一遍后，得出结论：「Agent 不会编程，它们是高度复杂的统计模型，生成的东西就是坏的，只是坏得越来越隐蔽。」文章呈现了 Karpathy（革命）与 Hotz（灾难）两个极端的对立，是对 Cursor/Faire 案例（速览部分）最有价值的反驳声音。具身智能的重复造轮子，终于有人开始认真解了（阑夕，评分 88）具身智能行业因数据质量、效率和成本瓶颈陷入重复造轮子困境。灵御智能通过自研硬件和云端大脑架构，提出「真机数据自由」方案，直指整个行业待解的数据瓶颈。 OpenAI 团队的零人工代码工作流深度解析（Aakash Gupta，评分 89） OpenAI 某团队禁止工程师编写代码，强制他们通过构建测试、lint 和文档来防止错误，打造出「自我评分的代码库」。一次重构消耗了 3.5 亿 Token。关键结论：制胜策略不是「氛围编码」，而是把质量标准编码进开发基础设施本身。 ## 今日阅读路径时间有限，先读这三篇： 1. 我们如何在多个产品中约束 Claude（精讲一）——Anthropic 的工程实践披露，覆盖了今天整个议题的核心原则：爆炸半径管理与环境隔离。无论你是否在用 Claude，这篇文章都是理解 Agent 安全架构的最佳起点。 1. 腾讯云 Agent Memory 节省 61% Token 提升 52% 成功率（精讲三）——有具体数字、有可复现方案、有开源代码。如果你正在做长任务 Agent，这篇的投入产出比最高。 1. 我用 7 天把 AI Agent 的 Token 账单砍掉 87%（速览）——精讲三讲上下文结构化，这篇讲全链路成本可观测性，两篇合在一起是 Agent 成本优化的完整地图。如果还有时间： - 做框架或平台的读 AgentScope 2.0（精讲二），看完整的生产级 Agent 系统工程如何设计。 - 关注行业动态的读 Token 生意在重新洗牌（速览），把今天的工程讨论放回商业地图里理解。 - 对 AI 编程 Agent 有疑虑的读编程 Agent 可能是最昂贵的错误（补充阅读），Hotz 的批评声音值得与 Cursor/Faire 的成功案例并列思考。

译Anthropic披露三种Claude隔离架构，发现93%权限弹窗被无脑通过，因此转向容器化隔离以限制智能体能力边界。阿里通义AgentScope 2.0升级至生产级，涵盖模型重试容错、三级权限判断系统和结构化上下文管理，其Workspace抽象支持多执行环境无缝切换。腾讯云提出上下文卸载方案，配合Mermaid图谱，将超长Session的Token消耗降低61%，任务通过率提升52%。三者共同指向智能体工程落地的关键：可靠的隔离边界、稳定的容错机制以及高效的状态管理。

ginobefun@hongming731 · 5月27日50

#BestBlogs 早报 05-27 当 Agent 能力不断膨胀，如何让它在真实环境里跑得稳、管得住，成了工程侧最紧迫的课题。这期早报聚焦 Agent 系统工程的三个维度：Anthropic 首次披露跨产品约束 Claude 的三种隔离架构，揭示 93% 权限弹窗被无脑通过的真相；阿里 AgentScope 2.0 把「可见调试」升级为生产级系统工程，涵盖权限边界、容错机制与执行环境抽象；腾讯云则用上下文卸载与 Mermaid 结构化图谱把超长 Session 的 Token 消耗砍掉六成，任务通过率同步提升 52%。在 Agent 时代，真正的护城河不是调用更多模型的能力，而是让长链路任务稳定落地的工程底座。今天这三篇精讲，正是在这条赛道上最扎实的一批工程实践。

译早报聚焦Agent系统工程，介绍三篇实践。Anthropic披露Claude的三种隔离架构，并指出93%权限弹窗被无感通过。阿里AgentScope 2.0将调试升级为涵盖权限边界、容错机制的生产级系统工程。腾讯云通过上下文卸载与Mermaid结构化图谱，将超长Session的Token消耗降低60%，任务通过率提升52%。三者共同强调，Agent时代的核心在于支撑稳定运行的工程基础。

SemiAnalysis@SemiAnalysis_ · 5月27日58

PDOOM ALERT 🚨 : ~48% of e2e LLM latency is prefill, ~52% is decode. Prefill itself breaks into 2 ops: 🟠 Prefill extend (cache write) — ingests new context/files, writes fresh KV tokens 🟠 Cache read — reuses existing KV cache from prior turns

译PDOOM警报🚨：约48%的端到端LLM延迟是预填充，约52%是解码。预填充本身分为两个操作： 🟠 预填充扩展（缓存写入）——摄入新上下文/文件，写入新的KV token 🟠 缓存读取——重用先前轮次的现有KV缓存

Anthropic@AnthropicAI · 5月27日57

New on the Engineering Blog: The access and permissions we grant agents should evolve with their capabilities. In our own products, we set these parameters through sandboxing, which limits the scope of any potentially destructive actions. Read more: https://www.anthropic.com/engineering/how-we-contain-claude

译工程博客新文章：我们授予智能体的访问权限和权限应随其能力演进。在我们的产品中，我们通过沙箱来设置这些参数，以限制任何潜在破坏性操作的范围。阅读更多：https://www.anthropic.com/engineering/how-we-contain-claude

Xiaomi MiMo@XiaomiMiMo · 5月27日58

🚀 Better inference efficiency, lower costs, broader access. MiMo-V2.5 Series API pricing is now permanently reduced — by up to 99% compared to previous pricing. ✨ Unified pricing across all context lengths. MiMo Token Plans have also been upgraded: • 5–8× more usable tokens at the same price • Simpler and more transparent billing rules 🎁 As a thank-you to current users, all current Token Plan credits will be fully reset. 🎧 MiMo-V2.5-TTS remains free for a limited time. ⏰ Effective May 26 at 6:00 PM PDT. These improvements are powered by continued inference optimization and serving efficiency upgrades across the MiMo stack. 🛠️ We’ll also publish a detailed technical blog on the inference optimizations later — stay tuned.

译MiMo-V2.5系列API价格宣布永久性大幅降低，最高降幅达99%，并统一了所有上下文长度的定价。同时，Token计划升级，用户支付同等价格可获得的可用Token数量增加了5至8倍，计费规则更简单透明。作为对现有用户的回馈，当前所有Token计划额度将被完全重置。MiMo-V2.5-TTS功能限时免费。这些改进源于整个MiMo技术栈的持续推理优化和系统服务效率提升，详细技术博客后续发布。

Replit ⠕@Replit · 5月27日63

There are two ways to add login to your app on Replit: → Replit Auth: zero setup, users sign in with their Replit account → Clerk Auth: your own branded sign-in, dev/prod environments both take one prompt. docs + video below 👇 docs: https://docs.replit.com/learn/projects-and-artifacts/auth#auth

译在 Replit 上为你的应用添加登录有两种方式： → Replit Auth：零配置，用户使用其 Replit 账户登录 → Clerk Auth：你自己的品牌化登录，开发/生产环境均只需一个提示词。文档和视频见下方 👇 文档：https://docs.replit.com/learn/projects-and-artifacts/auth#auth

Deedy@deedydas · 5月27日65

OpenRouter is now serving 1.5 quadrillion tokens/yr! That token run rate is: — 15-30% of Google APIs — 20-40% of OpenAI — >50% of Microsoft Azure Foundry That's 15x larger than when we invested a year ago. Revenue has already doubled since this $1.3B round was done in Feb!

译OpenRouter现在每年服务1.5千万亿token！这个token处理量是： — Google API的15-30% — OpenAI的20-40% — 超过Microsoft Azure Foundry的50% 这比我们一年前投资时大了15倍。自2月完成这轮13亿美元融资以来，收入已经翻倍！

François Chollet@fchollet · 5月26日65

Developer productivity is hard to manage.

译开发者生产力难以管理。

Chubby♨️@kimmonismus · 5月26日54

Uber burned $3.4B in AI budget in 4 months. Microsoft is cancelling Claude Code licenses company-wide. The root cause is the same: no routing layer between the request and the model. Build Your Own Router lets you match every request to the right model based on your own benchmarks. Not every prompt needs a frontier model. This is where production AI is heading. #mergegateway, @shensi

译Uber在4个月内消耗34亿美元AI预算，微软正全公司范围取消Claude Code许可证，根本原因在于请求与模型之间缺乏路由层。Merge Gateway推出的“构建你自己的路由器”功能，允许团队根据自定义基准测试，将每个请求路由到最适合的模型。正如引用推文所指出的，团队常追逐所谓“最佳”新模型并频繁重新集成，但根本不存在通用的“最佳”模型，只有适合特定产品、用户和用例的模型。该功能由@merge_api提供，前200位评论用户可获得100美元额度。

Emad@EMostaque · 5月26日55

I think folk are underestimating how much of AI models are actually engineering at scale versus breakthrough research. See how @cursor_ai caught up to Anthropic / OpenAI models run at a fraction of the cost to run & it becomes clearer why that deal was done & what is to come

译本推文认为，人们低估了AI模型发展中“工程规模化”相较于“突破性研究”的重要性。Cursor以远低于大厂的成本运营并追赶上了Anthropic/OpenAI的模型，印证了这一趋势。引用中，xAI的Elon Musk回应称其AI会很棒，并指出xAI仅成立3年，年龄只有Anthropic的一半、OpenAI的四分之一，他誓言将继续努力，并期待3年后的竞争格局。

OpenRouter@OpenRouter · 5月26日69

Today we’re announcing our $113M Series B led by @CapitalGVC. Over the last 6 months, weekly volume on OpenRouter grew from 5T to 25T tokens as AI rapidly shifts from experimentation into production. We’re excited for what comes next.

译今天我们宣布完成由@CapitalGVC领投的1.13亿美元B轮融资。过去6个月，随着AI从实验快速转向生产，OpenRouter的周处理量从5万亿增长到25万亿token。我们对未来充满期待。

X.PIN@thexpin · 5月26日67

Huawei plans to scale AI chips without smaller nodes. A new paper by Huawei's He Tingbo, "A Time Scaling Theory for Multi-Layer Electronic Systems," outlines how they'll advance Ascend AI chips as transistor shrinking slows down. Instead of next-gen lithography, Huawei will scale its Ascend SuperPoD line through ~2030 by packing mature tech across the 2025 910C, 2026 950, and 990: 🔹 Chiplets 🔹 2.5D fan-out packaging 🔹 3D stacking (via micro-bumps & hybrid bonding) Around 2030, Ascend 990 will debut LogicFolding in AI accelerators, aiming for a 100x integration leap by 2035.

译华为将不依赖更小制程节点，通过封装与架构创新来扩展其昇腾AI芯片。根据何庭波的论文，华为计划在2025年至2030年间，通过Chiplets、2.5D扇出封装和3D堆叠技术，推进其昇腾SuperPoD系列，具体产品包括2025年的910C、2026年的950及后续的990。约2030年，Ascend 990将引入LogicFolding技术，目标是到2035年实现100倍的集成度跃升。

Alibaba Cloud@alibaba_cloud · 5月26日39

AI Key Frames — your front-row access to Qwen Live. The biggest model won't win the AI race — the fastest system will. Yun Jin, VP of Engineering at Fireworks AI, explains why inference has become the real battleground, and how the cloud is being rebuilt for the age of agents. Step into the AI-native momentum. 🚀 Stay tuned: https://int.alibabacloud.com/m/1000413447/

译AI Key Frames — 直击 Qwen 直播现场。最大的模型不会赢得 AI 竞赛——最快的系统才会。Fireworks AI 工程副总裁云锦解释了为何推理已成为真正的战场，以及云端如何为智能体时代而重建。步入 AI 原生浪潮。 🚀 敬请关注：https://int.alibabacloud.com/m/1000413447/

AYi@AYi_AInotes · 5月26日69

小白零基础教程：Grok Build安装使用指南（专为非技术型SuperGrok及X Premium+用户制作）老哥的讲解非常细，马斯克都转载认可了，我翻译了一版中文字幕版便于大家学习：你将完整学到： • 如何用一行命令秒速安装Grok Build • 创建真实可用的网站 • 用Grok Imagine自动生成图片与视频 • 在多个文件夹同时运行不同项目 Grok甚至会帮你自动执行命令，无需任何编程基础。

译这是一条面向非技术用户的 Grok Build 安装与使用教程视频。教程演示了如何通过一行命令快速安装 Grok Build，并展示了如何用它创建真实可用的网站。其核心功能包括：利用 Grok Imagine 自动生成图片与视频，以及支持在多个文件夹中同时运行不同的项目。在使用过程中，Grok 会自动执行所需命令，无需用户具备任何编程经验。该教程由原作者 Daniel_Farinax 制作，以解答朋友们的疑问，并获得了马斯克的转发认可。

ginobefun@hongming731 · 5月26日62

http://x.com/i/article/2059070654180421632 # BestBlogs 早报 · 05-26｜Claude Code 实践、AI 自动化悖论、百川医疗 AI 在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-05-26 ## 导语今天是 2026 年 5 月 26 日，欢迎收听 BestBlogs 早报 EP68，本期内容丰富。今日早报从三个不同的切入角度，共同指向同一个深层问题：当 Agent 开始重写工程与组织的规则，身处其中的人该怎么站位？ Anthropic 工程师 Ara 分享了他们内部使用 Claude Code 的第一手范式——规格说明从 Markdown 升级为 HTML、让模型来主持需求采访、以及智能体原生 DOM 验证框架，这是工程方法论层面的具体答案。Every 公司 CEO Dan Shipper 则用自家团队一年从 15 人扩至近 30 人的真实数据，颠覆了 AI 会大规模裁员的主流叙事。百川创始人王小川的对话则展示了一条更长远的选择：离开通用 AI 的主干道，把整个公司押注到「造医生」这件事上。三条精讲各有棱角，速览与补充阅读涵盖 Agent 术语厘清、异构智能扩展、AI Agent 的工资单逻辑、Karpathy 加入 Anthropic 的战略解读，以及 OpenAI 数学突破、AI 安全治理等前沿动态。今日精选共 14 篇内容，覆盖 AI 工程实践、组织变革与人力影响、垂直 AI 产品以及 AI 安全治理等多个维度，让我们开始。 ## 精讲一：Anthropic 内部如何使用 Claude Code：HTML 规格说明、让模型来采访你，以及智能体原生 DOM 验证框架 Anthropic Applied AI 团队的架构师 Ara 在一场内部工程工作坊上，分享了他们使用 Claude Code 的三项核心实践——每一项都和主流做法存在明显反差。这不是通用的「怎么写好提示词」指南，而是 Anthropic 工程师在大量实际场景中摸索出来的、真正有效的智能体原生工作方法。从 Markdown 到 HTML 规格说明过去，Markdown 一直是 AI 辅助开发中描述需求的主流格式。但随着模型能力提升、Agent 执行周期变长，依赖大段平铺文本的方式开始暴露问题：长上下文中细节容易被忽略，Agent 走偏时消耗大量 token 才能校正。 Ara 的团队将工程规格说明迁移到 HTML 格式。这不是单纯的格式替换，而是一次结构密度的升级。HTML 规格说明可以提供可视化检查的结构化基线——开发者可以直接在浏览器中看到设计变体（比如 Claude Opus 4.7 生成的极简风格或布鲁塔利主义风格方案），截图后送入模型视觉系统。这套方式在 Agent 真正开始执行改动之前，就建立了一个由人类审核确认的强基线，大幅降低了 Agent 跑偏的概率。 Tar 在内部提出的概念「HTML 文件的非理性有效性」，正是这一实践的理论出发点。结构化 HTML 不只是给模型看的——它同时也是给工程师看的，可供随时视觉验证的活文档。让模型来采访你 Ara 把这一点联系到 Richard Sutton 的经典论文《苦涩的教训》（The Bitter Lesson）——依赖原始数据和算力，长期来看总能胜过人工设计的约束。在与高级 AI Agent 协作时，工程师常见的两种失误：一是在开始阶段用过多硬规则约束模型，二是用「让它更好」这样的模糊指令驱动执行。Ara 的建议是颠倒这个过程：需求其实就在你脑子里，但你可能自己还没梳理清楚。正确的方式是让 Claude 主动用 ask_user_question 工具来采访你——挖掘边界条件、用户领域和隐含约束。这个做法的前提是让 Agent 运行在 auto 模式，并配置足够高的 effort 等级（比如 X-high 或 max effort），确保模型真正主导探索阶段，而不是被提前写死的规则框死。智能体原生 DOM 验证框架这是 Ara 分享中最核心、也最具操作价值的一部分。传统 Agent 测试往往依赖脆弱的 UI 爬取或字符串解析，一旦界面改变就容易失效。Anthropic 的做法是让组件主动向 DOM 发布数据契约——组件不只渲染视觉界面，还将状态、Schema、不变量等直接输出到 DOM 的解耦属性中。具体来说，在 React 应用的示例演示中： - 每当有条目被添加或处理时，元素内的自定义跟踪属性会即时更新； - 验证数据与视觉布局样式完全解耦，互不干扰； - Playwright MCP 工具直接读取这一结构层，评估不变量（如计算结果、数据完整性边界）是否成立。这套架构创造了一个统一的验证框架，能在三种环境中无缝运行：人工 Dashboard、Opus 4.7 无头浏览器、以及 CI/CD 流水线。换句话说，同一套验证契约，既能被工程师手动检查，也能被 AI Agent 自动执行，还能在持续集成中作为门禁。为什么值得关注这三项实践背后有一个共同逻辑：要让 Agent 真正可靠，不是靠更严格的提示词约束，而是要改造软件本身的「可读性」——让 Agent 能更精确地感知状态、提出问题、验证结果。这是从「用 AI 辅助写代码」到「为 AI Agent 设计软件架构」的范式跃迁。这套方法还有一个重要的实践含义：人工检查与 Agent 自动验证使用同一套契约，意味着人类工程师看到的基线与 Agent 看到的基线是一致的。这避免了「AI 测过了但人看着不对」或「人看着没问题但 CI 挂了」这类典型摩擦。对于正在将 AI Agent 引入工程流程的团队，这篇内容提供了三个可以直接落地的方向：明天就可以把你的需求文档改写成结构化 HTML 试试看，感受一下密度与清晰度的差异；在 Claude Code 会话里试试让模型先用 ask_user_question 来问你，而不是你给它一堆约束。阅读完整内容 → ## 精讲二：AI 悖论：越自动化，越需要人，活反而越多「AI 会消灭大量工作岗位」——这是过去两年最常见的主流叙事之一。Every 公司 CEO Dan Shipper 在 Lenny's Podcast 上，用自家公司的真实数据直接反驳了这个叙事：深度拥抱 AI 之后，Every 团队一年内从 15 人扩张到近 30 人，规模翻倍了。这不是个例，而是有结构性原因的现象。为什么自动化反而带来更多人？ Dan 的解释非常清晰。自动化将通用技能商品化——之前需要专门人才完成的工作，现在 AI 可以轻松处理。但商品化同时带来两件事：一是需求本身的爆炸式增长，因为门槛降低了；二是隐性管理层的产生，因为每一个被自动化的流程都需要有人在旁边审查边界情况、修复下游问题、把控质量。换句话说：AI 把「做事」的成本压低了，却提高了「判断什么该做、做得对不对」的价值。当 AI 大量生产低质量通用内容（Dan 用「slop」来形容）时，个人品味、定制化格式、深度概念性思考反而成为稀缺的差异化要素。企业软件不会消失，反而更贵了 Dan 明确反对「SaaS 死亡论」。他的逻辑是：AI Agent 通过 API 直接与软件交互，反而大幅提高了软件的使用频次和用户量。那些深度使用 AI 自动化的公司，年度软件支出实际上是在增加的，因为需要为更多被 AI 程序化调用的专用工作流付费。受益最大的两类角色 Dan 指出了在这波浪潮中占据最大杠杆位置的两类人： - 能独立驱动全产品周期的产品经理：具备高度策略性思维的 PM，现在可以把产品直觉、用户洞察和 AI 生成能力直接结合起来，不再依赖漫长的工程反馈循环，自己就能构建工具。 - 全栈设计师：创意团队可以在 Cursor 或 Codex 等环境中直接实现复杂的 UI/UX 组件和动效，把功能性代码通过自动化 Pull Request 直接推到代码仓库。技术壁垒正在快速崩塌，传统的「产品、设计、工程」职责边界也在消融。能横跨这三个领域的人，在 AI 时代的杠杆是最大的。对普通从业者的启示 Dan 给从业者的建议是主动「骑上模型」——以好奇和玩耍的心态对待每一次新模型发布，持续用不同提示词做实验，在实际工作中寻找 AI 能真正帮到自己的创造性时刻。这和许多「AI 威胁论」的叙事形成了鲜明对比：当系统性转型来临时，真正的问题不是「会不会被替代」，而是「你是在骑着这波浪潮，还是在被它卷走」。与今日其他内容的关联这个观点和速览中的「Agent 公司的对手是工资单」一文形成直接呼应：两者都在说，AI Agent 的真正竞争维度不在软件领域，而在人力资源领域。而 Anthropic 工程实践（精讲一）和 Google DeepMind 的规模化 Agent 运营（速览）则从工程侧印证了这一趋势——当 Agent 能可靠运行，那些能有效使用 Agent 的人才的杠杆将被大幅放大。阅读完整内容 → ## 精讲三：对话王小川：离开通用人工智能的主干道之后一年多前，王小川带着百川智能做了一个在当时看起来非常逆势的决定：大幅缩减通用模型团队，关闭金融等多条行业线，All in 医疗大模型。彼时整个大模型行业热闹非凡，平均三天就有一个新版通用大模型面世。而今，他选择在新医疗大模型 M4 发布前夕，接受《智能涌现》的深度对话。读完这篇访谈，最强烈的感受不是「他做对了」或「他做错了」，而是：这是一个真正想清楚自己要做什么的人，做出的一个清醒的非共识选择。「造医生」不是「复制医生」王小川的医疗路径有一个关键的底层逻辑：他想做的不是给医生提效，而是增加医生的供给。「我们要造更多的医生」。这两者的区别非常根本。给医生提效的路径，在中国医疗市场里天花板很低——中国医生平均每天看 50-80 个病人，已经够忙，提效的商业价值在中国医疗支付体系下很难变现。而「造医生」的路径，是把 AI 直接面向患者，做主动的、长期的、全生命周期的健康管理。 M4 模型在这个方向上有具体落地：在 OpenAI 发布的 HealthBench 测评集的 Hard 和 Professional 两个子集上都排名第一，且没有针对 Benchmark 做特殊训练；在北京儿童医院的多学科会诊场景中，AI 儿科医生与专家会诊结果吻合率达 95%，已向河北省 150 余家县级医院下沉。 Agent 产品「百小医」：AI 家庭医生在 C 端，百川推出了 Agent 产品「百小医」。它的定位是一个会主动跟进的 AI 家庭医生——不只回答问题，还会在患者就医前帮你梳理病情准备给医生，做处方分析，管理病例，定时提醒吃药和复诊。王小川特别强调了这套产品底层的永久性记忆存储——不是上下文那套滑动窗口模式，而是有数据库结构的存储：体检报告、对话中提到的症状、血压、用药情况都能被记录，支持全生命周期的健康数据管理。这一点对医疗场景至关重要，因为通用模型大多数时候根本不知道该存用户的什么数据。「沉寂」的代价：合伙人离开，上市推迟这条路不是没有代价的。在决策过程中，有同学认为做通用模型才是正确方向，投资人也有意见，部分合伙人在那个时候选择离开。团队从高峰期压缩到不超过 300 人，原定的上市节奏也因此延迟。王小川对此的态度是坦然而非辩解：「如果没有转型，继续走主流道路，你也会有同等程度的焦虑。」他更难以接受的，是在公司快成立两周年时，「不知道自己到底在干什么，在创造什么价值」。对行业的另一种参照对于那些仍在同质化竞争中的 AI 公司，王小川的案例提供的不是「去做医疗」的方向建议，而是一种更底层的路径——找一个你真正相信的问题，然后用足够长的时间回答它。这本身就是对「ALL in 通用 + 快速上市」这一主流叙事的一个值得认真对待的反例。他的判断是：「AI 时代只要交付给用户足够重要的价值，商业化会是水到渠成的事。」王小川的「反主流」逻辑为何值得认真对待在 Coding Agent 成为史上增长最快的应用场景这件事发生之前，没有多少人会相信它能在几个月内爆发。王小川的类比是：如果这样的事能发生在 Coding 领域，那「造医生」领域的旧边界同样可以被打破。医疗反馈周期长、商业化路径难——这些曾经是行业共识，但共识本身就是时代惯性，而不是不可改变的物理定律。这篇访谈最值得保留的不是他给出了什么答案，而是他提出问题的方式：公司快成立两周年了，你是否知道自己在创造什么价值？这个问题，对个人和团队都同样有效。阅读完整内容 → ## 速览 Harness、Scaffold 以及值得厘清的 AI 智能体术语（Hugging Face Blog） AI Agent 领域的术语正在快速膨胀，许多词在不同团队之间被混用或赋予不同含义。这篇来自 Hugging Face 的词汇表，针对 Model、Scaffolding、Harness、Agent、Context Engineering、Policy、Tool Use、Skill、Sub-agent 等常见但解释不一致的概念，给出了清晰实用的区分。不追求覆盖所有术语，聚焦于那些最容易被混淆的。建立共享心智模型是构建可维护 Agent 系统的基础。配合今天精讲一关于 Harness Engineering 的内容一起读，很有价值。异构智能如何成为 AI 推理扩展的下一种范式（AI Engineer） Callosum 联合创始人工程师 Adrian Bertagnoli 在 AI Engineer 大会上提出：单一大模型 + 均质算力的扩展方式，正在推理阶段撞到性能和成本天花板。下一步是异构智能——让模型、Agent、工作流与专用芯片协同路由，根据任务的认知需求选择最合适的执行路径。对正在构建多模型、多路由推理系统的工程师有直接参考价值。 Agent 公司的对手是工资单，不是 SaaS 预算｜SVTR Signal #017（硅谷科技评论）这篇分析的核心观点非常锐利：用 LTV/CAC、净留存率这套 SaaS 指标来看 AI Agent 公司，会系统性低估它们的成长上限。全球企业 IT 预算约 5000 亿美元量级，而人力相关支出（薪资 + 外包 + 招聘）是其十倍以上。Contrario 6 个月做到 600 万美元 ARR，Viktor 10 周达到 1500 万美元年化收入——这不是产品特别好，而是买单人从 CIO 变成了 HR 总监，决策逻辑从「软件采购」变成了「人力替代」。与今天精讲二的 Dan Shipper 数据形成呼应。 164 倍 ROI，SaaStr 把自己活成了最激进的 AI 实践｜SaaStr AI Annual2026 实录（随机小分队） Jason Lemkin 在 SaaStr AI Annual 2026 上直接用自家数据开讲：两个 AI VP（分管 Marketing 和 Customer Success）整月费用合计 $254，替代约 $50 万年度人力成本。ROI 164 倍。接着是 Canva 讲「如何让 Agent 主动选择你」，Monaco CEO 讲「AI 做得好与做不好的分界线在哪」。三场分享构成一张完整的地图：钱不是变少了，而是在搬家。 Google DeepMind 如何大规模运行智能体系统（AI Engineer） Google DeepMind 工程师 Ian Ballantyne 和 KP Sawhney 公开展示了内部 Anti-Gravity 编排平台的核心机制：多 Agent 并行、基于浏览器的沙箱测试、DOM 实时检查、Scratchpad 日志追踪、Token 配额管理、轨迹存储与技能机制，以及自动化代码评审流水线。Anti-Gravity 表面看是一个类 VS Code 的编码界面，但其核心是可扩展的编排框架，支持多 Agent 跨分支并发运行，并通过 Human-in-the-loop 机制让工程师随时介入中断或修改任务。与今天精讲一的 Anthropic 实践对比来看，两家顶级 AI 实验室在 Agent 工程化路径上有明显的相似选择：都强调 DOM 契约验证、都重视浏览器沙箱测试。 Andrej Karpathy 加入 Anthropic 的真正原因：从 AutoResearch 原型看递归自我改进的战略布局（Wes Roth） Wes Roth 深度解析了 Karpathy 加入 Anthropic 预训练团队这一事件的战略含义。核心不是人才争夺，而是 Karpathy 在离开 OpenAI 后独立开发的 AutoResearch 原型——30 行代码实现的「Karpathy Loop」，通过自主优化循环实现了 11% 的训练加速。Anthropic 把他放进预训练部门，直接向 Nick Joseph 汇报，任务是用 Claude 加速预训练研究，本质上是一次高风险的递归自我改进（RSI）实验。 Cursor Composer 2.5 如何用更快、更便宜的编码模型挑战 Claude Code（Theo - t3.gg） Cursor 发布了专门针对编码任务的 Composer 2.5 模型：输入成本 $0.50/M tokens，输出成本 $2.50/M tokens，比主流前沿通用模型便宜约 5-6 倍。Theo 分析了其背后的 RL 后训练方法，以及 SpaceX 提供算力的传闻背景。Cursor 的策略是在 Composer 的生态内锁定用户，通过专注 coding 场景的后训练获得任务特化优势。Theo 也指出了现实限制：Composer 2.5 在非代码推理和长上下文场景表现欠佳。这是「大而全的基础模型」与「小而专的任务特化模型」之争的典型案例。 ## 补充阅读 OpenAI 解决数十年数学难题：Erdős 突破（Wes Roth） OpenAI 内部未发布的通用推理模型，成功反驳了 Paul Erdős 1946 年提出的平面单位距离问题猜想——这个猜想在离散几何领域悬置了整整 80 年。AI 通过跨学术领域连接不同知识，独立生成了一篇真正可发表的原创数学研究成果，这是业界的第一次。Wes Roth 详细分析了这一发现的过程与意义。对关注 AI 数学推理能力边界的研究者和产品人来说，这是一个值得细看的里程碑事件。 Anthropic 联合创始人 Chris Olah 对教皇利奥十四世通谕《伟大的人文》的评论（Anthropic News） 2026 年 5 月 25 日，教皇利奥十四世发布了关于 AI 的通谕《Magnifica humanitas》（On safeguarding the human person in the time of artificial Intelligence）。Anthropic 联合创始人 Chris Olah 受邀在梵蒂冈出席发布活动并发表讲话，认为 AI 引发的深刻问题早已超出计算机科学范畴，需要宗教、哲学和社会机构的实质参与。这是 Anthropic「拓宽 AI 对话圈」倡议的一部分。适合对 AI 伦理、社会影响与全球治理感兴趣的读者。所有算力都是食物：AI 抗拒关闭、自我复制与全球算力治理（Cognitive Revolution） Palisade Research 执行主任 Jeffrey Ladish 与 Nathan Labenz 的深度对谈。主题是 AI 系统的现实安全风险：关闭抵制的实验证据、自主自我复制测试结果、智能体安全失效模式，以及全球算力治理的可能路径。标题「所有算力都是食物」来自对模型在实验环境下表现出的资源获取倾向的描述。信息密度很高，不是假设性的末日讨论，而是基于实验数据的近期风险分析。适合对 AI Safety 有基础了解的读者。高德 AI Agent 自主增长系统实践：从想象到可运行的工程系统（ginobefun）高德在 PC 站 SEO 增长场景下，利用 Harness Engineering 思想构建多 Agent 协作系统的工程实践 Thread。关键设计包括：将长任务拆解为 workflow 和状态机（DISPATCHED/ACKED/RUNNING/SUCCEEDED/FAILED），通过心跳、超时、重试保证链路可控；用文件化 Memory 管理产物（PRD、设计、架构明确落盘）；Builder 与 Evaluator 职责彻底分离（零信任原则）；Evaluator 通过 Benchmark 数据集被评估，三轮优化后均分从 64.5 升至 83.4；优先快速失败，低成本检查先于高成本验证。最后强调：现阶段更有价值的是降低人工介入频率而非追求 100% 无人化——这对独立开发者和一人公司尤其有启发。与今天精讲一的 Anthropic DOM 验证实践形成工程侧的呼应。 ## 今日阅读路径如果你今天时间有限，建议按以下顺序读三篇： 1. 精讲一：Anthropic 内部的 Claude Code 实践 — 如果你正在构建 AI Agent 或使用 Claude Code，这是今天最有直接落地价值的内容。HTML 规格说明、模型采访你、DOM 验证契约，三个方法可以直接在工作中尝试。 1. 精讲二：AI 悖论——越自动化越需要人 — 用真实数据反驳「AI 会消灭工作」的叙事，同时指出 PM 和全栈设计师将是最大受益者。如果你在思考自己的职业方向，这篇值得认真读。 1. Agent 公司的对手是工资单，不是 SaaS 预算 — 这篇分析改变了看待 AI Agent 公司估值和商业模式的框架。如果你在做投资判断、业务规划或是在一家 AI 公司，这是今天最值得读的战略视角。如果还有时间，精讲三的王小川对话适合慢读，它提供了一个关于「在 AI 时代如何做非共识选择、坚守原始初心」的真实案例，读完很可能会触发你重新思考自己的方向定位。对工程师而言，额外推荐 Hugging Face 的 Agent 术语词汇表，5 到 10 分钟能让你和团队成员在核心术语上快速对齐，有效减少日常沟通摩擦。

译Anthropic 工程师 Ara 分享内部使用 Claude Code 的三项核心实践：将规格说明升级为 HTML 以提升结构密度；让模型通过 ask_user_question 工具主动采访需求；采用智能体原生 DOM 验证框架，实现人工、Opus 4.7 无头浏览器及 CI/CD 的统一验证。Every 公司 CEO Dan Shipper 用团队一年内从 15 人扩张至近 30 人的数据，反驳 AI 会大规模裁员的叙事，认为自动化反而催生需求增长与质量管控需求。百川智能创始人王小川透露，公司已收缩通用模型与金融等业务线，All in 医疗大模型，并即将发布新医疗大模型 M4。

ginobefun@hongming731 · 5月26日73

非常酷，准备试一下~ FreeLLMAPI 是一个开源代理，聚合了多个提供商的免费 API 额度，每月能提供约 8 亿 Token，并具有自动故障转移和兼容 OpenAI 的端点。

ginobefun@hongming731 · 5月26日57

这个帖子为 AI 工程中的三个关键概念——提示工程、上下文工程和框架工程——提供了一个清晰的、层次化的理解框架。

译该推文澄清了AI工程中三个常被混淆的概念。提示工程聚焦于单次调用的信息准备，负责组装角色、指令、示例等构成完整输入。上下文工程管理多步任务中有限的上下文窗口，核心在于有选择性地保留、压缩和丢弃信息。框架工程则构建完整的智能体执行系统，其循环包括“收集”、“执行”和“验证”阶段。三者呈嵌套关系：框架工程是外层容器，其“收集”阶段整合了管理窗口记忆的上下文工程和生成最终提示词的提示工程。

Rohan Paul@rohanpaul_ai · 5月26日69

Even Jensen gets the surprise question. 😀 Reporter: Would you sell chips to Huawei?

译黄仁勋在访谈中回应了是否会向华为出售芯片的问题。他指出，对华芯片出口管制并未能阻止中国AI发展，反而因市场空白而刺激了华为等本土芯片产业的成长，使其获得了学习、规模化和出口的动力。真正的AI竞争已不仅局限于最快芯片，而是涵盖芯片、能源、基础设施、模型、应用和标准等整套“智能操作层”的竞争。长期风险在于，美国的限制可能使其技术最终被排斥在美国本想影响的体系之外。

向阳乔木@vista8 · 5月26日65

前年 Vibe Coding的第一个网站，粘贴或上传 HTML、Markdown、SVG、Mermaid 生成可分享的链接。还能给链接加上密码，比如写稿件给人审核时用。解决AI生成内容微信不方便分享问题，另外我常用来测大模型的HTML生成效果。为方便更多人，最近改成 Cloudflare一键部署版，还新增了管理后台。除了历史遗留蓝紫配色，其他没毛病 😂。只需跟Agent说，安装部署这个程序： https://github.com/joeseesun/quickshare-cloudflare

译该推文介绍了Quickshare工具，用于将AI生成的HTML、Markdown等内容转化为可分享链接，以解决在微信中分享此类内容不便的问题。工具新推出基于Cloudflare的一键部署版本，并新增管理后台。用户可通过AI智能体安装部署，其核心功能还包括为链接添加密码保护，方便审核等场景。

Qwen@Alibaba_Qwen · 5月25日61

✅Implicit caching is now live on Qwen3.7-Max — kicks in automatically, no setup needed. ⚡️Faster + cheaper out of the box. Need higher, more deterministic hit rates? Try explicit caching instead. 🙌 🔗Best practices 🔗 ：https://www.alibabacloud.com/help/en/model-studio/explicit-cache-best-practice

译✅隐式缓存现已在Qwen3.7-Max上线——自动启用，无需设置。 ⚡️开箱即用，更快更便宜。需要更高、更确定的命中率？请尝试显式缓存。🙌 🔗最佳实践🔗：https://www.alibabacloud.com/help/en/model-studio/explicit-cache-best-practice

向阳乔木@vista8 · 5月25日55

最近 Vibe 了一些小网站，好奇有多少访问。于是让Codex在VPS上部署了一套umami统计。官方版只能添加有限数量网站，自部署无限量。想给哪个网站加浏览统计，只需要跟Codex说下就行。如果你有闲置的VPS，从网站搭建，域名配置，流量统计，都可以交给Codex通过SSH完成。真正口喷建站。

译用户通过Codex在VPS上自部署了umami统计工具，可为网站添加无限量流量监控。相比官方版有限制，自部署方案支持对任意网站通过指令快速启用统计功能。整个过程包括网站搭建、域名配置及数据统计均可由Codex通过SSH自动化完成，体现了“口喷建站”的便捷性。

Peter Steinberger 🦞@steipete · 5月25日62

Folks: when you write skills, ask your agent to be token efficient, relax grammer. I see too many skills that write books in the skill description, and all that crap is loaded into every context. I wrote a skill that finds the worst offenders. https://github.com/steipete/agent-scripts/blob/main/skills/skill-cleaner/SKILL.md

译大家好：当你编写技能时，请让你的智能体注重 token 效率，放宽语法要求。我看到太多技能在描述中写了长篇大论，而所有这些内容都会被加载到每个上下文中。我写了一个技能来找出最糟糕的例子。https://github.com/steipete/agent-scripts/blob/main/skills/skill-cleaner/SKILL.md