# 姚顺雨首次公开亮相：AI下半场战略与Hy3 preview模型

- 来源：ginobefun (@hongming731)
- 发布时间：2026-06-06 07:19
- AIHOT 分数：65
- AIHOT 链接：https://aihot.virxact.com/items/cmq1lgvt00gvdsltr06bz2bql
- 原文链接：https://x.com/hongming731/status/2063037948124377583

## AI 摘要

姚顺雨在腾讯云AI大会上首次公开亮相，指出AI已进入下半场，核心从“怎么训练”转向“找好问题”，认为context是Agent时代关键壁垒，腾讯在场景、数据、工具链上有结构性优势。他披露Hy3 preview模型：295B总参数、21B激活参数，首token延迟降低54%，可驱动最长495步Agent工作流。他还提出Co-Design理念，强调模型与产品深度协同，该模型以实用性为导向，不在榜单过度竞争。

## 正文

http://x.com/i/article/2063037236174802944

# BestBlogs 早报 · 06-06|腾讯 AI、Agent 沙箱、中美算力

> 在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-06-06

腾讯首席 AI 科学家姚顺雨首次公开亮相，直言「下半场才刚开始」，从方法论成熟到寻找好问题的转变值得深思。与此同时，Agent 基础设施的安全边界正在被重新定义--硬件虚拟化的 microVM 与中美算力格局的最新一手观察，同样是今日不容错过的读点。

## 导语

今天是 2026 年 6 月 6 日，BestBlogs 从过去 24 小时收录的内容中精选出今日早报。

今日三大精讲涵盖三个相互呼应的维度：人（腾讯首席 AI 科学家姚顺雨的战略判断）、基础设施（Agent 安全沙箱的工程实现）、生态（中美 AI 算力格局的第一手观察）。三篇文章合在一起，勾勒出当前 AI 工业化落地的完整图景--从战略逻辑，到工程实现，再到全球竞争格局的实地素描。

速览部分包含 7 篇精选内容：从编写 AI Skill 的实战经验手册，到一位非技术背景销售员用 Claude Code 重建工作流的亲历记，再到微软 Build 大会「智能体工程取代编程」的现场观察、腾讯混元 Stem 稀疏注意力算法的技术突破、多智能体小模型经济模拟的实验报告、Google DeepMind 的 Text Diffusion 低延迟架构探索，以及 Anthropic 关于 AI 递归自我改进的深度长文。

补充阅读涵盖强化学习环境质量、Google Gemma 4 12B 发布、AI 行业综合周报，以及 Claude Code 评测与工程实践的两篇深度工程文，还有 Skills 渐进式披露的设计模式。今天的内容聚焦于一个共同命题：AI 工业化的下半场，决胜点在哪里？

## 精讲一：汤道生姚顺雨对谈：腾讯 AI 的下半场

来源：腾讯科技 · 评分 92 · 【阅读全文】（https://www.bestblogs.dev/article/1fa6207b）

姚顺雨：第一次公开亮相，直指战略核心

6 月 5 日，腾讯云 AI 产业应用大会上，腾讯集团高级执行副总裁汤道生与首席 AI 科学家姚顺雨同台对谈，这是姚顺雨加入腾讯后第一次在公司公开活动中正式亮相。

姚顺雨的履历颇为显赫：他是 ReAct 智能体范式的提出者，也是 OpenAI 旗下 Operator 和 Deep Research 两个 Agent 产品的核心贡献者。2025 年 12 月正式出任腾讯「首席 AI 科学家」，直接向总裁刘炽平汇报，同时兼任 AI Infra 部与大语言模型部负责人。他到任的第一个重要动作，是从 2026 年 2 月起主导重建混元团队的预训练与强化学习基础设施。

这场名为《腾讯 AI 的下半场》的约 45 分钟对谈，实际上是一次罕见的战略公开陈述--一位掌握腾讯模型方向决策权的人，第一次系统性地解释他的判断框架。

核心判断：从「怎么训练」转向「找好问题」

对谈的第一个核心判断，是关于 AI 范式转移的时间节点。

姚顺雨早在 2025 年 4 月就在个人博客发表过《The Second Half》，提出 AI 正站在中场分界线上的判断。八个月后，加入腾讯的决定本身，就是对这个判断的实践注脚。

他的逻辑是：过去十年，AI 领域的核心挑战是「怎么训练」--从 AlphaGo 到预训练大模型，每一项突破都是方法论层面的创新。但预训练与后训练体系建立之后，AI 相当于拥有了一把「万能锤」，可以砸向任何钉子。在这种情况下，方法论的稀缺性退场，好问题的稀缺性成为新的核心矛盾。

这意味着，AI 竞争的核心不再是谁能造出更强的模型，而是谁能定义什么问题值得解决，以及谁拥有解决这些问题所必须的数据与场景生态。

对腾讯而言，这个转变是战略性利好。他指出三个关键词：问题（腾讯有元宝、ima、CodeBuddy、WorkBuddy 等丰富产品场景）、环境（Agent 需要工具和接口才能行动，腾讯的产品矩阵提供了天然的工具生态）、context（最终的竞争壁垒来自谁掌握最原始的用户上下文数据，腾讯有企业与个人两端的海量积累）。他明确表示，context 是 Agent 时代最重要的差异化因素，因为「模型越来越擅长把一个非常复杂的输入变成一个输出，你的竞争壁垒就来自于你知不知道这个人他到底在干什么」。

Hy3 Preview：495 步 Agent 工作流的背后

对谈同时披露了 Hy3 preview 的具体数据。这款参数规模为 295B 总参数、21B 激活参数的混合专家模型，在 CodeBuddy 与 WorkBuddy 上首 token 延迟降低了 54%，并且能够稳定驱动最长 495 步的复杂 Agent 工作流。上线 OpenRouter 后，一度拿下周榜调用量与市场份额双第一。

值得注意的是，Hy3 preview 版本明确定位为「以实用性为导向」，不是为了刷榜，而是为了收集真实世界反馈，修复榜单无法发现的底线问题。姚顺雨对此的解释颇为务实：benchmark 有价值，但容易 saturate（饱和）；真实世界的 prompt distribution 更复杂、更模糊、多轮，这些是 benchmark 无法覆盖的训练信号来源。

Co-Design：模型与产品如何深度协同

汤道生提出的「Co-Design」概念，是整场对谈的另一条主线。他以「产品老兵」的视角，描述了 AI 时代做产品与 PC、移动互联网时代的本质不同：过去的产品像「预制菜」，通过功能菜单满足需求；AI 产品则面对完全开放式的用户输入，产品方甚至无法预知用户会问什么，必须依赖模型能力来理解并响应。

这种变化倒逼组织形态向小团队化、实验驱动靠拢。工程师的角色从「写功能」变为「驱动多个 coding agent 的产品 leader」。

姚顺雨对 Co-Design 的拆解分三点：其一，预训练是相对 product-agnostic 的，做得扎实可以为多个下游产品提供可泛化的基础；其二，后训练的关键是设立正确的 eval--以元宝为例，真实对话中用户的问题比 benchmark 更模糊、更多轮，这些真实反馈可以发现 benchmark 发现不了的底线问题；其三，LLM 时代与过去 AI 最本质的区别是泛化性--即使目标是 Coding Agent，也需要聊天、搜索、指令遵循、推理等多维度能力，这意味着有多元产品矩阵的公司，数据之间可以相互泛化，形成网络效应。

对谈结尾，汤道生宣布腾讯将发布一套「效率智能体工具集」，背后整合了场景连接、Harness 工程体系与混元模型 Co-Design 三重能力。

为什么这篇值得精读

这篇对谈兼具战略高度与技术细节，且两者并非并列关系--战略判断有工程实现的支撑，工程细节有方法论框架的解释。姚顺雨以 ReAct 提出者和 OpenAI Agent 产品实践者的身份，直接给出了他对「下半场」的第一性原理拆解，而不是泛泛的愿景陈述。

外界质疑腾讯「慢了」，姚顺雨的回答是：如果 AI 是一场长期游戏，下半场才刚刚开始，那现在并非晚了；ChatGPT 和 Claude 不会是唯一的超级应用，coding agent 之外还有大量新的产品范式等待探索。这个判断背后的逻辑链--方法论成熟、好问题稀缺、context 是壁垒--值得每位 AI 从业者认真推敲。

## 精讲二：给你的 AI 智能体一台专属电脑

来源：LangChain Blog · 评分 91 · 【阅读全文】（https://www.bestblogs.dev/article/dc9482cb）

从「让 Agent 跑起来」到「让 Agent 安全地跑起来」

Agent 能力提升的速度，远远超过了 Agent 安全基础设施建设的速度。LangChain 的这篇文章，正面回应了一个越来越迫切的工程命题：当 Agent 需要执行代码、访问文件系统、安装依赖、持久化状态时，应该给它一台什么样的「电脑」？

Satya Nadella 在 Microsoft Build 大会上的判断被引为文章开篇：「Every agent needs a computer.」这不是比喻，而是字面意义上的基础设施需求。Cursor、Claude Code、ChatGPT 的代码解释器之所以强大，正是因为它们拥有了一个可以运行代码、看到错误、修复再跑的反馈闭环--这个反馈闭环，是区分演示 Agent 与生产 Agent 的关键分界线。

为什么容器不够用：两个真实案例

许多团队在早期原型阶段选择 Docker 容器来隔离 Agent 执行环境。文章以两个具体案例指出，这种方案在生产环境中遭遇两道硬墙。

第一道：Agent 本质上执行不可信代码。 Agent 运行的代码可能来自模型生成、用户提示词、克隆的仓库，或者安装的第三方包。没有任何一条路径是完全可信的。2025 年 9 月，npm 生态出现了自我复制蠕虫 Shai-Hulud，在 preinstall 阶段感染了超过 500 个包，第二波在 11 月进一步波及 796 个包和 25，000 多个 GitHub 仓库，且感染发生在任何验证逻辑执行之前。一个会安装 npm 包的 Agent，天然暴露在这类供应链攻击面前。

第二道：容器共享宿主内核，不是真正的隔离边界。 CVE-2026-31431（Copy Fail）是一个 732 字节的 Python 脚本，利用 Linux 内核 crypto API 漏洞，可以提权至宿主机 root，覆盖从 2017 年到现在几乎所有主流 Linux 发行版。文章点出了一个令人不安的细节：AI 工具链发现这个漏洞大约用了一小时。

这两个案例放在一起，说明了一个清晰的工程结论：对于模型生成或用户可控代码，容器隔离是不够的，需要硬件级别的隔离边界。

LangSmith Sandboxes：microVM 的设计哲学

LangSmith Sandboxes 给出的答案是基于硬件虚拟化的 microVM。与容器不同，microVM 拥有独立内核，每个沙箱实例之间不共享任何内核级别的资源，内核漏洞无法跨越边界影响宿主机或其他沙箱。

这个方案的工程特性覆盖了 Agent 执行场景的主要需求：

- Serverless 启动速度：微秒级冷启动，而非传统 VM 的秒级。对于需要按需弹起、用完即毁的 Agent 沙箱场景，这是关键。

- 完整机器持久状态：沙箱拥有完整的文件系统、进程空间和网络栈，Agent 可以在同一沙箱内持续工作数小时，维护跨步骤的状态，而不是每次调用都重置环境。

- 快照与分叉：可以对沙箱状态打快照，并从同一快照分叉出多个并行实例。这对 RL 训练（需要在同一环境状态下并行运行多个 episode）和批量评测场景极为重要。

- 蓝图预热：预先配置好的沙箱环境可以池化复用，避免重复安装依赖的冷启动延迟，在大批量任务场景下降低端到端延迟。

文章中还描述了一组典型的 Agent 使用场景，帮助读者理解「为什么 Agent 需要一台真正的电脑」：一个 coding assistant 不只是建议修复方案，而是应用修复方案、运行测试套件、确认没有破坏已有功能；一个 CI agent 可以克隆仓库、安装依赖、跑完整测试、开 PR；一个 RL 评测 harness 需要从零到数千个沙箱的弹性扩缩容。这些场景的共同前提：Agent 需要一个有状态的、持续的、安全的工作空间。

关联今日主题：精讲一与精讲二的互文

这篇文章与精讲一（腾讯 Hy3 驱动 495 步 Agent 工作流）构成有趣的互文：一篇讨论 Agent 能做什么，另一篇讨论 Agent 在什么样的基础设施上才能安全地做。Hy3 preview 能够稳定驱动数百步复杂 Agent 工作流，恰恰需要精讲二所描述的基础设施作为前提。Agent 能力越强，对安全执行环境的要求越高，两者是正向绑定的关系。

从整个 AI 行业的视角来看，「给每个 Agent 一台专属电脑」正在成为基础设施的新标配。这不是某一家公司的产品决策，而是 Agent 工作负载对基础设施提出的客观需求。对于正在构建 Agent 代码执行系统的工程师，这篇文章是当日最具工程价值的必读材料：它不只解释了「为什么」，也给出了「怎么做」的工程参考框架。

## 精讲三：科技爱好者周刊（第 399 期）：中国 AI 大厂访问记

来源：阮一峰的网络日志 · 评分 92 · 【阅读全文】（https://www.bestblogs.dev/article/6933ad74）

第一手观察：打破中美 AI 认知的信息茧房

2026 年 5 月上旬，一个由多位美国科技分析师组成的访问团赴华，走访了 14 家 AI 与机器人公司，包括 DeepSeek、月之暗面、MiniMax、智谱、字节跳动、阿里、蚂蚁、小米、零一万物、宇树、魔搭社区等头部机构。访问结束后，Kevin Xu、Azeem Azhar、Nathan Lambert 等多位成员独立撰文分享观感，阮一峰在本期周刊中将关键摘录系统整理，配以简洁导读。

这是少见的中美 AI 生态直接对比一手材料。不是二手数据引用，不是媒体转述，而是身处硅谷的分析师在中国实地观察后形成的第一手认知。这类材料的价值，在于它能够绕过两边各自的叙事框架，提供一个相对中立的外部视角。

算力：差距是真实的，但效率弥补了大半

访问团的最核心发现，围绕算力展开，且得出了两组看似矛盾实则互补的结论。

差距的量级：中国 AI 公司普遍反映算力不足，根本原因是美国的芯片出口管制。英伟达最新款 GB300 NVL72 系统在实时推理速度上比三年前的 H100 集群快 30 倍，每颗芯片内存容量高出 3.6 倍，每次推理能耗降低 25 倍，美国公司正在大量订购，而中国公司无法获取。访问团估计，2025 年底美国 AI 算力约为中国的 8 倍，中国目前的总算力大致相当于美国 2023 年的规模。华为 Ascend 950PR 性能大致相当于 2022 年的 H100，且出货量仅为英伟达同期的十分之一左右。

效率的弥补：然而，「算力少一个数量级」并不等于「模型能力落后两年」。访问团的关键发现是，芯片管制反而逼出了计算效率创新--中国公司的单位算力支持的 AI 智能是简单扩展下的 4-7 倍。分析师们向中国研究人员透露了 OpenAI 内部每位研究人员拥有的 GPU 数量，对方「简直惊呆了」，然而西方 AI 公司的研究人员仍然普遍抱怨算力不够。这个细节揭示了两种截然不同的稀缺性适应策略。

此外，中国的算力分配结构与美国不同：美国的大部分算力用于模型训练，中国的算力同时要服务数亿消费者和快速增长的企业用户，这进一步压缩了可用于训练的资源池，也是促进效率创新的另一个驱动因素。

组织与文化：年轻、流动、产学一体

访问团的另一组引人注目的观察聚焦在人。中国 AI 公司的员工平均年龄二十五六岁，大多数仍是博士在读，实习期长达 1-2 年，享有与全职员工相同的权限和待遇，可以自由提出想法、开展工作实验。

这与西方顶级 AI 公司形成鲜明对比：OpenAI、Anthropic、Cursor 等公司根本不提供实习，其他公司（如谷歌）的实习机会也不会涉及核心模型工作。

背后有结构性原因：中国顶尖高校的计算资源根本无法满足优秀博士生的研究需求，而业界公司拥有更丰富的算力。双方的利益在「合作发论文、提供算力与全权限」这个模型下找到了交汇点。结果是一种产学高度交融的人才生态：年轻、灵活、边界感弱，新想法的涌入速度快。

开源分歧、竞争格局与 AI 安全态度

访问团还记录了若干有意思的切面。

开源分歧：一条越来越清晰的界线正在形成--参数规模达到一万亿。部分公司认为开源万亿参数模型是资源浪费，因为没人能在本地运行如此庞大的模型，更好的方式是云端 API；另一些公司则将开源视为信仰和入场券。

竞争格局：访问团观察到字节跳动 Seed 部门被全行业敬畏--因为豆包几乎垄断了 AI 用户流量，且他们的模型可以快速推广到海量用户，这是其他公司无法匹敌的渠道优势。DeepSeek 则是最受业界尊重的公司，越来越多地承担基础架构层工作：架构、效率、推理优化，以及华为协议栈适配。

AI 安全态度：访问团与年轻中国研究人员讨论 AGI，得到了几乎相同的答案：「AGI 就是 AI 可以取代我！」对方不只是不害怕，而是对「机器是否真的能超越其制造者」充满好奇。这与西方同行形成鲜明对比--西方许多研究人员深度关注 AI 安全及其社会影响，而中国研究人员更多把安全监管的责任交给政府。

为什么这篇值得通读

这篇文章的价值不在于任何单一数字，而在于跨越信息不对称的整体视角。中美双方对彼此 AI 生态的认知，经常被媒体叙事和地缘政治情绪扭曲，信息质量参差不齐。这次由技术分析师构成的访问团，提供了一份尽可能接近事实的直接观察。

将这篇文章与精讲一（腾讯对 context 数据与问题寻找的战略判断）连读，可以得到更完整的中国 AI 发展图景：一篇是内部视角的战略逻辑，一篇是外部视角的生态素描，两者互补，共同描绘了一幅比任何单一来源都更立体的画面。

## 速览

如何写好 Skill：一份终极实战经验手册

腾讯技术工程 · 评分 92 · 【阅读全文】（https://www.bestblogs.dev/article/b7742f5e）

腾讯工程师 jackjchou 整理的 Skill 编写完整方法论，从基础概念、结构设计，到高级技巧、安全规范与工程化评估，覆盖「从没写过 Skill」到「负责团队规范」的完整阅读路径。核心洞察：Skill 本质上是结构化的 Prompt Engineering，它把分散在人脑中的领域知识与流程经验，转化为 AI 可执行的指令集。文章详解 Anthropic 的三层渐进式加载机制（元数据常驻、SKILL.md 触发加载、附件按需引用），指出编写时的常见反模式，以及团队 Skill 规范化管理的要点。正在或计划用 Claude Code、CodeBuddy 等工具提升团队工程效率的读者，这份手册值得当作参考文档收藏。

从客户经理到产品经理：Anthropic 销售员如何用 Claude Code 重建团队工作流

Claude Blog · 评分 90 · 【阅读全文】（https://www.bestblogs.dev/article/8af798c7）

Anthropic 客户经理 Jared Sires 没有任何编程背景，却用 Claude Code 从零构建了 CLAFTS（Claude Drafts）--一个嵌入 Gmail 的邮件起草工具。他每天要处理 10-15 个客户电话，加上大量外发邮件，经常工作到晚上 9-10 点。CLAFTS 最终每周为他节省 10-15 小时，分享到内部 Slack 后，24 小时内整个销售团队开始使用。这个案例最有价值的地方，不只是「非技术人员也能用 AI 编程」，而是它展示了 AI 原生工具如何重塑角色定义--Jared 随后转型为 GTM 产品经理，专门识别销售组织的流程问题并构建 AI 解决方案，将自身对业务流程的理解与 Claude Code 的执行能力结合成新的职业路径。

Microsoft Build 主题演讲：智能体工程取代了编程

Cory House（@housecor） · 评分 90 · 【阅读全文】（https://www.bestblogs.dev/status/2061953686847557962）

Cory House 在 X 上的一条观察引发广泛共鸣：微软长达 3.5 小时的 Build 主题演讲，全程没有提及 C#、.NET 或 TypeScript。这三个词曾长期是微软开发者大会的标配符号。这不是偶然的遗漏，而是一个关于技术叙事重心转移的清晰信号：编程语言让位于智能体工程，底层工具让位于能力与流程的整合。结合今日精讲一（姚顺雨对 AI 下半场范式转变的判断）和精讲二（Agent 执行基础设施的演进），这条推文的简短观察有了更丰富的诠释背景。

首字延迟降低 3.6 倍，腾讯混元提出 Stem 稀疏注意力算法，长文推理加速新 SOTA

腾讯混元 · 评分 90 · 【阅读全文】（https://www.bestblogs.dev/article/c1e21993）

腾讯混元发布 ICML 2026 收录论文 Stem，提出两个核心创新：Token 位置衰减（TPD）和输出感知度量（OAM）。TPD 的洞察来自因果注意力架构的递归特性--初始位置的 token 被所有后续层依赖，不应被稀疏化；OAM 则在传统注意力分数之外，引入 Value 向量携带的信息量作为 token 选择依据。两项创新组合，在仅用 25% 算力的条件下逼近稠密注意力的精度，配合 HPC 算子实现 128K 上下文首字延迟降低 3.7 倍，已开源。这个成果对 Agent 工作流场景尤为重要--长上下文推理是 Agent 的高频场景，首字延迟直接影响系统响应体验。配合今日精讲一中 Hy3 的 495 步工作流能力，构成腾讯 AI 基础设施层面的完整技术布局。

千符森林：在 3B 模型上运行一个多智能体经济系统

Hugging Face - Blog · 评分 90 · 【阅读全文】（https://www.bestblogs.dev/article/d15e5749）

Build Small Hackathon 的一份工程实验报告：五个运行在 Qwen2.5-3B 上的林地生物 Agent，在微型经济中以石子为货币相互交易、闲聊、囤积与恐慌，最终涌现出价格泡沫、崩溃与财富分化。作者的核心结论：3B 参数级别的模型是可靠的格式生成器，但是不可靠的推理器--它可以稳定输出 JSON、遵循格式约束，但在真正需要策略推理的场景表现不稳定。另一个值得记录的洞察：「涌现出的戏剧性需要人为设计的稀缺性」--没有刻意设计的约束，多 Agent 经济系统不会自发产生有趣的动态。对于正在探索小模型多 Agent 场景的工程师，这份实地报告比理论分析更直观。

Google DeepMind 的 Text Diffusion：面向低延迟语言生成的新一代架构

AI Engineer · 评分 90 · 【阅读全文】（https://www.bestblogs.dev/video/93a33f8）

Google DeepMind 研究员 Brendon Dillon 解释了 Text Diffusion 作为自回归 LLM 生成替代方向的工作原理与权衡。Text Diffusion 放弃因果约束，改用全双向注意力块，允许从噪声中并行解码整个序列，而非逐 token 生成。代价是单次前向计算量更大，但在特定延迟场景下有优势。Dillon 指出这项技术在批量吞吐上的代价，以及在实时、端侧和交互式产品中的应用潜力。这是值得长期追踪的架构方向，尤其适合对推理延迟有严格要求的工程师和研究者。

Anthropic： 当 AI 开始构建自己

AINLP · 评分 89 · 【阅读全文】（https://www.bestblogs.dev/article/c965ab9b）

Anthropic Institute 递归自我改进进展报告的中文完整翻译，援引了一组内部数据：截至 2026 年 5 月，Anthropic 工程师合并进代码库的代码中超过 80% 由 Claude 编写，每位工程师每季度交付的代码量是 2021-2025 年期间的 8 倍。报告梳理了从「聊天机器人」到「自主智能体」的阶段演变，并讨论了三种关于递归自我改进的未来场景：巨大的科学与医疗收益、人类监督的重要性提升，以及潜在的失控风险。Anthropic 坦诚地公开了内部数据并直视这种趋势的潜在风险，这种做法本身就值得关注。适合对 AI 发展趋势有系统性思考需求的读者。

## 补充阅读

【如何避免交付低质量的强化学习环境（附示例）】（https://www.bestblogs.dev/article/cdd6597f） · Latent.Space · 评分 90

来自 Google Gemini RL 团队研究员的「RL Pet Peeves」系列，专注于环境质量问题：低质量的测试框架（Harness）会系统性地生成垃圾训练数据，破坏模型性能。文章提供了常见故障的分类、具体示例与修复方法，例如 mock API 缓存 bug 导致 Agent 学到错误策略、奖励函数只看测试通过而不看代码正确性等。适合正在构建 RL 训练基础设施的工程师，可与今日精讲二（Agent 执行环境安全）配合阅读。

【Google 发布 Gemma 4 12B：具备高级推理能力的开放模型】（https://www.bestblogs.dev/status/2062203526588088452） · Google（@Google） · 评分 92

Google 发布最新开放模型 Gemma 4 12B，整合高级智能体推理、视觉与音频能力，采用统一架构（移除独立多模态编码器），设计在仅需 16GB VRAM 的本地硬件上运行，Apache 2.0 授权。这是开源模型生态的又一次能力跳跃，关注本地部署与开源社区的读者值得关注。

【Qwen3.7-Max 挑战谷歌争夺第三，AI 拯救鲸鱼，微调打破版权对齐】（https://www.bestblogs.dev/article/2baac995） · The Batch · DeepLearning.AI · 评分 90

本期 The Batch 包含四条有价值的信息：阿里 Qwen3.7-Max 的市场竞争布局、AI 系统用于防止鲸鱼与船只相撞的公益案例、中国 LLM 访问的灰色市场现象，以及微调可能破坏版权对齐的研究结论。内容跨度广，适合希望保持 AI 领域综合情报视野的读者，尤其是最后一条关于微调与版权的发现值得关注。

【基于顶级 Agent（Claude Code）的 Harness 工程搭建式业务 Agent 评测方案】（https://www.bestblogs.dev/article/fcbdb6fa） · 阿里云开发者 · 评分 90

阿里云工程师提出创新评测方案：以 Claude Code 作为 Harness 工程的搭建者和运行者，将评测逻辑从代码转化为 Prompt，实现对业务 Agent 的系统性、快速评测。核心矛盾是业务 Agent 迭代快（天级）但传统评测工程搭建慢（周级），这套「Agent 评测 Agent」的思路打破了这个瓶颈。适合正在为多 Agent 系统建立评测体系的工程师团队。

【分享 Claude Code 团队内部的 5 条工作原则】（https://www.bestblogs.dev/article/c8916b4b） · 数字生命卡兹克 · 评分 89

解读 Claude Code 工程总监 Fiona Fung 的分享，提炼 AI 原生组织下规划、自动化、代码评审、团队角色与流程变革的 5 条工作原则。核心判断：在 Agent 时代，写代码已不再是工程瓶颈，瓶颈转移到了验证、代码评审与安全，所有上下游流程都需要重新设计。这套思路与今日多篇文章形成共鸣，是 AI 原生工程组织实践的一手观察。

【Skills 中的渐进式披露：大型智能体流程的最强模式】（https://www.bestblogs.dev/status/2062529678590513475） · Daniel San（@dani_avila7） · 评分 90

解释在 Skills 中记录大型智能体流程的渐进式披露模式，分为启动（约 500 token 元数据常驻）、任务匹配（SKILL.md 触发加载）和深度执行（附件按需引用）三个阶段，通过按需加载将 token 消耗优化到最低。这是第一篇速览「如何写好 Skill」的工程补充，两篇配合阅读，可以对 Skill 设计的宏观原则与微观优化有更完整的认知。

## 今日阅读路径

时间有限时，建议按以下顺序优先阅读三篇：

第一优先：科技爱好者周刊第 399 期--中美 AI 算力与生态的第一手比较，信息密度最高，跨领域读者都能获益。在中美信息隔离日趋严重的背景下，这类第一手比较材料极为稀缺。

第二优先：汤道生姚顺雨对谈--腾讯首席 AI 科学家的战略陈述，与第一篇构成绝佳互文：前者是外部观察，后者是内部视角，两篇合读能拼出更完整的中国 AI 发展图景。他的「下半场才刚开始」与「context 是壁垒」两个判断，值得仔细推敲。

第三优先：LangSmith Sandboxes--如果你是正在构建或使用 Agent 的工程师，这篇是当日最具工程价值的文章，直接回答「Agent 安全执行环境」这个已经变得迫切的工程命题，且给出了具体的工程参考框架，读完可以直接用于技术决策。

如果还有余力，速览中的如何写好 Skill 和 Anthropic 递归自我改进 两篇也是今日高质量内容：前者是可立即落地的实操手册，后者是 AI 发展长线叙事中难得的内部数据视角。