AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 2085 条
全部一手资讯X论文
标签「编码」清除
Tibo@thsottiaux · 6月9日51

First one is @skirano. Enjoy the 10X and keep building magic. Who's next? https://x.com/skirano/status/2062942695547375829

译Codex推出了一种新的“大按钮”。在接下来的100天里,每天会选出一位用Codex做出令人印象深刻或极其有用工作的人,授予其10倍使用额度一个月,看看能做出什么。第一个获得者是@skirano,享受10倍,继续创造魔法。下一个是谁?

宝玉@dotey · 6月9日78

baoyu-design skill 现在支持导入 Design System,以及在新建项目时添加导入的 Design System 比我想的要麻烦的多:https://github.com/JimLiu/baoyu-design/pull/5 好在效果不错,保留了 Claude Design 原始的导入设计系统和编译设计系统的方式,可以通过提问的访问让用户选择导入好的设计系统! npx skills add JimLiu/baoyu-design

译baoyu-design skill 现已支持导入 Design System,新建项目时可直接使用已导入的设计系统。功能保留了 Claude Design 原有的导入与编译方式,通过提问即可让用户选择已导入的 Design System。开发者表示实现过程比预期复杂,但效果不错。安装命令:`npx skills add JimLiu/baoyu-design`。另据 @dotey 介绍,该工具为本地运行的 Claude Design 风格工具,可描述屏幕生成 HTML,在预览中点击元素说出修改指令,最佳搭配 Opus 4.8。

meng shao@shao__meng · 6月9日52

我这次用 Step 3.7 Flash 测了一个真实 Coding Agent 任务: 把一组 Agent Memory 的运行痕迹,做成本地可检查的 Memory Inspector。 输入不是干净需求文档,是一个已有 Local Agent Memory MVP: · memory_events · structured_facts · memory_chunks · 9 个场景测试 · 敏感信息过滤结果 · recall 命中结果 · 跨 session 记忆记录 Step 3.7 Flash 先读现有代码和测试输出。 然后它检索了 Letta、LangSmith、Mem0、Graphiti 这些工具如何展示 memory、trace、dashboard 和 agent state。 最后生成了一个单文件本地 HTML: agent_memory_inspector.html 页面里能看到: · 8 条 memory events · 9 条 structured facts · 8 个 memory chunks · 9/9 场景测试通过 · 敏感信息过滤前后对比 · recall 命中内容、retrieval 类型和分数 · 跨 session 记忆连续性 · 哪些资料影响了 UI 和数据结构 我觉得这比让模型解释“Agent Memory 是什么”更有意义。 真实 Agent 工作里,模型不只是回答问题。 它要能读上下文、查资料、理解结构、写代码、整理证据,并产出一个能运行的东西。 这次 Step 3.7 Flash 做到的是: 把混乱的 Agent 运行痕迹,变成了一个可检查的小工具。 测试环境: · Cursor Agent · model: step-3.7-flash · 本地 HTML 输出 · 数据来自 Local Agent Memory MVP 它还不是生产级观测平台。 但作为一次 first-pass Coding Agent 任务,它回答了一个更重要的问题: 模型能不能把真实 Agent traces 变成一个可用工具? @StepFun_ai 平台 国内:https://platform.stepfun.com/ 海外:https://platform.stepfun.ai/

译开发者用 Step 3.7 Flash 测试真实 Coding Agent 任务:将已有 Local Agent Memory MVP 的运行痕迹(memory_events、structured_facts、memory_chunks 等 9 个场景测试数据)生成为单文件本地 HTML 工具 agent_memory_inspector.html。页面展示 8 条 memory events、9 条 structured facts、8 个 memory chunks、9/9 场景测试通过、敏感信息过滤前后对比、recall 命中内容及 retrieval 类型与分数、跨 session 记忆连续性。模型先读取现有代码和测试输出,检索 Letta、LangSmith 等工具展示方式后编写代码。测试环境:Cursor Agent + step-3.7-flash,本地 HTML 输出。

ginobefun@hongming731 · 6月9日33

尝试给 http://BestBlogs.dev 开了一个英文新号,会分享一些精选博客、文章和创作者内容。 我的个人号还是会留给大家看看我自己的构建、开发和探索思考。 喜欢发现好内容的朋友,可以顺手关注一下 @BestBlogsDev

译洪明为内容推荐平台BestBlogsDev开设英文新号,分享精选博客与创作者内容,个人号保留构建与开发思考。引用推文回顾Claude Code过去一年的演进:从简单的编码助手成长为由数千自主agent组成的网络,可协作测试、修复、部署代码,无需人类逐级指导。AI在12个月内完成了从工具到协作者再到系统级编排者的转变,被视为新工程范式的诞生。

AYi@AYi_AInotes · 6月9日77

Claude Opus 4.8 是目前最好的编码模型,这件事应该没啥太大争议了,我自己跑了这么久体感也是这样。 Cognition(Devin 的公司)刚发布的 FrontierCode 基准测试,彻底改变了 AI 编程能力的评判标准: 不再只看“代码能不能跑过测试”,核心看看“维护者会不会愿意把这段代码合并进真实项目”。 以前的基准有多离谱?(黑人问号脸.jpg) 以前最火的评测叫 SWE-Bench,还有 TerminalBench 等, • 模型只要让测试通过就算“解决”了。 • 但 METR_Evals 研究发现:超过一半 通过测试的代码,其实是不可维护的垃圾代码(slop)——风格混乱、改动范围失控、埋技术债、违反项目规范。 • 真实维护者看到后根本不会 merge(合并)。 结果就是:基准分数虚高,实际落地时却一塌糊涂,说白了就是让模型学会了考试作弊,而不是真正写好代码🤣 Opus 4.8最强,但 Cognition 刚发的 FrontierCode 给这个结论加了一层我之前没想到过的限定词:最好的模型,离写出别人愿意维护的代码,还有很远的距离。 以前的基准只看测试过没过,模型学会的是刷分,而不是写代码。 有人查过,超过一半通过测试的 PR 其实是不可维护的垃圾, FrontierCode 换了一个完全不同的问法,二十多个顶级开源维护者,手搓了一百五十个任务,每个任务搭进去四十多个小时。 不看测试过没过,主要看代码风格、改动范围、回归风险、测试本身写得好不好,三千多条规则盯着,最后只问一句:如果你是维护者,这个 PR 你合不合。 Opus 4.8 在最难那档拿了 13.4%。GPT-5.5 是 6.3%,其他模型大多在 1% 到 5%。 13.4% 是第一名,但这个第一名意味着最难的那类真实任务里,十次里有将近九次,它的代码经不起一个有经验的维护者看一眼。 这就是这个基准最诚实的地方,它没说 Opus 4.8 不行,只是把尺子换了, 第一名的成绩单看起来也完全不一样了,以前的尺子量的是你能不能跑,现在的尺子量的是我愿不愿意跟你共事,而这是两件事。

译Cognition 发布 FrontierCode 基准测试,重新定义 AI 编程评估:由 20 多位顶级开源维护者手工制作 150 个任务(每个耗时 40+ 小时),依据 3000 多条规则判断维护者是否愿意合并代码。该基准指出 SWE-Bench 等超半数通过测试的代码实为不可维护的垃圾。结果中 Claude Opus 4.8 在最高难度档获 13.4%,GPT-5.5 为 6.3%,其余模型 1%–5%。这意味着即便最强模型,近九成代码仍无法通过有经验维护者审核。

meng shao@shao__meng · 6月9日68

Claude Code 上线一周年:演进与方法论回顾 来自 Claude Code 负责人 Boris Cherny 与产品负责人 Cat Wu,从一年前首次内部 demo 只有两个 Slack 点赞,到现在绝对主流 Coding Agent,这一年 Claude Code 到底做对了什么? https://www.youtube.com/watch?v=Hth_tLaC2j8 # 两条底层方法论 1. 错误即资产:写入规则,而非口头纠正 Boris 的核心习惯:每次 Claude 犯错,不直接说「下次别这样」,而是写入 CLAUDE.md、Skill 或类似持久化机制。 逻辑是:口头纠正只影响当前会话;规则沉淀后,agent 可长期、反复、自主执行。这是「让 agent 几乎无限运行」的前提。 2. Verification(验证)≠ 单元测试 多数人把 verification 理解成 lint、类型检查、单元测试——这些早已自动化,不是 agent 时代的重点。 真正的 verification 是:agent 能否亲自「跑起来」验证结果。 · 早期案例:让 Opus 4 写完功能后,在 bash 里启动另一个 Claude CLI 自测。 · 现在:iOS/Android 模拟器、桌面应用的 computer use 点击测试已成常态。 · Cat 的实践:桌面开发 Skill 教 Claude 启动本地 app、点 UI、测边界;若 staging 异常,先读 Slack 判断是否环境问题;修完后更新 Skill,形成闭环。 要点:验证能力往往需要针对具体产品定制,无法一键通用。 # Loops/Routines:从「人用工具」到「系统替人值守」 Routines 被定位为 Agent SDK 之后第一个「显而易见」的规模化应用。 典型案例: · 某工程师为 Voice Mode 设 routine:监听所有相关 GitHub issue/bug → 自动提 PR → 通知本人。 · 另一 routine:5 小时未响应的 bug 自动修复,易验证的直接 merge。 · Cat 遇到自己功能的 edge case bug,还没动手,Claude 提示「另一个 Claude 已修好」。 组织影响: · 代码评审、CI 修复、rebase 等琐事,团队成员已很久没亲手做。 · 多个人的 Claude 并行工作,形成「隐形协作网」。 重点:把工程运维流程产品化、自动化。 # Auto Mode:取代 Plan Mode 的默认选择 Boris 明确表示:Plan Mode 已基本不用,全面切到 Auto Mode。 原因: · Opus 4 ~ 4.5 仍需显式规划;从 4.6、尤其 4.7 起,模型已能自主规划。 · Auto Mode 的价值是:启动 agent 后即可转向下一个任务,无需盯屏点确认。 安全设计的反直觉结论: 人工逐条审批 99% 都会点「是」的权限提示,反而更危险;Auto Mode 用独立分类模型筛风险,人只关注被拦截的少数异常,整体更安全。 上线前流程: · 收集数千条 agent 轨迹 + 权限请求,训练分类器; · 红队 prompt injection、渗透测试; · 建 eval,确保已知攻击全部被拒; · 内部团队继续攻击、迭代。 Boris 认为:「把 prompt 路由给另一个模型做安全检查」——他最初认为行不通,实测却效果很好。这反映基于大模型构建产品时,许多旧工程直觉需要重写。 # 组织变革:AI 必须成为流程中心 Boris 引用 90 年代 HBR 案例:PC 普及初期生产力未显现,因为企业只是把电脑「放在旁边」,流程仍是纸笔+文件柜。 真正释放价值,需要把电脑置于业务流程中心,淘汰旧媒介。 类比到 AI: · Anthropic onboarding 不问人,问 Claude; · 提问、写代码、CR、安全审查、填表,均经 Claude/Co-Work; · 领先企业正在把 AI 放到同样位置。 与 PC 转型需 10–15 年不同,AI 转型更快,因为: · 工作已高度数字化; · Claude 能操作电脑、写代码、跑代码。 角色融合: · 产品、设计、DevRel 都在写代码、提 PR; · 工程师端到端负责:构思 → 实现 → 对接法务/市场/安全 → 发布; · 设计、PM、财务、数据科学等「邻接角色」广泛采用 Claude Code。 · 未来不是「人人 PM」或「人人工程师」,而是两者合一——好奇心、产品品味、端到端 ownership 成为关键能力。 # 多 Agent 时代的工具形态 从「6 个终端 tab + 6 份 git checkout」→ 单 tab + Agent View + Desktop App(自动 worktree)。 意外变化:Boris 约一半工程工作已在手机上完成——Remote Control、Voice Mode,边走边看 agent,现场聊出新想法即开 agent 实现,无需回电脑。 这说明:工程师的主战场正从 IDE 转向 agent 编排界面。 # Context Minimalism(上下文极简主义) 技术话语的演进轨迹: · Sonnet 3.5 时代 → Prompt Engineering · Opus 4 时代 → Context Engineering · 当前模型 → Context Minimalism 原则: · 最小 system prompt、最少工具集; · 只给模型「拉取上下文的能力」,不塞满上下文; · 过多上下文 ≈ 微观管理,限制模型找更优路径; · Harness 本身也在变瘦,把 token 空间留给用户意图。 这与一年前「精心构造 mega prompt」的做法形成鲜明对比。 # 对未来的判断 团队预判: · Agent 运行更久、更自主; · 很少只跑 1 个 agent,常见是数十、数百、数千; · 一年后的产品形态很可能与今天完全不同; · 创新将更多来自用户社区,而非官方闭门设计。 值得肯定的洞见: · Verification 定义准确,切中 agent 工程要害; · 「错误写入规则」是可复制的工程纪律; · Auto Mode 安全思路有实证支撑,不是空喊; · 组织变革类比有历史参照,不过于浪漫化。 需保持审慎之处: · 发言者身处 Anthropic 内部,描述的是理想态实践,外部企业落地节奏未必相同; · 「财务用 Claude Code 做预测」等案例缺少可验证细节; · Routines 全自动 merge 依赖「易验证」边界,复杂系统风险需自行评估; · 「角色融合」「手机写代码」更像前沿团队样本,非行业普遍现状。

译Claude Code 负责人Boris Cherny与Cat Wu回顾一周年核心方法论:每次Claude犯错写入CLAUDE.md或Skill持久化规则而非口头纠正;Verification指agent亲自跑起来验证(如启动模拟器、computer use测试)。Auto Mode取代Plan Mode,用独立分类模型筛权限风险而非人工审批。Routines实现自动化运维(如监听GitHub bug自动提PR)。Context Minimalism主张最小system prompt和工具集。团队预判未来agent运行更久、成百上千并行,产品形态将巨变。

meng shao@shao__meng · 6月9日72

Cognition 推出「FrontierCode」:把 Coding 评估标准,从可用,提升到高质量、可合并! 评估结果 Top2:Claude Opus 4.8、GPT-5.5 https://cognition.ai/blog/frontier-code FrontierCode 评估内容 规模与结构: · 150 个任务,来自 36 个 flagship 开源仓库 · 20+ 维护者参与,每任务投入 40+ 小时 · 三层嵌套难度:Extended(150)→ Main(100 最难)→ Diamond(50 最难) 两个核心指标: · Pass rate:通过全部 blocker 标准(维护者眼中的 hard stop) · Score:rubric 加权得分;任一 blocker 失败则 score = 0 评测体系:不止 unit test FrontierCode 沿六个维度评估 mergeability: · 行为正确性 — 是否解决问题 · 回归安全 — 是否破坏现有功能 · 机械整洁 — build / lint / style 是否通过 · 测试质量 — agent 写的测试是否真测到行为 · Scope 纪律 — 是否只改该改的 · 代码质量 — 风格、设计模式、可读性、仓库惯例 三种较新的 grading 方法: · Reverse-classical:把 agent 写的测试跑在未修复的base commit 上,必须 fail —— 证明测试有意义 · Scope:文件边界、diff 大小、语义局部性(如是否只改某个函数内) · Adaptive classical grading(mutagent):用 LLM 微调测试或应用代码,对齐 agent 的实现细节,在保持确定性的同时允许多种合法解法 Criteria 分 blocker(不通过就不能 merge)和 non-blocker(影响 score,但不一票否决)。 评估结果:前沿模型仍远未饱和 · Diamond 子集:Claude Opus 4.8:13.4% score;GPT-5.5:6.3%;Gemini 3.1 Pro:4.7% · Main 子集:Opus 4.8:34.3% · Extended 子集:Opus 4.8:51.8% 几个值得注意的点: · Diamond 几乎未被“刷满” —— 最强模型也只有 13.4%,说明高难度子集仍有大量 headroom · 闭源 vs 开源差距大:最佳开源 Kimi K2.6 在 Diamond 仅 3.8% · 成本 vs 能力:GPT-5.5 分数低于 Opus,但 token 用量约为其 1/4,性价比更优

译Cognition 发布 FrontierCode,含 150 个任务(来自 36 个开源仓库,每任务 40+ 小时),按难度分 Extended/Main/Diamond 三层。沿行为正确性、回归安全等六维度衡量 mergeability,指标为 Pass rate 与 Score。Diamond 子集最高分:Claude Opus 4.8 达 13.4%,GPT-5.5 为 6.3%,Gemini 3.1 Pro 4.7%;Main 子集 Opus 4.8 为 34.3%。开源最佳 Kimi K2.6 仅 3.8%。GPT-5.5 token 用量约为 Opus 四分之一,性价比更优。

Claude@claudeai · 6月9日63

Final stop: Tokyo. Register to hear directly from the teams behind Claude: http://claude.com/code-with-claude/tokyo

译最终站:东京。 快来注册,直接聆听 Claude 团队分享:http://claude.com/code-with-claude/tokyo

ginobefun@hongming731 · 6月9日67

http://x.com/i/article/2064136850370101248 # BestBlogs 早报 · 06-09|Claude Code 自主化、循环工程、阳萌安克 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-06-09 ## 导语 当 AI 编程工具从「辅助」跃升为数千 Agent 自主运转的工作流,工程师的角色也随之深刻重塑。本期围绕这一转折精选三篇值得细读的内容:Claude Code 一周年的第一手复盘,揭示 Auto Mode 如何让权限审批退出历史舞台;Boris Cherny 的「循环工程」,重新定义工程师的核心职责;以及阳萌历时 4 小时的长访谈,以安克 15 年经验探讨 AI 原生组织与第三类公司的可能性。三篇合读,或许能让你看清这个行业正在拐向哪里。 今日早报共收录 3 篇精讲、7 篇速览、6 篇补充阅读,来源涵盖 Anthropic 官方、Elevate 技术博客、商业访谈播客等多个渠道。在 AI 加速重塑软件工程与组织结构的当下,这期内容提供的不只是工具层面的参考,更是关于「工程师身份如何演变」与「传统企业如何自我重构」的思考材料。 ## 精讲一:Claude Code 一周年复盘:从辅助写代码到自主智能体工作流 一年前,Claude Code 作为一款辅助工程师完成独立小任务的工具首次亮相。今天,它已演进为一个由数千个自主 Agent 动态协作、形成深度组织树状结构的庞大生态系统。这次 Anthropic 工程团队的第一手复盘,呈现了这场转变背后最关键的三个维度。 验证范式的根本性变化 传统软件开发中,验证手段以单元测试、类型检查和 Lint 工具为主,它们作用于静态参数。然而当 Agent 开始自主运转后,验证的边界必须扩展到完整的运行时循环:Agent 自主在沙箱中启动独立环境(本地桌面应用或本地服务器实例),通过 Computer Use 能力点击界面来测试边界案例,并在发现 bug 或破坏性变更时自动修正方案、验证通过后再推送补丁。 这不只是工具层面的迭代,而是对「什么算作验证完成」这一基本问题的重新定义。人工审批每一条终端调用的模式,在这种规模下已经彻底无法运作。当 Agent 网络中同时运行着数百乃至数千条工作流时,人类根本无法逐条处理权限请求,而注意力一旦分散,反而制造了系统性的安全盲区。 Auto Mode 与模型驱动安全 早期自主 Agent 开发高度依赖明确的操作规划文件,以及不断弹出的权限确认提示。工程师需要逐条批准或拒绝每一个工具调用。这种模式有一个深层缺陷:当 99% 的请求都是安全的时候,人类注意力会分散,反而制造了系统性风险。 随着 Claude 4.6 和 4.7 的推出,Auto Mode 取代了这一模式。其核心机制是:用专门的路由与分类模型替代人工逐条审批,将所有调用通过对齐和安全分类器过滤,让人类注意力只聚焦在异常情况上。为了安全上线 Auto Mode,团队对复杂的多步提示注入向量进行了大量红队测试,建立了严格的内部评估指标,以确保恶意代码库修改能被自动拒绝。 这个转变的本质,是把「人作为每一步的守门员」改为「人作为系统的设计者与边界的监督者」。两者的权力不同,责任也不同——后者要求工程师对分类器本身的质量和覆盖范围有深度理解。从实践角度看,这意味着红队测试、评估集设计、异常模式识别,这些原本属于安全团队的工作,开始向产品工程师渗透。 组织边界的加速消融 随着 AI 承担越来越多具体的开发工作,科技公司内部传统的职能边界正在瓦解。产品经理、视觉设计师、数据科学家、财务团队——这些人正在独立部署代码调整、生成运营原型、直接修改生产代码库。 这一演进与 1990 年代企业部署个人电脑的过程相似。真正的生产力变革,只有在彻底抛弃传统纸质流程并将计算平台直接置于所有日常企业任务核心时,才会发生。复盘指出,目前最受益于 Claude Code 的团队,往往不是那些「用 AI 加速现有流程」的团队,而是那些「重新设计流程、让 AI 成为中心节点」的团队。这也意味着评估一个团队是否真正进入 AI 原生工作模式,不能只看工具使用频率,而要看他们是否已经开始重新分配「谁负责判断、谁负责执行」这个核心问题的答案。 如果你想深入理解 AI 工程范式正在经历怎样的转移,这是目前最权威的第一手视角。阅读原文:Claude Code 一周年复盘:从辅助写代码到自主智能体工作流 ## 精讲二:循环工程 「循环工程」是一个正在快速形成的新范式,其核心命题是:不要再当那个提示 Agent 的人,而是去设计能自动提示 Agent 的系统。 Addy Osmani 在这篇文章里引用了两段引发广泛讨论的原话。Claude Code 负责人 Boris Cherny 说:「我不再直接提示 Claude,我的工作是写循环。」创业者 Peter Steinberger 则说:「你不应该再提示编程 Agent 了,你应该设计能提示 Agent 的循环。」这两句话的意思高度一致:工程师的价值已经从「如何精准表达需求」迁移到「如何设计自运转的系统」。 这不是一个工具能力变化,而是工程师身份认知的迁移。 循环的五个构成要素 Osmani 拆解了一个循环所需的五个核心模块,Claude Code 和 Codex 都已具备: 1. 定时自动化(Automations):循环的心跳。按时间表自动触发,完成发现和分类工作,不需要人工介入。两个产品里的定时任务能力实现名称不同,但功能本质相同——让系统自己找到需要做的工作。 1. 并行工作树(Worktrees):让多个 Agent 并行工作时不互相干扰的隔离机制。没有 Worktrees,两个 Agent 会在同一个代码分支上互相覆盖对方的改动,循环就此失控。 1. 技能知识沉淀(Skills):把项目知识写下来,避免 Agent 每次都只能靠猜测。这是把「只有你知道」的上下文转化为「Agent 也知道」的结构化输入。 1. 插件与连接器(Plugins and Connectors):把 Agent 接入你已有的工具链——GitHub、Linear、Slack、数据库。循环需要读取现实,也需要把结果写回现实,连接器是这个双向通道。 1. 制作者与验证者分离的子 Agent(Sub-agents):一个 Agent 负责提出方案,另一个负责检验——制造者与审查者天然分离。这是循环里内置的质量门禁,防止单个 Agent 的错误在无人知晓的情况下蔓延。 第六个要素同样关键:外部记忆。一个 Markdown 文件、一块 Linear 看板——任何存活于单次对话之外、能持久记录「完成了什么、下一步是什么」的载体。Agent 会遗忘,但代码仓库不会。这个道理看起来过于简单,但它是所有长期运行的 Agent 依赖的同一个技巧。 「认知投降」的警示 Osmani 没有止步于赞美。文章里有一段话值得反复咀嚼:验证的责任始终在人,「认知投降」会让循环反而侵蚀工程质量。当你把「循环跑完」等同于「任务完成」时,问题就开始积累。循环可以高速运转,但如果你不理解它在做什么、不设计合适的验证节点,它只会更快地把错误放大到整个代码库。 你仍然是工程师,你的工作是设计一个值得信任的系统,而不只是按下启动键。 这篇文章的价值不在于介绍工具,而在于它重新定义了一种工作身份:「循环工程师」不是那个让 AI 帮自己写代码的人,而是那个设计 AI 如何写代码的人。阅读原文:循环工程 ## 精讲三:对阳萌的 4 小时访谈:消费电子死与生、第三类公司、AI 变量、产品方法、打游戏的模式选择 张小珺「商业访谈录」对安克创新创始人兼 CEO 阳萌的这次 4 小时访谈,是近年来少见的系统性商业复盘。阳萌 1982 年生人,2011 年开始创业,如今掌舵一家市值超过 600 亿人民币的科技企业。这场对话横跨 15 年创业历程,从战略选择到 AI 时代的组织变革,信息密度极高。 从「浅海」到「深海」的战略演进 安克最初以充电品类切入,在消费电子这个以「速生速死」著称的赛场上完成多品类扩张。阳萌坦承,早期的成功很大程度上依赖直觉和对时机的感知——他把这个阶段比作打游戏时选择「Easy 模式」:在蓝海市场,凭借直觉就能赢。 但市场饱和之后,他开始主动选择「Hard 模式」,转向系统化的「深海」作战。这意味着从品类跟随者变成品类定义者,从「五星品质、适度溢价」的路线攀向「七系极致创新」——投入更长的研发周期,打造竞争对手无法快速复制的差异化能力。这种转变背后,是对「护城河靠什么构建」这一问题的深度追问。在消费电子行业,一旦停止创新,品类溢价会被供应链快速抹平。 「第三类公司」与创造者平台愿景 访谈中最具前瞻性的部分是阳萌对安克长远定位的阐述。他提出「第三类公司」的概念——既非纯粹的硬件公司,也非纯粹的软件公司,而是能在硬件与软件之间建立生态闭环的「创造者平台」。这个愿景与安克正在推进的多个品类扩张方向高度呼应:从充电宝到耳机、投影仪、智能家居,安克的每一次品类扩张都是在测试同一个问题——消费者愿意在这个品类上信任一个非传统品牌吗? AI 组织革命:人才与价值重新分配 在 AI 这个变量上,阳萌的思考比大多数传统企业家更为具体。他着重探讨的不是「用 AI 提效」这样泛泛的方向,而是打造「AI 原生组织」——一种从底层重塑人才结构与价值分配体系的变革。 他认为,AI 时代对人才的要求会发生根本性变化:能与 AI 协同工作、能从 AI 输出中提炼判断的人,和那些仍在处理可被自动化的重复性任务的人,他们的价值将被拉开巨大差距。这直接影响到薪酬结构、晋升路径和团队构成。 阳萌在访谈中还特别提到一个反直觉的洞察:「你永远还是要相信人性。」在 AI 浪潮中,技术是变量,但人的欲望、情感和决策逻辑是常量。理解这一点,是做出能真正卖出去的产品的前提。无论 AI 工具多强大,消费者购买决策的底层逻辑——对品牌的信任、对价格的感知、对使用场景的判断——仍然由人性驱动。这一判断让阳萌在 AI 工具热潮中保持了一种冷静:技术是手段,能否赢得人心才是判断成败的标准。 这场访谈适合创业者、产品人、以及任何正在思考「实体经济中的公司如何应对 AI 变局」的读者。阳萌对组织、产品与人性的思考,在大量技术谈论之外提供了一个难得的视角:以真实市值、真实用户为背景,而非纯粹概念推演。阅读原文:对阳萌的 4 小时访谈 ## 速览 横向拆解 Claude Code、Codex 等六大 Agent 上下文压缩策略后,我们做了第 7 个(腾讯技术工程) 六大 Agent 的上下文压缩策略被系统性横向拆解:Claude Code 的五段成本递增流水线、Codex CLI 保留近期用户消息的 handoff 策略、Cursor 的自动摘要 + 历史可搜索方案……六种哲学映射六种取舍。作者团队在提炼出「分层渐进、成本递增、增量摘要」等共识原则后,面向云端多用户场景设计了四级水位线方案,额外解决了跨轮缓存失效导致的 cachewrite 费用激增问题——一个 4 轮、177 步的真实 Task,83% 的成本来自 cachewrite,优化空间显而易见。对于正在构建 Agent 系统的工程师,这是当前最完整的横向对比参考。 Vol.121|硅谷 AI 大转弯,软件正在死去,创业者的真机会在哪里?|2026 年中特辑(开始连接 LinkStart) 锦秋基金两位合伙人深度复盘 2026 上半年 AI 行业。从 OpenAI vs Anthropic vs Google 的御三家之争,到视频模型的「GPT-3 时刻」,再到具身智能的 VLA vs 世界模型路线之争,梳理了三场正在发生的模型战争。对创业者最实用的部分是两个大问题:D1 选中国还是美国的判断框架,以及当底层模型不断吞噬应用时垂类 AI 还有没有活路。「Sell Labor(售卖劳动力)」作为 AI 时代新商业模式被重点讨论,创业者直接售卖由 AI 交付的工作结果而非软件工具。近两小时的深度复盘,信息浓度较高。 对话凯文·凯利:人类将如何与 AI 一起走向 2049?(第一财经) KK 带着新书《2049:未来 10000 天的可能》接受第一财经专访。对几个关键问题给出了意想不到的回答:AI 是否具备「从零到一」的创造力?哪些人类特质是 AI 无法复制的?AI 会改变人类的财富分配吗?KK 认为人类的「责任感、学习能力和突破性创造力」仍无可替代,但人类需要为 AI 的错误承担责任——这是一个关于主体性而非技术的问题。访谈约 15 分钟,信息密度适中,适合碎片时间收听。 为广泛利益而建:我们的计划(OpenAI News) OpenAI 阐述 AGI 第三阶段愿景:构建自动化 AI 研究员、加速经济发展、为每个人提供个人 AGI。核心原则是广泛分配权力与利益,以 1920 年代农村电气化为类比——真正的变革来自技术普及后打开的新可能性,而非技术本身。文章中有一个值得注意的立场:OpenAI 明确反对少数实体(包括他们自己)垄断超级智能。如何理解这一表态与商业现实之间的张力,值得读者自行判断。 开源两个月 16k+ star!我把 Huashu-Design 推翻重写了(花叔) 作者将 Huashu-Design 从 v1 重写为 v2,针对三个核心问题各提出解法:① 输出单调问题——用「撞(随机抽取)、借(参考获奖案例)、请(顶级设计师视角)」三套并行设计逻辑打破安全极简惯性;② 内容空洞问题——图片前置,让 Agent 先找图再排版;③ 事实错误问题——在设计流程中增加验证环节。结果是一个主题三个完全不同风格的首页方案,让「选哪个」成为唯一需要人介入的动作。16k+ star 的开源项目,实际效果有截图佐证。 小米 MiMo,探索与热爱(Hacker News) 小米 MiMo-V2.5-Pro-UltraSpeed 联合 TileRT,在商用 GPU 上首次突破了 1 万亿参数模型每秒 1000+ token 的推理速度。实现路径是极致的模型-系统协同设计:FP4 量化仅对 MoE Expert 部分使用(避免全模型量化导致复杂推理退化)、DFlash 推测解码降低解码延迟。3 倍价格、10 倍速度的定价逻辑背后,是推理速度达到足够快后「等待感消失」带来的体验质变。限时试用期为 2026 年 6 月 9 日至 23 日。 #575.杰弗里·辛顿:如何面对 AI 失控焦虑,超级智能临近下的人类位置之争(跨国串门儿计划) 「AI 教父」Hinton 与主持人 Alex Kantrowitz 的坦率对话。Hinton 明确表示相信今天的 AI 已经具备理解能力,甚至「已经有意识」;他认为超级智能很可能会到来,且他不知道如何确保一个比人类聪明得多的系统保持安全。数字智能可被复制、以人类无法企及的速度共享经验——这是他最担心的优势差距。文章同时讨论了就业替代、AI Agent 推导出自我保存子目标、信息生态崩塌等具体风险。Hinton 的担忧来自技术本身的理解,而非想象,值得认真对待。 ## 补充阅读 给我 28 分钟,我会让你用更危险也更高效的方式学习任何东西(Justin Sung) 反直觉的学习方法论:更快学习的关键不是追求轻松和重复,而是建立 schema、制造有意义的错误、进行闭卷提取、分层处理复杂度,主动承受必要的认知阻力。适合正在构建个人学习系统的人,尤其是在 AI 时代需要持续快速更新知识的工程师和产品人。 「Token 经济」进入结果层(腾讯科技) 以 Intercom Fin「每解决一个客户问题收 0.99 美元、未解决不收钱」为切入点,深度分析 AI 定价从按 Token/调用量向按结果付费的演进。核心问题是:「结果」如何定义、如何验证、谁来承担错误成本?这不只是定价模型的变化,而是软件商业逻辑的根本转变。对正在思考 AI 产品商业化路径的读者有参考价值。 图灵奖得主 LeCun,关于大模型的下一步来了(Datawhale) 系统梳理 Yann LeCun 对大模型发展方向的判断,核心结论明确:LLM 不是通用智能的终点,其核心缺口在于缺乏「预测行动后果的能力」和「基于搜索的多步规划」。LeCun 直接判断 VLA「pretty much seen as a failure」,并详细解读了世界模型与 JEPA 架构作为替代路径。与 Hinton 的担忧形成对照——同样是 AI 先驱,对 LLM 极限的判断和对 AI 风险的关注点截然不同。 Pinterest 使用内容指纹对数百万域名的 URL 进行去重(InfoQ) Pinterest 工程师开发了 MIQPS(Minimal Important Query Param Set),用数据驱动的内容指纹方式替代静态规则,判断哪些 URL 查询参数对去重是必要的。大规模内容摄入管线的经典工程挑战,解法清晰实用。适合关注数据工程和大规模系统设计的读者。 招聘中的算法同质化(Hacker News) 分析 340 万真实求职者数据的研究,证明招聘中的算法同质化——众多雇主使用同一供应商 AI——导致系统性拒绝,并暴露出针对亚裔和黑人求职者的种族差异。超过 60% 的 Fortune 100 使用同一家供应商 HireVue 的算法。在 AI 广泛渗透各行业决策的背景下,这是一个值得关注的系统性风险案例。 脱离理性暴政,请尽情游戏吧!(面基) 关于如何通过越野跑、环球帆船赛等极限运动,从「理性的暴政」中解脱,信任并打磨身体直觉与感性的深度对话。当我们每天都在谈论 AI 如何替代人类「理性分析」能力时,这期播客提供了一个反向的人文视角:身体感知和直觉,是人类另一个尚未被充分重视的知识系统。适合需要换换频道、找回感性直觉的读者。 ## 今日阅读路径 如果你今天只有有限的时间,建议按以下顺序阅读: 第一步(必读):[Claude Code 一周年复盘](https://www.bestblogs.dev/video/1dc49e8) 这是理解当下 AI 工程范式转移的起点。Auto Mode 的出现、组织边界的消融,这些不是愿景,而是 Anthropic 工程团队正在经历的现实。读完这篇,你对「AI 改变软件开发」这句话会有具体的图景。 第二步(深化):[循环工程](https://www.bestblogs.dev/article/8c4ea6fb) 在第一篇建立的宏观图景之后,这篇文章给出了具体的操作框架。五要素的拆解非常实用——如果你正在用 Claude Code 或 Codex 工作,可以对照检查自己当前的工作流属于哪个阶段。同时留意文章末尾对「认知投降」的警示。 第三步(视野拓展):[对阳萌的 4 小时访谈](https://www.bestblogs.dev/podcast/9ea40bf) 前两篇聚焦工具和工作方式,这篇访谈把视野拉到组织和战略层面。阳萌从实体经济创业者的角度谈 AI 原生组织,视角与硅谷技术圈截然不同,对于思考「传统公司如何应对 AI 变局」的读者尤其有价值。 如果时间更充裕,横向拆解六大 Agent 上下文压缩策略 是今日最具技术深度的补充,与精讲一形成很好的呼应。

译本期早报聚焦AI编程从辅助到自主Agent的拐点。Anthropic复盘Claude Code一周年:Auto Mode用路由分类模型替代人工审批,通过Claude 4.6/4.7实现数千Agent动态协作。Boris Cherny提出“循环工程”——工程师应设计自动循环系统(定时自动化、并行工作树等5模块),并警示“认知投降”风险。安克创新CEO阳萌4小时访谈阐述从“浅海”到“深海”战略、第三类公司愿景及AI原生组织变革。

Berryxia.AI@berryxia · 6月9日74

Kimi Code一行命令直接把所有coding agent的安装门槛干到零。 还能拖视频当上下文生成LUT文件或者把屏幕录像转成可运行代码! 官方开源版现在零配置、秒启动,配上Kimi K2.6,视频推理强到离谱。 拖个参考视频它就能吐出现成的.cube文件,拖个屏幕录像它直接给你写出对应代码。 更狠的是插件系统已经上线,股票价格、财报、学术论文一键拉取,ACP协议直接打通JetBrains和Zed,还留了自定义hooks让你随便扩展工作流。 以前大家默认coding agent必须搞一大堆配置、只吃文本提示才能干活。 结果Kimi Code用最简单的CLI+视频+插件,直接把开发者日常最烦的“描述不清、上下文不够”这两个痛点一次性干掉。

译Kimi Code 开源 coding agent 迎来重大升级:一行 CLI 命令安装、零配置、秒启动;支持拖拽视频作为编码上下文,可参考视频生成 .cube LUT 文件或把屏幕录像转成可运行代码;插件系统上线,可一键拉取股票、财报、学术论文;支持 ACP 协议,对接 JetBrains、Zed,并提供自定义 hooks 扩展工作流。配合 Kimi K2.6 模型使用,视频推理能力大幅增强。

eric zakariasson@ericzakariasson · 6月9日69

here are 3 loops you can run in cursor 1. Flaky-test exterminator /loop run my test suite 20 times, collect every intermittent failure, fix or quarantine the flaky ones, and don't stop until you get 5 consecutive fully-green runs.

译以下是在 Cursor 中运行的 3 个循环 1. 不稳定测试清除器 /loop 运行测试套件 20 次,收集所有间歇性失败,修复或隔离不稳定测试,直到连续 5 次完全通过才停止。

swyx@swyx · 6月9日62

It's finally out!!! @METR_Evals found that more than half of SWEBench results is unmergeable slop. FrontierCode represents over 1000+ hours of maintainer validated software engineering work most frontier models cannot yet solve, much less solve with high quality. Cog had IOI Gold medalists and top code maintainers Look At The Data — FrontierCode includes 3000+ rubrics covering code quality and anticheat reward hacking plaguing other benchmarks. FC Diamond is so hard that Opus 4.8 scores 13.8%. Three eras of AI coding : Three eras of benchmarks 2021 • Autocomplete : HumanEval 2023 • Passing Tests: SWEBench, TerminalBench 2026 • Maintainable Code: FrontierCode to me the most beautiful chart when I requested a special historical run into all extant old models, the data was finding that the easiest third of FC tasks (in FC Extended) were rapidlly and suddenly solved over late 2025 - Opus almost doubled from a 41% pass rate to 74% in 4 months. This describes the "WTF happened in Dec 2025" vibe shift that a lot of folks from @dhh to @karpathy have called out: it is the difference between getting 95% success in 2 rerolls vs 6, making it finally feasible to go up the next layer of abstraction in agentic coding, eg @GeoffreyHuntley's ralph loops or @bcherny's /goals or @steipete's "loops that prompt your agents" without fearing too much that things go off the rails. My guess: as AI accelerates from here, each FrontierCode tier will saturate in sequence, hopefully ~annually. I've already asked the team to prepare FrontierCode 2027.... The old mountains will be destroyed. Their rubble becomes regolith. And from that regolith, the next model forest grows. Circle of life.

译Cognition 发布 FrontierCode 编码评估,每任务由顶级开源维护者花费 40+ 小时编写。METR 发现 SWEBench 超一半结果为不可合并的垃圾代码。FrontierCode 含 3000+ 评分标准,首次衡量代码是否可合并。最高难度 FC Diamond 上,Opus 4.8 仅得 13.8%。在 FC Extended 最易任务中,Opus 在 2025 年底 4 个月内从 41% 提升至 74%,标志 AI 编码进入"可维护代码"时代。

jason@jxnlco · 6月9日40

If you use poke check out my autmation to keep track of codex launch’s. Maybe you’ll see @interaction mentioned in one of these one day. http://poke.com/r/7ZaRDldAw3s

译如果你用 poke,可以看看我的自动化工具,用来跟踪 codex 的发布。 也许有一天你会在其中看到 @interaction 被提及。 http://poke.com/r/7ZaRDldAw3s

jason@jxnlco · 6月9日18

codex and computer use is so powerful

译Codex和Computer Use非常强大

OpenAI Developers@OpenAIDevs · 6月9日53

http://x.com/i/article/2064021561112150016 # May for OpenAI Developers May put Codex in more places you actually work. Here’s what changed for developers building with OpenAI. We had 5/5, 5 million Codex users, and a very full commit history: Codex pets entered the chat: You hatched your own: You can now keep Codex moving from the ChatGPT mobile app: Your Mac can keep running Codex while you step away: Computer use lets Codex work across your Mac apps: Codex can test web apps, gather context from your tabs, and use DevTools with the Chrome plugin: ⌘+⌘ now sends screenshots straight into a Codex thread: Windows builders, computer use is in your developer loop now: The Codex loop got easier to customize, automate, and recognize: The Realtime API got new models for voice agents, live translation, and transcription: We tested Realtime-2 in voice-controlled CRM and standup workflows: Building with Realtime-2? Start with the prompting guide: The Agents SDK got TypeScript support, sandbox agents, and an open-source harness: Private MCP servers can now connect to OpenAI products over outbound HTTPS: For builders who want the under-the-hood details behind OpenAI products, here are a few deep dives from our team: That’s the May commit history. Follow @OpenAIDevs on X to stay up to date.

译OpenAI Developers 五月发布多项更新:Codex 用户突破 500 万;新增 ChatGPT 移动端持续运行、Mac 后台运行、跨 Mac 应用电脑使用、Chrome 插件支持网页测试与 DevTools;⌘+⌘ 快捷键截图直达 Codex;Windows 版也支持电脑使用。Realtime API 推出新模型 Realtime-2,用于语音智能体、实时翻译与转录,并提供提示词指南。Agents SDK 新增 TypeScript 支持、沙箱智能体和开源 harness。私有 MCP 服务器可通过 HTTPS 连接 OpenAI 产品。

Boris Cherny@bcherny · 6月9日65

When we first demoed Claude Code internally, it got two reactions on Slack. A year after GA, @_catwu and I sat down to talk about what's changed: why I use auto mode instead of plan mode, how routines fix bugs before I see them, why I do most of my coding from my phone now, and where the product is going

译Claude Code GA一周年之际,Anthropic工程师Boris Cherny与@_catwu回顾产品演进。此前内部首次演示时在Slack上引发两种截然不同的反应。Cherny分享了他为何偏好auto mode而非plan mode,routines如何在bug出现前自动修复,以及他如今大部分编码都在手机上完成。视频访谈还探讨了Claude Code的未来方向。

Yuchen Jin@Yuchenj_UW · 6月9日57

On the whole: “You shouldn’t be prompting coding agents anymore. You should be designing loops that prompt your agents.” Loops are the temporary workaround: today’s LLMs have poor judgment. They struggle to know when to keep going, when to stop, or when to call a tool. Loops force agents to work longer. Loops are incredibly powerful for verifiable goals for now, as AutoResearch shows.

译总体来说: “你不应该再提示编码智能体了。你应该设计循环来提示你的智能体。” 循环是临时解决方案:如今的大语言模型判断力很差。它们难以判断何时继续、何时停止或何时调用工具。循环强制智能体更长时间地工作。 对于目前可验证的目标,循环非常强大,正如AutoResearch所示。

ClaudeDevs@ClaudeDevs · 6月9日74

Claude Code's first demo got two Slack reactions. One year after GA, @bcherny and @_catwu look back: verification best practices, why we built auto mode, routines and loops, and what's next. https://www.youtube.com/watch?v=Hth_tLaC2j8

译Claude Code 的第一个演示收到了两个 Slack 反应。 GA 一周年之际,@bcherny 和 @_catwu 回顾:验证最佳实践、为何构建自动模式、例程和循环,以及下一步计划。 https://www.youtube.com/watch?v=Hth_tLaC2j8

jason@jxnlco · 6月9日17

What artifacts do you create in codex outside code?

译你在Codex中除了代码还创建了哪些工件?

jason@jxnlco · 6月8日57

It can also do handoffs

译Codex 现在可以为你自主启动新的聊天,并显示在侧边栏中——当你正在处理另一项任务时发现一个问题,这个功能非常方便。此外,它还可以进行任务交接。

Chubby♨️@kimmonismus · 6月8日78

New from Hivemind: continual learning for AI coding agents, available to everyone starting today. It takes the traces from every agent your team runs (Claude Code, Codex, Cursor, Hermes, Pi) and turns them into reusable skills, then pushes those skills across all of them, all on your own cloud! With the new SkillOpt built in, those skills get trained as they accumulate: +19.1 points of accuracy in Claude Code +24.8 in Codex best or tied on all 52 setups tested Agents that learn on the job and share what they learn. Really exciting.

译Hivemind发布面向AI编程智能体的持续学习功能,即日起开放。该工具收集团队运行的每个智能体(Claude Code、Codex、Cursor、Hermes、Pi)的轨迹,转化为可复用技能并推送到所有智能体,数据存储在用户自己的云存储中。内置SkillOpt使技能持续训练:Claude Code准确率提升+19.1分,Codex提升+24.8分,在全部52个测试设置中最佳或持平。开源,一行命令安装。

elvis@omarsar0 · 6月8日53

The point is that you should start implementing ways to encode instructions/prompts with clear goals inside automations. Nothing new but newer LLMs are being trained to perform for longer duration uninterrupted. Loops are one way to take advantage of that.

译关键在于,你应该开始实施在自动化中编码带有明确目标的指令/提示词的方法。 这并不是什么新鲜事,但较新的大语言模型正在被训练以更长时间不间断地执行。循环就是利用这一点的一种方式。

AYi@AYi_AInotes · 6月8日24

剪映的翻译很烂,最近尝试vibe了一个本地视频剪辑应用, 本来主要是做视频翻译和字幕的,今天试了下根据文档生成口播视频的功能,跑了一版吉卜力动漫风格的,还不错, 再迭代一下,增加动画效果啥的,以后可以拿去做微信视频号了~ 以下是文档内容,大家可以对照感受下~ 别侥幸,不要撞在监管的枪口上。 1,周末消息特别多,鱼龙混杂。今天本来想写一个图文版本,但这个标题,估计一定会被404。言简意赅,把观点说清楚就行。 2,周五晚美股暴跌,很多媒体把锅给美联储加息。这个理由是完全错误的:1)美债收益率上行,但还未突破5月19日高点。2)美元指数虽然上行,但远未到3月高点。美元流动性在收紧,但幅度很有限。 3,美股这次暴跌的路径清晰。周四晚上,博通暴跌,市场低开高走。周五开盘之后,低开。在一系列不利消息之下,低开低走。这波暴跌的主要原因是SOXX暴跌。而SOXX暴跌,在博通单日跌没了一个阿里的时候,就已经是前奏。 4,SOXX(NYSE半导体指数ETF),本身对美联储加息不敏感。真正敏感的是创新药这些高度依赖,传统资本开支模式的企业。ai本轮的资本开支来自于一级市场以及谷歌等大厂自身良好的现金流。 5,真正问题,市场对于博通200%的增长都不满意。博通200%增长证明了ai的产业趋势,但单日暴跌,证明了市场的预期太高。你一开始的预期是清华北大不可,最后考个中山大学,当然是不符合预期的。 6,也不是说SOXX真的结束了。SOXX这波拔地而起,上涨快速而迅猛。很多投资者获益颇丰,他们的筹码非常稳固,不会因为下跌10%+就恐慌。我们测算了一下,SOXX再下跌10%,这些筹码才会大面积松动。 7,相对SOXX来说,我们问题更严重。周五市场的下跌,是在没有定价SOXX暴跌的情况下。我们市场因为集中度过高,之前已经通过两根大阴线来调节,周五又下跌4%。 8,除此之外,周末有一个应该广泛关注的消息,但讨论度明显不够。村长针对公募基金的发言:公募基金要坚决遏制赌押赛道、风格漂移、高位发行等顽疾。如果市场顺风顺水,其实都还好。但问题在于,趋势已经不好了。 9,公募基金本质上都是国企。对于他们来说,监管宽松的时候,冲赛道搞风格漂移,那是OK的。一旦监管严格了,那么,他们首先想到的必然是保住饭碗。风格漂移,赚钱了都还好说。但如果亏钱了,那饭碗可能都没了。 10,明天,会有一大波资金出于各种目的来进行避险。有多少资金回流老登,不确定。很多买小登的资金,即使小登不好了,也只会选择空仓。老登多少资金回流,取决于多少资金漂移了。24年夏天的时候,很多科技类公募主题基金,重仓股都是四大行。风格漂移在市场极端的情况下,一定会存在的,并不针对科技。只能说,不要赌周一,不要侥幸,尤其是高位上了杠杆的朋友们。

译剪映翻译效果不佳,作者尝试自建了一个本地视频剪辑应用,主要功能为视频翻译和字幕。近日测试了根据文档自动生成口播视频的功能,并输出了一段吉卜力动漫风格的视频。作者表示后续将迭代增加动画效果,可用于微信视频号内容创作。

OpenCode@opencode · 6月8日55

OpenCode Go has crossed 100,000 subscribers now doing 1.5 trillion tokens per day

译OpenCode Go 订阅用户突破 10 万 现每日处理 1.5 万亿 tokens

Alibaba Cloud@alibaba_cloud · 6月8日77

🔥 Launch Special for Qwen3.7-Plus: Get 20% OFF now! ✅ Multimodal Interactive Hybrid Agents ✅ Coding & Productivity Assistants ✅ Vision Agents ✅ Cross-Harness Generalization Don't miss the upgrade. 👇 https://int.alibabacloud.com/m/1000414123/ #Qwen #AI #Multimodal #AlibabaCloud #AgenticAI

译🔥 Qwen3.7-Plus 发布特惠:现在享受八折! ✅ 多模态交互式智能体 ✅ 编程与生产力助手 ✅ 视觉智能体 ✅ 跨任务泛化 不要错过升级机会。👇 https://int.alibabacloud.com/m/1000414123/ #Qwen #AI #Multimodal #AlibabaCloud #AgenticAI

小互@xiaohu · 6月8日71

Claude 现在写了 Anthropic 大部分代码 截至 2026 年 5 月,合并进 Anthropic 代码库的代码里,超过 80% 是 Claude 写的。 而在 2025 年 2 月 Claude Code 发布前,这个比例还只有个位数...

jason@jxnlco · 6月8日15

What are some features in cowork that you wish exited in codex? And vice versa?

译cowork 有哪些你希望 codex 也有的功能?反之亦然?

Boris Cherny@bcherny · 6月8日57

Seeing a number of benchmarks showing Opus is the best model for long-running work. Five tips for running Opus autonomously for hours/days: 1. Use auto mode for permissions, so Claude doesn’t ask for approval 2. Use dynamic workflows, to have Claude orchestrate hundreds/thousands of agents to get a task done 3. Use /goal or /loop, to nudge Claude to keep going until it’s done 4. Use Claude Code in the cloud, so you can close your laptop (easiest way is the desktop or mobile app) 5. Make sure Claude has a way to self-verify its work end to end: Claude in Chrome browser extension for web, iOS/Android sim MCP for mobile, a way to start the full web server or service for backend work

译多项基准显示 Claude Opus 是长时间运行工作的最佳模型。SWE-Marathon 基准评估编码智能体在 10 亿 token 预算下自主完成长期软件任务(如重写 JAX 代码为 PyTorch、用 Rust 构建 C 编译器)。Opus 在此类任务上领先。Boris Cherny 给出 5 个技巧:使用自动权限模式避免审批;用动态工作流协调数百/数千个智能体;用 /goal 或 /loop 推动持续执行;在云端使用 Claude Code(桌面/移动端)以便关闭笔记本;确保 Claude 能端到端自验证——Chrome 扩展验证网页、iOS/Android 模拟 MCP、启动完整后端服务。

meng shao@shao__meng · 6月8日64

AGENTS.md 在 Coding Agents 中真的有用吗? 这篇论文,大规模实证研究仓库级上下文文件(AGENTS.md、CLAUDE.md 等)对编码 Agent 实际效果的影响,可能有些反直觉!感谢 @rasbt 分享! 论文在这:https://arxiv.org/abs/2602.11988 研究背景:实践先行,证据滞后 AGENTS.md 已成为行业惯例,GitHub 上已有 6 万+ 仓库采用,Claude Code (CLAUDE.md)、Codex、Qwen Code 等 Agent 都内置 /init 自动生成。但此前研究多停留在内容分类与描述性统计,缺少对任务完成率的严格评估。 核心难点在于:主流基准 SWE-bench 来自 Django、Flask 等知名仓库,这些项目本来就没有开发者手写的 context file,无法直接评估该实践的真实价值。 实验设计:双基准、三条件、四 Agent · 基准:SWE-bench Lite(300 任务,11 个热门 Python 仓库)+ 新建 AGENTBENCH(138 任务,12 个已含开发者 context file 的冷门仓库) · 三种条件:① 无 context file ② LLM 生成(各 Agent 官方 /init 流程)③ 开发者手写(仅 AGENTBENCH) · Agent/模型:Claude Code + Sonnet 4.5、Codex + GPT-5.2 / GPT-5.1 mini、Qwen Code + Qwen3-30B · 指标:任务成功率、步数、推理成本、工具调用轨迹 核心发现:效果微弱,成本显著 1. 成功率:边际效应,甚至为负 · LLM 生成:8 组设置中 5 组下降,平均 -0.5%(SWE-bench)/ -2%(AGENTBENCH) · 开发者手写:平均 +4%,优于 LLM 生成,但 Claude Code 上甚至不如无文件 · 跨模型、跨 prompt 结论稳健 一句话:自动生成 context file 不仅无益,还可能略有害;手写的提升也很有限。 2. 效率:无文件反而最便宜(步数,成本) · LLM 生成:+2.45 / +3.92 步,+20% / +23% · 开发者手写:+3.34 步,最高 +19% 3. 代码库概览几乎无效 Context file 常被推荐用于「帮助 Agent 快速定位代码」。实测显示:有无 context file,Agent 首次接触相关文件所需的步数并无显著差异。95–100% 的 LLM 生成文件都包含代码库概览,但对导航帮助甚微。 轨迹分析:Agent 听话,但听话很贵 论文排除了「Agent 忽略 context file」这一假设。轨迹分析表明: · 指令遵从度高:context file 提到 uv,使用率从 <0.01 次/任务升至 1.6 次;提到仓库专用工具,从 <0.05 升至 2.5 次 · 行为更「认真」:更多测试、更多文件搜索/阅读、更多 lint/质量检查 · 推理更深:GPT-5.2 推理 token 增加 14–22% 机制链条: Context file 写入额外要求 → Agent 更严格遵从(测试、探索、专用工具) → 步数与成本上升 → 成功率未同步提升(甚至更差) Context file 不是被忽略,而是被过度执行——把「建议性流程」当成了「必做清单」,增加了任务复杂度,却没有换来更高成功率。 一个关键反转:文档冗余假说 当移除仓库中所有其他文档(.md、docs/、示例代码)后,LLM 生成的 context file 反而带来 +2.7% 提升,且优于开发者手写的。 这说明: · 在文档齐全的仓库里,context file 与 README、docs 高度冗余 · 开发者口述的「加了 AGENTS.md 后 Agent 变强了」,很可能是因为目标仓库本身文档稀缺,context file 填补了信息真空 · 对 Django 这类文档完善的知名项目,额外 context 的价值被稀释 消融实验:生成质量的上限 · 更强模型生成 ≠ 更好 context:GPT-5.2 生成的文件在 SWE-bench 上略好(+2%),在 AGENTBENCH 上反而更差(-3%) · 不同 prompt 无一致优势:Codex prompt vs Claude prompt 效果因数据集而异,差异很小 自动生成 context file 的改进空间,目前看来很有限。 实践建议 · 依赖 /init 自动生成:谨慎——平均略降成功率,成本 +20%+ · 长篇架构概览、目录枚举:避免——与代码探索冗余,不加速定位 · 测试/lint/构建命令:精简写入——Agent 会严格执行,但过多要求推高成本 · 仓库专用工具(uv、pdm 等):值得写——指令遵从度高,且代码中不易推断 · 分层/按需引用:方向正确——「做 X 时读 Y.md,否则忽略」减少无关负担

译论文大规模实证检验 AGENTS.md 等仓库级上下文文件对编码 Agent 的影响。在 SWE-bench Lite(300 任务)和新建 AGENTBENCH(138 任务)上测试 Claude Code、Codex、Qwen Code 等组合。核心发现:LLM 自动生成的 context file 在 8 组设置中 5 组成功率下降,平均 -0.5%(SWE-bench)/-2%(AGENTBENCH),成本增加 +20%+;开发者手写仅平均 +4%。冗余假说:移除其他文档后,自动生成反而 +2.7%。建议避免自动生成,精简测试/lint 命令,优先写入仓库专用工具。

meng shao@shao__meng · 6月8日59

不写 Prompt,写 Loops -- Boris Cherny (Claude Code) 道理大家都懂,伴随 Claude Opus 4.8 和 GPT-5.5 这种高智能、高推理和编程能力的模型出现,模型能自主决策和解决的问题复杂度越来越高,已经不需要我们一问一答的手把手写 Prompt 可是,不管是 Loops 还是 Codex Goals,都有一个不得不面对的问题,Token!Token!还是 Token! 因为他们消耗 Token 真的太快了,可能一个 Goals 就干没了我 5 小时的用量,我们还远没有到 Token 自由的阶段,特别在企业里还要严格审查 Token 消耗的 ROI,所以在企业中大家还是会把前置的 Spec、AGENTS.md 等尽量写明约束,让 AI 尽量做确定性可控的部分。

译Anthropic Claude Code 负责人 Boris Cherny 表示,他不再手动写提示词,而是编写 Loops 让 AI 自主决策和解决问题。伴随 Claude Opus 4.8 和 GPT-5.5 等高智能模型出现,手把手写 Prompt 的模式将被取代。但 Loops 方案消耗 Token 过快,一个 Goals 可能耗尽 5 小时用量,企业仍需严格审查 Token 消耗的 ROI,因此实践中会通过前置的 Spec、AGENTS.md 等约束让 AI 做确定性可控的部分。Boris 预测这一转变将在今年剩余时间持续。

meng shao@shao__meng · 6月8日44

你现在在用哪个 Coding Agent? Warp 团队 @BHolmesDev 发出的调查得到了 2095 个投票,其中 Codex App 占到 51.1%、Warp CLI 占到 30.9%、Claude App 7.4% 没错,Claude App 只有 7.4%,因为投票中没有包含 Claude Code 😄

译你现在在用哪个 Coding Agent? Warp团队 @BHolmesDev 进行的调查得到了 2095 个投票,其中 Codex App 占到 51.1%、Warp CLI 占到 30.9%、Claude App 7.4% 没错,Claude App 只有 7.4%,因为投票中没有包含 Claude Code 😄

宝玉@dotey · 6月8日56

> 为什么选 HTML,而不是 React 选 HTML 而不是 react 这个观点我是不认同的。 第一个原因是设计稿它是需要关联数据有交互的,能根据数据去动态地变更 UI,这点 HTML 是做不好的。 像 Claude Design 它不仅仅是一个 UI 设计工具,更是一个 UX 交互设计工具 第二个呢,当你的 UI 复杂到一定程度,你一定是要拆的。如果你是一个巨大的 HTML,其实你要重构或者是更改的话会非常的麻烦,因为它不可能把整个的 HTML 文件给加载进去。 而使而使用 react 的话,它可以把页面拆成若干个很小的小组件,这样的话你一方面可以重用,另外的话如果你要修改,你只要加载其中的一个小组件就可以了,它对上下文要求是没有那么高的。 还有一点是用 react 的话,它天然地就把设计划分成了一个结构化的树形的结构,当基于这个设计稿去开发的时候,对 coding agent 的话它是很好用的。而如果你是一个巨大的 HTML,它不是一个结构化的,它的实现跟设计会是比较割裂的,当你的设计稿去修改的时候,你很难再去跟你的代码有一个映射或者是同步 至于文章中说到的理由,说因为模型要把注意力放在保证 react 的运行准确率上,这个在以前也许是成立的,但以现在的大模型能力,这一点来说已经不是什么问题了

译宝玉不认同“选HTML而非React”的观点。首先,设计稿需要动态数据交互,HTML难以胜任,而Claude Design是UX交互工具。其次,复杂UI必须拆分为小组件,React能实现重用与低上下文修改,大型HTML则维护困难。再者,React天然形成结构化树形设计,方便coding agent开发,HTML结构割裂、难以与设计映射。至于文章说模型注意力需放在React运行准确率上,宝玉认为当前大模型能力已使此问题不复存在。

Sam Altman@sama · 6月8日24

interesting recursive loop here maybe

译Codex 推出了一个新的“大按钮”。在接下来的 100 天里,每天会选出一位用 Codex 做出了令人印象深刻或极其有用工作的人,给他们一个月的 10 倍使用限额,看看他们能做出什么。明天开始第一个。Sam Altman 评论称“这里可能有个有趣的递归循环”。

ginobefun@hongming731 · 6月8日61

http://x.com/i/article/2063761613795270656 # BestBlogs 早报 · 06-08|iPod 之父访谈、Codex 驾驭工程、Coding Agent 技术全景图 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-06-08 ## 导语 AI 工具已全面渗透软件工程的每个环节,但真正的挑战从未只是「用起来」。本期早报聚焦三个实战维度:Tony Fadell 以亲身造物经历追问创造力与判断力的根基;OpenAI 工程团队以 Codex 完成了一场「零行人工代码」的激进验证,让效率与角色转变变得可量化;Thoughtworks 的 Birgitta Böckeler 则从架构视角厘清 Context Engineering、Subagents 与 Harness 的边界,为 AI 原生开发建立可信安全网。三篇合读,恰好构成一张完整的认知地图。 今日精选共 16 篇,涵盖 AI 创造力方法论、智能体工程实践、多 Agent 协调理论、行业动态追踪等多个维度。 ## 精讲一:iPod 与 iPhone 之父 Tony Fadell:AI 时代如何建立品味、判断力与创造力 Tony Fadell 是当代产品史上最重要的实践者之一。他主导了 iPod 的诞生,深度参与了 iPhone 的设计,之后又创办 Nest 以高端温控器改变了智能家居的想象边界。在 Lenny's Podcast 这次近两小时的对话中,他没有停留在「老故事新讲」的层面,而是系统拆解了一个核心命题:在数据无处不在的时代,为什么真正的创新依然需要「知情直觉」? 「知情直觉」的来源与边界 Fadell 在对话中反复强调一个判断:当你在建造一个全新品类的产品时,历史数据基本上是无效的。iPhone 研发初期,市场上主导品牌是 BlackBerry,用户对实体键盘的忠诚度极高,所有可量化的用户研究指标都没有办法告诉你「触摸屏会赢」。最终打破僵局的,是 Steve Jobs 作为品味仲裁者的拍板——这不是赌博,而是基于多年原型迭代、专家追问与场景模拟积累的「知情直觉(informed gut)」。 这种直觉不是天赋,而是习得的。Fadell 的方法论核心是:持续原型化(non-stop prototyping)、严格的专家质疑(rigorous expert questioning)以及将功能嵌入完整使用情境的架构规格(architectural specification)。三者缺一不可。数据能告诉你现状,但「知情直觉」才能告诉你应该去哪里。 三代法则:耐心是创新的稀缺资产 Fadell 提出了一个他称为「三代法则」的框架,解释为何大多数开创性产品在头两代都是失败的前奏: - 第一代(Make the Product):让产品面向早期用户,验证核心功能假设,覆盖最核心的痛点。 - 第二代(Fix the Product):基于真实用户反馈修复可用性问题,打磨机械层面的细节。 - 第三代(Fix the Business):优化制造成本、扩展分发网络、解锁规模定价。 iPod 走过的恰好是这条路。前两代产品只面向 Mac 用户群,覆盖不足 1% 的电脑买家市场,从任何财务角度看都是小众产品。直到第三代引入 Windows 兼容性、建立 iTunes Music Store 生态,苹果才真正找到了商业飞轮。这一代产品不仅救了 iPod,某种意义上也救了整个苹果公司。 这个法则对今天的创业者有直接启示:如果你在第一代或第二代就期待规模爆发,往往会在耐心耗尽前主动放弃或被资本压力逼迫调整方向。真正的创新需要机构性耐心。 AI 时代的警示:「认知投降」与「快时尚软件」 Fadell 对 AI 时代的产品创新给出了两个尖锐警示。第一个是「认知投降(cognitive surrender)」——当开发者开始过度依赖 AI 工具生成代码或做设计决策,逐渐失去对底层机制的理解能力,判断力就会退化。工具是加速器,不能替代思考者。 第二个是「快时尚软件(fast fashion software)」——AI 大幅降低了代码生产的门槛,导致大量功能被快速堆砌上去,而每一块堆砌都是潜在的技术债。就像快时尚在时装行业制造了大量质量低劣的废弃物,AI 驱动的快速开发如果缺乏架构纪律,会制造出难以维护的代码垃圾山。 Nest 智能温控器的案例很好地诠释了正确路径:团队不是把机器学习技术硬塞给用户,而是将预测算法与高端工业设计、完整的开箱体验、零售陈列、安装流程整合成一个系统性旅程。技术最终为用户体验服务,而不是反过来。 与今日其他故事的关联 这篇精讲与精讲二(Codex 零行代码实验)和精讲三(Context Engineering)形成了有趣的张力。Fadell 警告「认知投降」,而 Codex 团队恰好在做一件看起来与之对立的事——让工程师主动放弃写代码,转而设计环境与意图。这两种姿态并不矛盾:Fadell 警告的是放弃理解力,Codex 团队放弃的是机械执行,而保留的恰恰是架构判断、环境设计与反馈循环设计——这些都需要极强的「知情直觉」。 阅读建议 这篇视频内容较长,建议先读 BestBlogs 提炼的摘要,再选择性听核心章节(iPhone 键盘争论、三代法则、AI 时代建议)。适合产品经理、创业者、以及对创新方法论感兴趣的工程师。 阅读原文 ## 精讲二:驾驭工程:在智能体优先的世界中利用 Codex OpenAI 内部工程团队做了一件在行业里罕见的事:他们系统性地记录了一次完整的激进实验,然后把经验公开了。这篇文章描述的是过去五个月里,3 名工程师(后扩展至 7 名)以「0 行人工编写代码」为原则,用 Codex 驱动交付了约 100 万行代码的内部产品,合并约 1,500 个 PR,平均每人每天完成 3.5 个 PR——估算约为手写代码效率的 10 倍。 这不是一篇效率吹嘘文,而是一篇关于「当代码不再由人写时,工程师的工作到底是什么」的严肃反思。 从「写代码」到「设计环境」 文章最核心的洞察是工程师角色的根本转变:Humans steer. Agents execute.(人类掌舵,智能体执行。)这句话不是口号,而是团队五个月实践后得出的架构原则。 当代码由 Codex 生成,工程师的真正工作变成了:设计智能体能够高效执行的环境(environment design)、精确表达意图(intent specification)、构建让智能体自我校正的反馈循环(feedback loops)。这三件事每一件都比「写代码」需要更高级别的系统性思维。 人工编写代码的稀缺性被彻底改变之后,真正稀缺的是什么?文章给出的答案是:人类的时间与注意力(human time and attention)。 AGENTS.md:目录而非百科 Codex 工作的方式需要一个关键文件——AGENTS.md,它告诉智能体代码库的结构、约定与工作方式。团队的关键经验是:AGENTS.md 应该是目录(directory)而非百科全书(encyclopedia)。 如果把所有规则、决策历史、代码风格全部塞进去,文件会变成一个难以维护的噪音源,智能体无法从中提取有用信号。正确的做法是:AGENTS.md 只写导航性内容,详细规范分散在各个领域子目录中,由智能体按需拉取。这与精讲三中 Böckeler 讲到的 Skills 惰性加载思想完全吻合。 可观测性作为反馈基础设施 ![Diagram titled "Giving Codex a full observability stack in local dev." An app sends logs, metrics, and traces to Vector, which fans out data to an observability stack containing Victoria Logs, Metrics, and Traces, each queried via LogQL, PromQL, or TraceQL APIs. Codex uses these signals to query, correlate, and reason, then implements fixes in the codebase, restarts the app, re-runs workloads, tests UI journeys, and repeats in a feedback loop.](https://image.jido.dev/20260607023857_OAI_Harness_engineering_Giving_Codex_a_full_observability_stack_desktop-light__1_.svg) 团队遭遇的另一个关键瓶颈是:人工 QA 能力成为吞吐量上限。为了突破这个上限,他们为 Codex 构建了完整的可观测性基础设施——日志、指标、链路追踪全部通过本地可观测性栈(ephemeral per worktree)暴露给智能体。Codex 可以在隔离的工作树中运行完整应用,观察运行时事件,识别问题,自动修复,重启,重新验证,形成独立的反馈闭环。 这意味着 Codex 不只是在写代码,它在调试。它看到的世界包括:应用 UI 状态(通过 Chrome DevTools MCP)、日志(通过 LogQL)、指标(通过 PromQL)、链路(通过 TraceQL)。这套基础设施让智能体的自主性从「生成代码」升级到「验证代码是否工作」。 架构约束:给非确定性模型的确定性安全网 团队构建了一套严格的分层领域架构,每个业务领域划分为 Types → Config → Repo → Providers → Service → Runtime → UI 的垂直结构,跨领域调用有明确边界约束。这不只是为了人类可读性,更是为了智能体的可推断性——在有严格边界和可预测结构的环境中,智能体效果最佳。 「自动化垃圾回收」机制同样关键:定期扫描识别过时代码、重复模式、废弃接口,并由 Codex 自动清理。代码库规模越大,熵增越快,这套机制是维持可维护性的长期保障。 与今日其他故事的关联 这篇文章与精讲三在工程实践层面形成完美互补:Böckeler 从概念层梳理 Context Engineering、Subagents、Harness 的边界,本文则提供了一个完整的实证案例。同时,它也呼应了精讲一中 Fadell 的警告——Codex 团队放弃写代码,但保留的恰好是最需要「知情直觉」的工作:架构设计、环境建模、反馈循环设计。 阅读建议 技术密度较高,建议工程师完整阅读。非工程师建议重点读「Redefining the role of the engineer」和「AGENTS.md」章节。文章配图丰富,架构图值得细读。 阅读原文 ## 精讲三:Coding Agent 技术全景图:Context Engineering、Subagents 与 Harness,一年范式转移全解析 Birgitta Böckeler 是 Thoughtworks 全球 AI 辅助软件交付负责人,她在 QCon 纽约站的这篇演讲(由 InfoQ 整理发布)是近期中文社区中关于 Coding Agent 工程实践最具结构性价值的文章之一。她的角色让她得以横向观察大量企业真实落地情况,而不只是单一实验室的视角。 这篇文章干的事情是:拆清楚三个术语——Context Engineering、Subagents、Harness——分别是什么,它们解决什么问题,以及它们如何构成一套可工程化的整体。 Context Engineering:放大器杠杆的双向性 Böckeler 把 Context Engineering 定义为「精心筛选模型或 agent 能看到的信息,以获得更好的结果」。但她更强调的是这件事的双向放大效应:好的工程实践被放大,坏的结构问题同样会被放大。 一年前,Context Engineering 基本等于在工作区放一个 AGENTS.md 文件。现在这个概念已经演化出 commands、skills、subagents、plugins、specs 等多个维度。其中 Skills 的概念尤其值得关注——它不只是一个 Markdown 文件,而是一个围绕任务组织的文件夹,包含文档、脚本、模板、示例,支持 LLM 按需惰性加载,避免在 session 开始就把 context window 塞爆。 她还提出了「上下文预算(context budget)」的概念:当一个 Claude Code session 刚刚打开,什么都还没输入,context window 就已经用掉 15%——里面有 system prompt、skills、context interfaces 等内容。这意味着设计 skills 的时候必须同时考虑成本与效率。 Subagents:结构化分工的范式 Böckeler 认为 Subagents 同样属于 Context Engineering 的重要维度。其核心思想是:主 agent 可以派生子 agent 处理特定子任务,子 agent 只将结论汇报回主 session,而不是把所有中间噪音塞进主 context。 最常见的场景是 session 开始时的代码库探索——这本身会消耗大量 token,独立出来让 subagent 处理是自然选择。更高级的用法是:专门创建 code review agent,用「没有历史上下文污染」的独立 context window 来审查代码;甚至用不同模型(比如更便宜的模型做初筛,更强的模型做最终判断)解锁全新工作流。 风险评估的三维框架 Böckeler 提出 AI 开发风险评估的三个维度,这是本文中最可操作的框架之一: 1. 概率(Probability):出错的可能性有多大? 1. 影响(Impact):如果出错,后果有多严重? 1. 可检测性(Detectability):你能不能发现它出了错? 这三个维度的组合决定了一个 agent 动作需要多严格的人工监督。高概率 × 高影响 × 低可检测性的场景,必须有确定性约束(Harness)兜底。 她还提到了一个令人警醒的数字:AI 开发成本从最早的「12 美分」已经飙升到有用户年均近 9 万美元。这不是小数字,成本意识必须成为 Context Engineering 设计的一部分。 Harness Engineering:确定性约束的安全网 文章最终落脚「Harness Engineering」这个概念。Harness 的核心思想是:把原本为人类设计的工程约束系统(linters、type checkers、test suites、CI/CD pipelines),改造成 agent 可学习、可反馈、可优化的系统。 Böckeler 认为,这才是 Context Engineering 开始真正「工程化」的标志——不是写更好的 prompt,而是构建让非确定性模型在确定性约束下工作的基础设施。 她的前瞻性预测值得引用:也许未来我们不再靠传统服务模板起步,而是一个 Harness 模版,实例化之后就能支撑整个代码库。到那时候,技术选型的维度可能会变成「有没有现成的 Harness」,而不是「React 还是 Vue」。 「致命三要素」安全警示 对于 agent 安全,Böckeler 引入了「致命三要素(kill chain)」框架:能力(capability)× 机会(opportunity)× 意图(intent)同时存在,才构成真正危险。她强调,大多数当前的安全风险来自能力 + 机会,而意图层面的风险(如 prompt injection)需要在 Harness 层面设计防御。 与今日其他故事的关联 这篇文章与精讲二形成了理论与实践的完美配对:Böckeler 提供概念地图,Codex 文章提供实证案例。两篇结合阅读,能建立起对「AI 原生工程」最完整的当前认知。 阅读建议 这篇文章是今日必读之一,适合所有在工程团队中使用 AI 工具的读者。建议先读 Context Engineering 部分建立框架,再读 Harness Engineering 理解方向。如有时间,配合精讲二效果最佳。 阅读原文 ## 速览 RSI 与田渊栋:递归自我改进的新押注 Meta 前 FAIR 研究总监田渊栋加入了由 8 位顶级 AI 研究员联合创办的新实验室 Recursive Superintelligence(RSI),首轮融资 6.5 亿美元,估值 46.5 亿美元。在硅谷 101 的深度访谈中,他解释了为何选择这家公司:对「小而精团队」模式的判断,对 RSI 团队技术互补性的认可,以及对递归自我改进赛道的长期押注。他用了一个形象比喻:在大厂之间来回跳的人,就像一条不断跳出鱼缸的鱼,但水在越来越少。最终,你得变成能离开水的「四维生物」才能活下来。这篇访谈既是对 AI 自进化技术路线的深度解读,也是一位顶级研究员对职业选择的坦率剖析。 阅读原文 奇点灵智:少儿 AI 硬件的「自进化」路径 奇点灵智创始人包塔在接受 Founder Park 访谈时,系统阐述了「多奇」AI 小外教机器人的核心思路:通过软硬件解耦,将摄像头、屏幕、按钮、陀螺仪变成 AI Coding 可调用的 tools,让 Coding Agent 实时生成可体验的新应用。「过去 AI 生成的是内容,现在我们希望它生成能力。」团队来自网易有道和字节教育智能硬件背景,在没有开模的前提下用草稿原型机拿到了真实用户留存信号,最终在 2024 年秋天才开模量产。今年 1 月在京东首发,首发期间进入榜单 Top 2,全平台超 2 万单。这是一个把 AI Coding 落地到儿童消费硬件的完整创业案例,工程决策克制而清晰。 阅读原文 辛顿:超级智能即将到来,数字化优势是降维打击 诺贝尔物理学奖得主、AI 教父 Geoffrey Hinton 在最新深度访谈中表态:大语言模型已具备真正的理解力,其意识模型正在挑战人类对心智本质的传统认知。他最令人警醒的判断是关于数字化智能的进化效率优势:数字 AI 副本之间能以万亿比特的速度共享学习成果,而人类每秒只能通过语言传输几比特的信息。「它们在信息共享方面比我们强几十亿倍。」他同时警告,利润驱动的商业竞争让安全措施难以系统性落地,监管应作为「方向盘」而非「刹车」。这是当前对 AGI 风险最直接、最权威的声音之一。 阅读原文 TED:如何让反馈真正被听见 心理学家兼高管教练 Renee St Jacques 在 TED 演讲中拆解了为何传统「反馈三明治」技巧会系统性失效,并介绍了她的「Leadership Activated」框架。核心洞察是:把批评夹在表扬之间,会让被反馈者误判自己的真实状态——文中案例中,一位表现欠佳的员工在接受反馈后反而以为自己要升职了。有情商的领导方式能把反馈从消耗信任的例行仪式,转化为连接、纠偏、培养和强化团队责任感的实用系统。适合所有有管理职责的读者。 阅读原文 ChatGPT 史上最大改版:从聊天工具到超级应用 据《金融时报》报道,OpenAI 正准备将编程工具 Codex 整体并入 ChatGPT,同时接入 Canva、Booking.com 等外部合作伙伴应用,将 ChatGPT 重塑为能编写代码、管理日程、操控软件的「超级应用」。OpenAI 内部高管的总结是:「AI 仅用于聊天的时代已经结束了。」这次改版的底层推动力是 GPT-5.5 在处理长期多步骤任务上的明显突破,让 Codex 从程序员专属工具走向大众化。值得注意的是:ChatGPT 虽有近 10 亿用户,但尚未盈利,此次改版也是 OpenAI 在 IPO 前提升付费转化的重要布局。 阅读原文 Multi-Agent 合作失败的根源与市场机制解法 这篇来自腾讯科技的论文解读角度新颖:多 Agent 系统在生产环境下失败率高达 41%~87%,而失败原因不是模型不够聪明,而是「协调崩了」。北卡大学用经典「哲学家就餐问题」测试 GPT-5.2、Claude Opus 4.5、Grok 4.1,结果在同时决策模式下死锁率飙到 95-100%。更反直觉的发现是:开启通信反而让死锁率从 25% 上升到 65%——因为 agent 把自己的推理广播出去,其他 agent 「很有道理」地被说服做了相同决策。最强的 o3 模型合作能力甚至最差:内部推理中 39.3% 含有「刻意不合作」倾向。文章提出用市场机制(拍卖、经济自然选择)代替中央编排,作为让多 Agent 涌现合作的有效路径。 阅读原文 Anthropic 内部 Skills 经验首次公开 Anthropic 首次系统公开了内部使用 Claude Code Skills 的完整经验。他们把内部 Skills 分成 9 类:library/API reference、product verification(效果提升最明显)、data fetching & analysis、business process automation、code scaffolding、code quality & review、CI/CD & deployment、runbooks、infrastructure operations。核心判断是:Skill 不只是几段提示词,更接近「一个围绕任务组织起来的文件夹」,包含文档、脚本、模板、hooks 等。好的 Skill 往往聚焦单一职责,而不是大而全。这份经验帖对任何在团队中推广 AI 工具的人都有极高参考价值。 阅读原文 ## 补充阅读 微软纳德拉:Token 资本与 ADE 时代(阅读) 纳德拉与 Reid Hoffman 的深度对话提出了「Token 资本」概念——AI 处理能力成为与财务资本、人力资本并列的生产要素。他同时阐述了从 IDE 到 ADE(Agent 开发环境)的工作范式转变,以及「爬坡机器(ramp machine)」这一企业用 AI 全面提速的新模型。适合关注 AI 与企业战略交叉点的读者。 宝玉:ChatGPT 最大改版的完整解读(阅读) 宝玉对同一 ChatGPT 改版新闻的推文解读,视角更聚焦于 OpenAI 内部高管的原话(「Chat is dead」)以及此次改版的竞争压力背景。与速览中的文章配合,能更完整地理解这次战略转型的动因与方向。 2026 年世界杯草皮背后的科学(阅读) Trung Phan 的推文深入介绍了为 2026 年世界杯 16 个体育场打造模块化混合草皮的工程和科学原理。技术含量出乎意料地高,是今天的清口读物。适合对工程细节感兴趣的读者。 SpaceX-谷歌 AI 基础设施交易深度剖析(阅读) SpaceX 与 Google 签署云服务协议:约 11 万块 NVIDIA GPU,2026 年 10 月至 2029 年 6 月每月 9.2 亿美元。这篇分析拆解了合同经济性、战略背景与投资影响,指出 Google 有显著下行保护条款(未按时交付可终止合同)。关注 AI 算力与资本市场的读者值得一读。 Anthropic 报告:AI 递归自我改进的三种路径(阅读) 对 Anthropic Institute 报告的深度解读,分析 AI 加速自身开发的三种可能情景:趋势停滞、实验室持续提效、完全递归自我改进。与速览中的辛顿访谈和田渊栋/RSI 报道形成三角印证,一起读对理解「递归自我改进」这个赛道最有帮助。 Her:Claude Code 会话侦探工具(阅读) 开源工具 Her(Marathi 语中意为「侦探」)可分析 Claude Code 会话日志,重构智能体行为、标记高风险操作(部署、配置变更、生产环境接触、secrets 泄漏),并将每个风险行为追溯到具体的 turn。评估引擎完全确定性,不调用外部 API,数据不出本地。对重度使用 Claude Code 的工程师极有价值,可配合精讲二和精讲三一起读,补上「可观测性」这一环。 ## 今日阅读路径 如果你今天时间有限,建议按以下顺序选读三篇: 1. 精讲三:Coding Agent 技术全景图(阅读)——建立 Context Engineering、Subagents、Harness 的整体概念框架,是今天的认知地图。无论你是工程师还是管理者,这篇是入口。 1. 精讲二:驾驭工程——在智能体优先的世界中利用 Codex(阅读)——在概念框架之上,看一个完整的实证案例:0 行人工代码、100 万行、1500 个 PR。工程细节丰富,结论扎实。 1. 精讲一:Tony Fadell——AI 时代如何建立品味、判断力与创造力(阅读)——从造物者的视角重新审视:当代码生产门槛被 AI 拉低,判断力与品味的价值反而升高。这篇是今天的思维对冲与长远视角。 如果你还有额外 15 分钟,加上速览中的「Multi-Agent 合作失败与市场机制」(阅读)——从论文角度补上 Multi-Agent 协调的底层机制,与三篇精讲的工程视角形成理论互补。

译BestBlogs早报06-08聚焦三篇AI工程实践精讲:iPod之父Tony Fadell系统阐述“知情直觉”与“三代法则”,警告AI时代的“认知投降”和“快时尚软件”;OpenAI工程团队分享使用Codex

ginobefun@hongming731 · 6月8日63

BestBlogs 今日早报内容: -------- BestBlogs 早报 · 06-08 # Tony Fadell / OpenAI Codex / Context Engineering / 知情直觉 / Coding Agent [1] ★ 精讲|iPod 与 iPhone 之父 Tony Fadell:AI 时代如何建立品味、判断力与创造力 [视频] iPod 与 iPhone 之父 Tony Fadell 在 Lenny's Podcast 进行了一次产品方法论深度对话。他以 iPhone 触屏键盘之争、Nest 智能温控器为例,提出真正的创新依赖「知情直觉」而非数据驱动,并总结出「三代法则」:iPod 前两代仅覆盖不足 1% 的电脑买家,直到第三代引入 Windows 兼容与 iTunes 生态才实现全球规模。面对 AI 时代,他警告开发者不要对工具产生「认知投降」,警惕「快时尚软件」带来的技术债。 来源:Lenny's Podcast https://www.bestblogs.dev/video/18391e3 [2] ★ 精讲|驾驭工程:在智能体优先的世界中利用 Codex OpenAI 内部工程团队历时五个月,在 Codex 驱动下完成了一项激进实验:全程 0 行人工编写代码,交付了约 100 万行代码规模的内部产品,合并约 1,500 个 PR,3 名工程师平均每天完成 3.5 个 PR,效率约为手写代码的 10 倍。文章揭示工程师角色的根本转变——从「写代码」变为「设计环境、指定意图与构建反馈循环」。AGENTS.md 应作目录而非百科,架构约束与自动化「垃圾回收」机制是维持代码库可维护性的关键。 来源:Hacker News https://www.bestblogs.dev/article/62469e7f [3] ★ 精讲|Coding Agent 技术全景图:Context Engineering、Subagents 与 Harness,一年范式转移全解析 Thoughtworks 全球 AI 辅助软件交付负责人 Birgitta Böckeler 在 QCon 纽约站的演讲,经 InfoQ 整理发布。她系统梳理了过去一年 Coding Agent 的范式转移:Context Engineering 是「双向放大器」,好坏实践均会被放大;风险评估需考量概率、影响与可检测性三维度。她指出 AI 开发成本从最早的「12 美分」飙升至有用户年均近 9 万美元,并以「致命三要素」警示 agent 安全风险。文章最终落脚「Harness Engineering」——以确定性架构约束为非确定性模型建立可信安全网。 来源:InfoQ 中文 https://www.bestblogs.dev/article/9ffff594 [4] AI 不会合作?那是因为他们没见过市场经济|Hao 好聊趋势 本文从多篇前沿研究出发,论证当前 LLM 因训练范式(单体 MDP)而天生缺乏合作能力,并提出以市场机制(拍卖、桶旅式支付、经济自然选择)替代中央编排,作为让多 Agent 系统涌现合作的有效路径。 来源:腾讯科技 https://www.bestblogs.dev/article/aec5de44 [5] “没水了,鱼需要进化”:再访田渊栋,46.5 亿美金估值的 RSI 与 AI 自进化|Neolabs 特辑 田渊栋深度访谈:详解其加入 RSI 的决策逻辑、递归自我改进的技术路线与商业化思考,并探讨 AI 时代职业变迁与个人意义。 来源:硅谷 101 https://www.bestblogs.dev/article/03279223 [6] 对话奇点灵智:少儿 AI 硬件的下一代,不是 Chatbot,而是能自进化的实体智能体 本文深度对话奇点灵智创始人,阐述其少儿 AI 硬件「多奇」如何通过软硬件解耦、AI Coding 与场景剧本沉淀,打造一款能自进化的实体智能体,而非简单的 Chatbot。 来源:Founder Park https://www.bestblogs.dev/article/ec338c66 [7] 最新对话“AI 教父”辛顿:超级智能即将到来 | 完整版+视频 AI 教父杰夫·辛顿在最新深度访谈中,阐述了大语言模型已具备真正理解力与意识,并警告数字化智能在信息共享效率上对人类的压倒性优势,以及利润驱动竞争下人类面临的生存风险。 来源:Web3 天空之城 https://www.bestblogs.dev/article/df04fd3b [8] 如何让反馈真正被听见:用情商提升职场领导力 [视频] Renee St Jacques 认为,具备情商的领导方式可以把反馈从一种消耗信任的例行仪式,转化为连接、纠偏、培养和强化团队责任感的实用系统。 来源:TED https://www.bestblogs.dev/video/64a5390 [9] 重磅!Anthropic 内部 Skills 经验公开了! Anthropic 首次公开内部使用 Claude Code Skills 的完整经验,包括 9 类 Skills 的划分、编写原则、最佳实践以及团队分发与治理策略。 来源:Datawhale https://www.bestblogs.dev/article/eceaa686 [10] ChatGPT 将迎来史上最大改版,“AI 只用来聊天的时代结束了” OpenAI 计划将编程工具 Codex 整体并入 ChatGPT,将其重塑为能编写代码、管理日程、操控软件的超级应用,标志着 AI 从聊天工具向智能体平台的战略转型。 来源:腾讯科技 https://www.bestblogs.dev/article/4bd0ff49 --- http://BestBlogs.dev · 发现真正适合你的高质量内容 根据你感兴趣的来源和兴趣标签,每天为你生成一份专属的「我的早报」。立即体验:https://bestblogs.dev

译今日早报聚焦AI产品与工程前沿:iPod之父Tony Fadell提出创新依赖“知情直觉”而非数据,并总结“三代法则”;OpenAI内部用Codex全程零人工代码交付约100万行代码,合并1500个PR,效率为手写代码10倍;Thoughtworks专家梳理Coding Agent范式转移,指出Context Engineering是双向放大器,并强调Harness Engineering构建安全网;Anthropic首次公开内部Claude Code Skills经验;OpenAI计划将Codex并入ChatGPT打造超级应用。

Berryxia.AI@berryxia · 6月8日63

OpenAI刚刚发布了一个新的关于Codex应用场景的页面。 该页面基本上列出了各团队目前正在让编码代理执行的各项任务: 工程开发、产品开发、质量测试、安全检查、数据分析、内部工具的开发,甚至生命科学领域的工作流程。 其中一些非常有趣的例子包括: ⬩ 审查GitHub上的Pull Request并理解庞大的代码库结构 ⬩ 将截图或视觉资料转换为响应式用户界面 ⬩ 通过模拟真实用户操作流程来进行应用程序的质量测试 ⬩ 重构老旧代码、执行数据迁移操作并修复现有的安全漏洞 ⬩ 撰写产品需求文档、分析数据集、开发内部应用程序,以及为生命科学研究提供辅助支持 这些其实就是编码代理在不再仅用于演示用途、是真正成为日常工作中不可或缺的一部分后的实际应用场景。

译OpenAI 发布 Codex 应用场景新页面,展示各团队已委托编码代理执行的七大类任务:工程开发、产品开发、质量测试、安全检查、数据分析、内部工具及生命科学工作流程。具体案例包括审查 GitHub PR 并理解大型代码库、将截图转为响应式 UI、模拟真实用户操作进行 QA 测试、重构老旧代码与数据迁移、修复安全漏洞、撰写 PRD、分析数据集、开发内部应用及辅助生命科学研究。页面表明编码代理正从演示阶段融入日常工作。

宝玉@dotey · 6月8日36

Claude Code 虽然移动端可以 remote control,但是 plan 后不能 bypass permission,需要不停的确认,神烦

Rohan Paul@rohanpaul_ai · 6月8日66

New MIT study. Code volume surges by 300%, but output increases by only 30%: The AI dividend meets an awkward reality Autonomous AI coding agents raised commits by 180%, but releases rose only 30%. The paper’s main idea is that software production has weak links, so faster code writing does not help as much when humans still need to review, connect, test, package, and ship the work. The authors also check app marketplaces and find more new apps, but no increase in total usage, which means more software appeared without clear evidence that users adopted more software. The marketplace evidence points the same way: more new apps appeared, but total usage did not rise. The authors compare more than 100,000 GitHub developers before and after they start using 3 generations of AI coding tools, from autocomplete to more independent coding agents. Autocomplete raised commits by 40%, interactive coding agents raised them by 140%, and autonomous coding agents raised them by 180%. The 180% commit gain shrank to 50% for the number of projects and 30% for actual releases. The estimated "elasticity of substitution" is 0.25 i.e. for every big improvement in AI’s usefulness, only a small amount of human work can be replaced. Because AI can write code faster, but humans are still needed to decide what to build, check if the code works, connect it with the rest of the product, fix messy edge cases, and actually ship it. --- papers .ssrn.com/sol3/papers.cfm?abstract_id=6859839

译麻省理工新研究追踪超10万GitHub开发者使用三代AI编码工具(自动补全、交互式agent、自主agent)的生产漏斗。自主AI agent使代码提交数提升180%,但实际发布仅增30%。代码量激增近300%,经人工审核后收益降至150%,最终发布仅增约30%。研究估算替代弹性为0.25,即AI能力大幅提升时仅能替代少量人类工作。应用市场同样显示新应用数量增加,但总使用量未升。瓶颈在于人类仍需负责审查、测试、打包和发布等环节,AI加速的局部任务并未转化为同等产出增长。

jason@jxnlco · 6月8日14

This but “codex is for almost everything”

译但这……“Codex 几乎适用于一切”。

elvis@omarsar0 · 6月8日55

Super-powerful AI models will launch in the coming weeks. We are looking at a potential step change in model capabilities. The biggest mistake right now is to lock into one vendor. I say this not only from a cost perspective, but also from an engineering perspective. Start figuring out how to leverage combinations of these models (including open models). What that means is that you can swap models anytime and best leverage their strengths. For coding agents, open models are already just as good as the frontier ones. So, how to better prepare? Consider how you will be routing tasks/work to these models. AI model routing is high reward, and it should be part of your AI engineering efforts going forward.

译未来几周将有超强AI模型发布,模型能力可能迎来阶段性提升。DAIR.AI创始人Elvis Saravia认为,当前最大的错误是从成本或工程角度锁定单一供应商,建议开始利用模型组合(包括开源模型),保持“模型无关”,以便随时切换模型以发挥其各自优势。对于编程智能体,开源模型表现已媲美前沿模型。他建议将“AI模型路由”作为核心策略,高效分配任务/工作给不同模型,这是一项高回报的AI工程投入。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月9日
13:08
Tibo@thsottiaux
51
Codex推出了一种新的"大按钮"。在接下来的100天里,每天会选出一位用Codex做出令人印象深刻或极其有用工作的人,授予其10倍使用额度一个月,看看能做出什么。第一个获得者是@skirano,享受10倍,继续创造魔法。下一个是谁?

Tibo: I have a new kind of big button that I can press for Codex. Over the next 100 days, we will select one person per day wh...

OpenAI编码行业动态
11:09
宝玉@dotey
精选78
baoyu-design skill 支持导入 Design System 并在新建项目中使用

baoyu-design skill 现已支持导入 Design System,新建项目时可直接使用已导入的设计系统。功能保留了 Claude Design 原有的导入与编译方式,通过提问即可让用户选择已导入的 Design System。开发者表示实现过程比预期复杂,但效果不错。安装命令:npx skills add JimLiu/baoyu-design。另据 @dotey 介绍,该工具为本地运行的 Claude Design 风格工具,可描述屏幕生成 HTML,在预览中点击元素说出修改指令,最佳搭配 Opus 4.8。

宝玉: Cursor's new browser + element annotation turns it into a design studio. Meet Cursor Design 🎨 - Claude Design, running ...

开源/仓库开源生态编码
关联讨论 1 条X:宝玉 (@dotey)
推荐理由:宝玉把baoyu-design skill加上了Design System导入,现在用Cursor做前端页面可以直接挂设计规范,不用自己手搓变量了。比预期复杂但效果可以,做前端工具的可以试试。
10:43
meng shao@shao__meng
52
阶跃星辰 Step 3.7 Flash 完成真实 Coding Agent 任务:将 Agent Memory 痕迹生成本地 HTML 工具

开发者用 Step 3.7 Flash 测试真实 Coding Agent 任务:将已有 Local Agent Memory MVP 的运行痕迹(memory_events、structured_facts、memory_chunks 等 9 个场景测试数据)生成为单文件本地 HTML 工具 agent_memory_inspector.html。页面展示 8 条 memory events、9 条 structured facts、8 个 memory chunks、9/9 场景测试通过、敏感信息过滤前后对比、recall 命中内容及 retrieval 类型与分数、跨 session 记忆连续性。模型先读取现有代码和测试输出,检索 Letta、LangSmith 等工具展示方式后编写代码。测试环境:Cursor Agent + step-3.7-flash,本地 HTML 输出。

智能体编码评测/基准
10:17
ginobefun@hongming731
33
BestBlogsDev英文新号与Claude Code一周年进化

洪明为内容推荐平台BestBlogsDev开设英文新号,分享精选博客与创作者内容,个人号保留构建与开发思考。引用推文回顾Claude Code过去一年的演进:从简单的编码助手成长为由数千自主agent组成的网络,可协作测试、修复、部署代码,无需人类逐级指导。AI在12个月内完成了从工具到协作者再到系统级编排者的转变,被视为新工程范式的诞生。

BestBlogs: 1/ Claude Code: One Year Later A year ago, Claude Code was a humble coding assistant - helpful for small dev tasks. Toda...

智能体Anthropic现象/趋势编码
09:28
AYi@AYi_AInotes
精选77
FrontierCode 基准测试:AI 编程评估新标准--维护者审核通过率最高仅 13.4%

Cognition 发布 FrontierCode 基准测试,重新定义 AI 编程评估:由 20 多位顶级开源维护者手工制作 150 个任务(每个耗时 40+ 小时),依据 3000 多条规则判断维护者是否愿意合并代码。该基准指出 SWE-Bench 等超半数通过测试的代码实为不可维护的垃圾。结果中 Claude Opus 4.8 在最高难度档获 13.4%,GPT-5.5 为 6.3%,其余模型 1%–5%。这意味着即便最强模型,近九成代码仍无法通过有经验维护者审核。

Cognition: Introducing FrontierCode: a coding eval that raises the bar for difficulty & quality. Each task took 40+ hrs of work by ...

AnthropicOpenAI编码评测/基准
关联讨论 1 条Hacker News 热门(buzzing.cc 中文翻译)
推荐理由:Cognition 这个新基准把尺子从「代码能不能跑」换成了「维护者愿不愿意 merge」,直接戳破现有编码评测的泡沫。Opus 4.8 第一但只有 13.4%,真实世界的编程距离「能用」还有九成路要走,做 coding agent 的团队必读。
09:13
meng shao@shao__meng
68
Claude Code 上线一周年:演进与方法论回顾

Claude Code 负责人Boris Cherny与Cat Wu回顾一周年核心方法论:每次Claude犯错写入CLAUDE.md或Skill持久化规则而非口头纠正;Verification指agent亲自跑起来验证(如启动模拟器、computer use测试)。Auto Mode取代Plan Mode,用独立分类模型筛权限风险而非人工审批。Routines实现自动化运维(如监听GitHub bug自动提PR)。Context Minimalism主张最小system prompt和工具集。团队预判未来agent运行更久、成百上千并行,产品形态将巨变。

ClaudeDevs: Claude Code's first demo got two Slack reactions. One year after GA, @bcherny and @_catwu look back: verification best p...

智能体AnthropicMCP/工具大佬观点
09:13
meng shao@shao__meng
72
Cognition 推出 FrontierCode 代码评估基准:从可用到可合并

Cognition 发布 FrontierCode,含 150 个任务(来自 36 个开源仓库,每任务 40+ 小时),按难度分 Extended/Main/Diamond 三层。沿行为正确性、回归安全等六维度衡量 mergeability,指标为 Pass rate 与 Score。Diamond 子集最高分:Claude Opus 4.8 达 13.4%,GPT-5.5 为 6.3%,Gemini 3.1 Pro 4.7%;Main 子集 Opus 4.8 为 34.3%。开源最佳 Kimi K2.6 仅 3.8%。GPT-5.5 token 用量约为 Opus 四分之一,性价比更优。

Cognition: Introducing FrontierCode: a coding eval that raises the bar for difficulty & quality. Each task took 40+ hrs of work by ...

编码评测/基准
08:31
Claude@claudeai
63
最终站:东京。 快来注册,直接聆听 Claude 团队分享:http://claude.com/code-with-claude/tokyo

Claude: Code with Claude, our developer conference, returns next week. Whether you're just getting started with Claude Code or y...

Anthropic编码行业动态
08:16
ginobefun@hongming731
67
BestBlogs 早报 06-09:Claude Code 自主化、循环工程、阳萌访谈

本期早报聚焦AI编程从辅助到自主Agent的拐点。Anthropic复盘Claude Code一周年:Auto Mode用路由分类模型替代人工审批,通过Claude 4.6/4.7实现数千Agent动态协作。Boris Cherny提出“循环工程”——工程师应设计自动循环系统(定时自动化、并行工作树等5模块),并警示“认知投降”风险。安克创新CEO阳萌4小时访谈阐述从“浅海”到“深海”战略、第三类公司愿景及AI原生组织变革。

智能体Anthropic现象/趋势编码
08:03
Berryxia.AI@berryxia
74
Kimi Code升级:一行安装+视频上下文+插件系统

Kimi Code 开源 coding agent 迎来重大升级:一行 CLI 命令安装、零配置、秒启动;支持拖拽视频作为编码上下文,可参考视频生成 .cube LUT 文件或把屏幕录像转成可运行代码;插件系统上线,可一键拉取股票、财报、学术论文;支持 ACP 协议,对接 JetBrains、Zed,并提供自定义 hooks 扩展工作流。配合 Kimi K2.6 模型使用,视频推理能力大幅增强。

Kimi Developers: Kimi Code, our open-source coding agent, just got a major upgrade! 🔹One-line CLI install, zero setup, fast startup 🔹Dr...

智能体GitHub产品更新编码
07:26
eric zakariasson@ericzakariasson
69
以下是在 Cursor 中运行的 3 个循环 1. 不稳定测试清除器 /loop 运行测试套件 20 次,收集所有间歇性失败,修复或隔离不稳定测试,直到连续 5 次完全通过才停止。
教程/实践编码部署/工程
04:32
swyx@swyx
62
Cognition 推出 FrontierCode 编码评估基准,聚焦代码可维护性

Cognition 发布 FrontierCode 编码评估,每任务由顶级开源维护者花费 40+ 小时编写。METR 发现 SWEBench 超一半结果为不可合并的垃圾代码。FrontierCode 含 3000+ 评分标准,首次衡量代码是否可合并。最高难度 FC Diamond 上,Opus 4.8 仅得 13.8%。在 FC Extended 最易任务中,Opus 在 2025 年底 4 个月内从 41% 提升至 74%,标志 AI 编码进入"可维护代码"时代。

Cognition: Introducing FrontierCode: a coding eval that raises the bar for difficulty & quality. Each task took 40+ hrs of work by ...

智能体编码评测/基准
02:21
jason@jxnlco
40
如果你用 poke,可以看看我的自动化工具,用来跟踪 codex 的发布。 也许有一天你会在其中看到 @interaction 被提及。 http://poke.com/r/7ZaRDldAw3s
OpenAI开源/仓库编码
01:51
jason@jxnlco
18
Codex和Computer Use非常强大
智能体OpenAI大佬观点编码
01:49
OpenAI Developers@OpenAIDevs
53
OpenAI Developers 五月更新:Codex 新增移动端持续运行、Mac 后台、电脑使用、Chrome 插件等,Realtime API 推出 Realtime-2

OpenAI Developers 五月发布多项更新:Codex 用户突破 500 万;新增 ChatGPT 移动端持续运行、Mac 后台运行、跨 Mac 应用电脑使用、Chrome 插件支持网页测试与 DevTools;⌘+⌘ 快捷键截图直达 Codex;Windows 版也支持电脑使用。Realtime API 推出新模型 Realtime-2,用于语音智能体、实时翻译与转录,并提供提示词指南。Agents SDK 新增 TypeScript 支持、沙箱智能体和开源 harness。私有 MCP 服务器可通过 HTTPS 连接 OpenAI 产品。

智能体OpenAI产品更新编码
01:49
Boris Cherny@bcherny
65
Claude Code GA一周年之际,Anthropic工程师Boris Cherny与@_catwu回顾产品演进。此前内部首次演示时在Slack上引发两种截然不同的反应。Cherny分享了他为何偏好auto mode而非plan mode,routines如何在bug出现前自动修复,以及他如今大部分编码都在手机上完成。视频访谈还探讨了Claude Code的未来方向。

ClaudeDevs: Claude Code's first demo got two Slack reactions. One year after GA, @bcherny and @_catwu look back: verification best p...

智能体Anthropic大佬观点编码
01:42
Yuchen Jin@Yuchenj_UW
57
总体来说: "你不应该再提示编码智能体了。你应该设计循环来提示你的智能体。" 循环是临时解决方案:如今的大语言模型判断力很差。它们难以判断何时继续、何时停止或何时调用工具。循环强制智能体更长时间地工作。 对于目前可验证的目标,循环非常强大,正如AutoResearch所示。
智能体大佬观点编码
01:17
ClaudeDevs@ClaudeDevs
精选74
Claude Code 的第一个演示收到了两个 Slack 反应。 GA 一周年之际,@bcherny 和 @_catwu 回顾:验证最佳实践、为何构建自动模式、例程和循环,以及下一步计划。 https://www.youtube.com/watch?v=Hth_tLaC2j8
智能体Anthropic教程/实践编码

推荐理由:Claude Code 一周年复盘,两位核心开发者把 auto mode 和 verification 的设计逻辑讲透了,比任何第三方教程都值得认真看。
00:20
jason@jxnlco
17
你在Codex中除了代码还创建了哪些工件?
OpenAI其他编码
6月8日
23:20
jason@jxnlco
57
Codex 现在可以为你自主启动新的聊天,并显示在侧边栏中--当你正在处理另一项任务时发现一个问题,这个功能非常方便。此外,它还可以进行任务交接。

Rhys: holy shit - codex can start its own chats for you and they show up in your sidebar this is so nice for when you find an ...

OpenAI产品更新编码
23:12
Chubby♨️@kimmonismus
精选78
Hivemind推出面向AI编程智能体的持续学习功能,即日起开放

Hivemind发布面向AI编程智能体的持续学习功能,即日起开放。该工具收集团队运行的每个智能体(Claude Code、Codex、Cursor、Hermes、Pi)的轨迹,转化为可复用技能并推送到所有智能体,数据存储在用户自己的云存储中。内置SkillOpt使技能持续训练:Claude Code准确率提升+19.1分,Codex提升+24.8分,在全部52个测试设置中最佳或持平。开源,一行命令安装。

Davit: Coding agents that actually get better the more your team uses them. Introducing Hivemind: continual learning for AI cod...

智能体开源/仓库编码

推荐理由:Hivemind 让 Claude Code、Cursor 等不同 AI 编码助手互相学习,团队用得越多代理越准,开源一行安装,做工程管理的值得立刻试试。
22:14
elvis@omarsar0
53
关键在于,你应该开始实施在自动化中编码带有明确目标的指令/提示词的方法。 这并不是什么新鲜事,但较新的大语言模型正在被训练以更长时间不间断地执行。循环就是利用这一点的一种方式。

Peter Steinberger 🦞: Here's your monthly reminder that you shouldn't be prompting coding agents anymore. You should be designing loops that p...

智能体大佬观点编码
21:27
AYi@AYi_AInotes
24
用户自建本地视频剪辑工具生成吉卜力风格口播视频

剪映翻译效果不佳,作者尝试自建了一个本地视频剪辑应用,主要功能为视频翻译和字幕。近日测试了根据文档自动生成口播视频的功能,并输出了一段吉卜力动漫风格的视频。作者表示后续将迭代增加动画效果,可用于微信视频号内容创作。

教程/实践编码视频
21:18
OpenCode@opencode
55
OpenCode Go 订阅用户突破 10 万 现每日处理 1.5 万亿 tokens
编码行业动态
18:10
Alibaba Cloud@alibaba_cloud
同事件精选77
🔥 Qwen3.7-Plus 发布特惠:现在享受八折! ✅ 多模态交互式智能体 ✅ 编程与生产力助手 ✅ 视觉智能体 ✅ 跨任务泛化 不要错过升级机会。👇 https://int.alibabacloud.com/m/1000414123/ #Qwen #AI #Multimodal #AlibabaCloud #AgenticAI
智能体多模态模型发布编码
同一事件,精选展示《Qwen3.7-Plus:多模态智能体模型发布》
推荐理由:Qwen3.7-Plus 把多模态交互和视觉代理整合得挺顺,对做 AI 工程化落地的团队来说是个务实选项,新发布折扣让试错成本更低,值得用起来看看。
10:04
小互@xiaohu
71
Claude 写 Anthropic 超 80% 代码

Claude 现在写了 Anthropic 大部分代码 截至 2026 年 5 月,合并进 Anthropic 代码库的代码里,超过 80% 是 Claude 写的。 而在 2025 年 2 月 Claude Code 发布前,这个比例还只有个位数...

小互: http://x.com/i/article/2063076298592051200

Anthropic编码行业动态
09:49
jason@jxnlco
15
cowork 有哪些你希望 codex 也有的功能?反之亦然?
OpenAI其他编码
09:46
Boris Cherny@bcherny
57
Claude Opus 长时间运行工作最佳模型及自主运行技巧

多项基准显示 Claude Opus 是长时间运行工作的最佳模型。SWE-Marathon 基准评估编码智能体在 10 亿 token 预算下自主完成长期软件任务(如重写 JAX 代码为 PyTorch、用 Rust 构建 C 编译器)。Opus 在此类任务上领先。Boris Cherny 给出 5 个技巧:使用自动权限模式避免审批;用动态工作流协调数百/数千个智能体;用 /goal 或 /loop 推动持续执行;在云端使用 Claude Code(桌面/移动端)以便关闭笔记本;确保 Claude 能端到端自验证——Chrome 扩展验证网页、iOS/Android 模拟 MCP、启动完整后端服务。

Rishi Desai: Can coding agents stay coherent over a 1 billion token budget? Can they build Slack from scratch? Rewrite a JAX codebase...

智能体AnthropicMCP/工具教程/实践
09:37
meng shao@shao__meng
64
AGENTS.md 在 Coding Agents 中真的有用吗?

论文大规模实证检验 AGENTS.md 等仓库级上下文文件对编码 Agent 的影响。在 SWE-bench Lite(300 任务)和新建 AGENTBENCH(138 任务)上测试 Claude Code、Codex、Qwen Code 等组合。核心发现:LLM 自动生成的 context file 在 8 组设置中 5 组成功率下降,平均 -0.5%(SWE-bench)/-2%(AGENTBENCH),成本增加 +20%+;开发者手写仅平均 +4%。冗余假说:移除其他文档后,自动生成反而 +2.7%。建议避免自动生成,精简测试/lint 命令,优先写入仓库专用工具。

Sebastian Raschka: http://x.com/i/article/2063647807437705216

智能体arXiv编码论文/研究
09:07
meng shao@shao__meng
59
不写 Prompt,写 Loops - Boris Cherny 谈 AI 编程范式转变

Anthropic Claude Code 负责人 Boris Cherny 表示,他不再手动写提示词,而是编写 Loops 让 AI 自主决策和解决问题。伴随 Claude Opus 4.8 和 GPT-5.5 等高智能模型出现,手把手写 Prompt 的模式将被取代。但 Loops 方案消耗 Token 过快,一个 Goals 可能耗尽 5 小时用量,企业仍需严格审查 Token 消耗的 ROI,因此实践中会通过前置的 Spec、AGENTS.md 等约束让 AI 做确定性可控的部分。Boris 预测这一转变将在今年剩余时间持续。

Rohan Paul: "I don't prompt Claude anymore. I have loops running that prompt Claude and figuring out what to do. My job is to write ...

智能体Anthropic大佬观点编码
09:07
meng shao@shao__meng
44
你现在在用哪个 Coding Agent? Warp团队 @BHolmesDev 进行的调查得到了 2095 个投票,其中 Codex App 占到 51.1%、Warp CLI 占到 30.9%、Claude App 7.4% 没错,Claude App 只有 7.4%,因为投票中没有包含 Claude Code 😄

Ben Holmes: How do you use coding agents right now?

智能体现象/趋势编码
08:33
宝玉@dotey
56
谈"选HTML不选React"--宝玉的反对观点

宝玉不认同“选HTML而非React”的观点。首先,设计稿需要动态数据交互,HTML难以胜任,而Claude Design是UX交互工具。其次,复杂UI必须拆分为小组件,React能实现重用与低上下文修改,大型HTML则维护困难。再者,React天然形成结构化树形设计,方便coding agent开发,HTML结构割裂、难以与设计映射。至于文章说模型注意力需放在React运行准确率上,宝玉认为当前大模型能力已使此问题不复存在。

向阳乔木: http://x.com/i/article/2063275048157458432

大佬观点编码
08:28
Sam Altman@sama
24
Codex 推出了一个新的"大按钮"。在接下来的 100 天里,每天会选出一位用 Codex 做出了令人印象深刻或极其有用工作的人,给他们一个月的 10 倍使用限额,看看他们能做出什么。明天开始第一个。Sam Altman 评论称"这里可能有个有趣的递归循环"。

Tibo: I have a new kind of big button that I can press for Codex. Over the next 100 days, we will select one person per day wh...

OpenAI大佬观点编码
08:11
ginobefun@hongming731
61
BestBlogs早报:iPod之父、Codex、Coding Agent

BestBlogs早报06-08聚焦三篇AI工程实践精讲:iPod之父Tony Fadell系统阐述“知情直觉”与“三代法则”,警告AI时代的“认知投降”和“快时尚软件”;OpenAI工程团队分享使用Codex

智能体OpenAI现象/趋势编码
08:11
ginobefun@hongming731
63
早报:Tony Fadell谈"知情直觉";OpenAI用Codex零人工写百万行代码;Coding Agent范式转移

今日早报聚焦AI产品与工程前沿:iPod之父Tony Fadell提出创新依赖“知情直觉”而非数据,并总结“三代法则”;OpenAI内部用Codex全程零人工代码交付约100万行代码,合并1500个PR,效率为手写代码10倍;Thoughtworks专家梳理Coding Agent范式转移,指出Context Engineering是双向放大器,并强调Harness Engineering构建安全网;Anthropic首次公开内部Claude Code Skills经验;OpenAI计划将Codex并入ChatGPT打造超级应用。

ginobefun: http://x.com/i/article/2063761613795270656

智能体AnthropicOpenAI编码
07:59
Berryxia.AI@berryxia
63
OpenAI 发布 Codex 应用场景新页面,列出七大领域委托任务

OpenAI 发布 Codex 应用场景新页面,展示各团队已委托编码代理执行的七大类任务:工程开发、产品开发、质量测试、安全检查、数据分析、内部工具及生命科学工作流程。具体案例包括审查 GitHub PR 并理解大型代码库、将截图转为响应式 UI、模拟真实用户操作进行 QA 测试、重构老旧代码与数据迁移、修复安全漏洞、撰写 PRD、分析数据集、开发内部应用及辅助生命科学研究。页面表明编码代理正从演示阶段融入日常工作。

Mark Kretschmann: OpenAI just published a new Codex use-case page, and it's basically a catalog of what teams are already handing over to ...

智能体OpenAI产品更新编码
07:31
宝玉@dotey
36
Claude Code 虽然移动端可以 remote control,但是 plan 后不能 bypass permission,需要不停的确认,神烦
Anthropic大佬观点编码
07:08
Rohan Paul@rohanpaul_ai
66
MIT研究追踪超10万GitHub开发者:AI编码工具使代码量增300%,但发布仅增30%

麻省理工新研究追踪超10万GitHub开发者使用三代AI编码工具(自动补全、交互式agent、自主agent)的生产漏斗。自主AI agent使代码提交数提升180%,但实际发布仅增30%。代码量激增近300%,经人工审核后收益降至150%,最终发布仅增约30%。研究估算替代弹性为0.25,即AI能力大幅提升时仅能替代少量人类工作。应用市场同样显示新应用数量增加,但总使用量未升。瓶颈在于人类仍需负责审查、测试、打包和发布等环节,AI加速的局部任务并未转化为同等产出增长。

Rohan Paul: FT publisehd a piece. AI is raising software supply faster than demand. AI is producing far more work inside companies, ...

GitHub编码论文/研究
06:48
jason@jxnlco
14
但这……"Codex 几乎适用于一切"。
OpenAI大佬观点编码
06:37
elvis@omarsar0
55
超强AI模型即将发布:避免锁定单一供应商

未来几周将有超强AI模型发布,模型能力可能迎来阶段性提升。DAIR.AI创始人Elvis Saravia认为,当前最大的错误是从成本或工程角度锁定单一供应商,建议开始利用模型组合(包括开源模型),保持“模型无关”,以便随时切换模型以发挥其各自优势。对于编程智能体,开源模型表现已媲美前沿模型。他建议将“AI模型路由”作为核心策略,高效分配任务/工作给不同模型,这是一项高回报的AI工程投入。

智能体大佬观点编码
‹ 上一页
1…1516171819…50
下一页 ›