Someone just casually vibe-coded a World of Warcraft-style multiplayer game that works online with friends. Fully open source. And apparently, Claude Fable found a visually matching set of open-source assets on its own. Ngl, that’s pretty insane.

译有人刚刚随意地vibe-coded了一个魔兽世界风格的多人在线游戏，可以和朋友们一起在线玩。完全开源。显然，Claude Fable自己找到了一套视觉上匹配的开源素材。说实话，这相当疯狂。

Chubby♨️@kimmonismus · 6月12日68

This is so awesome! OpenAI is now letting Codex users save their rate limit resets and use them later, starting with one free saved reset for Go, Plus, Pro, and Business users.

译太棒了！ OpenAI 现在允许 Codex 用户保存他们的速率限制重置，稍后使用，Start 从 Go、Plus、Pro 和 Business 用户开始免费赠送一次保存重置。

Alibaba Cloud@alibaba_cloud · 6月12日84

One prompt. Infinite possibilities. Meet Qwen3.7‑Max, the flagship model redefining agentic workloads that excels in frontend coding, generating rich, interactive web experiences from a single prompt, from Three.js 3D scenes to dynamic SVG graphics. Try Qwen3.7-Max — 50% Off for a Limited Time 🔗: https://int.alibabacloud.com/m/1000414100/ 🎥 Watch the video to see how Qwen3.7-Max transforms productivity.

译一个提示词，无限可能。认识 Qwen3.7‑Max，旗舰模型重新定义智能体工作负载，在前端编码中表现出色，能从单个提示词生成丰富的交互式网页体验——从 Three.js 3D 场景到动态 SVG 图形。立即体验 Qwen3.7-Max — 限时五折优惠 🔗: https://int.alibabacloud.com/m/1000414100/ 🎥 观看视频，了解 Qwen3.7-Max 如何提升生产力。

Artificial Analysis@ArtificialAnlys · 6月12日60

We've updated the Artificial Analysis Coding Agent Index, replacing SWE-Bench Pro with Datacurve's DeepSWE benchmark - the swap lifts Codex with GPT-5.5 (xhigh) above Claude Code with Opus 4.8 (max), while the newly released Claude Fable 5 (max) in Claude Code debuts at the top DeepSWE, built by @datacurve, writes its tasks from scratch rather than adapting them from public GitHub issues or pull requests, so no model has seen the solutions during training. That matters because SWE-Bench Pro, the benchmark it replaces in our Coding Agent Index, had grown gameable, with some models recovering the fix from the repository's commit history instead of solving the task. The swap reorders the index: Codex with GPT-5.5 (xhigh) rises from 65 to 76, overtaking Claude Code with Opus 4.8 (max) at 73. Claude Code with Fable 5 (max), which enters directly on the refreshed index, leads at 77. SWE-Bench Pro had been flattering some combinations and penalizing others. More below.

译Artificial Analysis 更新 Coding Agent Index，以 Datacurve 的 DeepSWE 基准取代 SWE-Bench Pro。DeepSWE 从头编写测试任务，而非改编自公开 GitHub issue/PR，避免训练数据泄露；原 SWE-Bench Pro 存在模型从仓库提交历史恢复修复的作弊问题。换基准后排名变动：Codex with GPT-5.5 (xhigh) 从 65 升至 76，超过 Claude Code with Opus 4.8 (max) 的 73；新发布的 Claude Code with Fable 5 (max) 以 77 分直接登顶。

Alibaba Cloud@alibaba_cloud · 6月12日66

🚀 Taming Agent Chaos? Paper reveals NLAH: Replace rigid code harnesses with executable natural language. ✅ Performance matches code, tokens drop 95% (60k→2.9k) ✅ Modular design enables precise value attribution ✅ Identifies "negative assets" like multi-candidate search Shift from glue code to scientific strategy. 💡https://int.alibabacloud.com/m/1000414388/ #AgentHarness #NLAH #LLMEngineering

译🚀 驯服智能体混乱？论文揭示NLAH：用可执行自然语言替代僵硬的代码框架。 ✅ 性能媲美代码，模型token降低95%（60k→2.9k） ✅ 模块化设计实现精确的价值归因 ✅ 识别“负面资产”，如多候选搜索从胶水代码转向科学策略。 💡https://int.alibabacloud.com/m/1000414388/ #AgentHarness #NLAH #LLMEngineering

karminski-牙医@karminski3 · 6月12日64

我现在的体感是，模型能力到底强不强(仅讨论编程)，会极度体现在代码直觉上，而这部分是最难训练的。这是海量的开发经验堆出来的。比如我这个bug, 生成的路网是断裂的, GPT-5.5-pro-xhigh都修不好. 但其实问题很简单, 我跟他说路网断裂, 他就觉得, 你矩形地块就是4条边, 对应4个tile, 然后4个角再来4个tile, 完事了, 怎么会断裂呢? 而实际上每条边需要用2个tile才能填充完毕, 这种"每条边一个tile"的固有直觉, 直到你发现之前, 你让它修, 是怎么都修不好的, 多模态模型截图打他脸也没用(强烈怀疑向量空间映射到一起了). 只能靠你自己发现问题的根源, 并反推模型在哪里出现了问题. 我这个case断断续续修了4小时了, 直到我意识到了, 我得自己下场了, 于是让它给每个tile编上ID，然后直接问他, 你觉得这两个tile之间可以容纳几个tile. 立刻露馅了, 他就觉得填充一个tile就ok了... 修复过程立刻就变得极其弱智, 告诉它应用规则, 每个tile对应几个单位长度. 然后计算填充就完事了... 而现在有一个模型, 上来就不会犯这个错误. 然后又有一个模型, 虽然会犯错误, 但是迭代几次修好了, 最后就是怎么都修不好. 大家会觉得哪个模型能力强?

译作者认为模型编程能力取决于“代码直觉”，由海量开发经验堆出，极难训练。他以路网断裂bug为例：GPT-5.5-pro-xhigh错误认为矩形每条边只需1个tile，实际需2个tile，多模态截图也无法纠正。作者费4小时，让模型给tile编ID并质问“两个tile之间能容纳几个tile”才暴露缺陷，随后告知每个tile对应单位长度并应用规则，修复变简单。不同模型表现：有的开始不犯错，有的迭代修复，有的怎么都修不好。

向阳乔木@vista8 · 6月12日76

Fable 5 开发在线Photoshop，就是用这个生成需求文档。 P0需求点的开发效果。

译Vista 编写了 AI 专用 PRD 文档生成 Prompt，先用它生成文档再交给 AI 开发，以提升功能完整度。Fable 5 项目开发在线 Photoshop 正是使用此方法。安装指令：`npx skills add joeseesun/qiaomu-ai-prd`，开源地址和 Prompt 见评论。

jason@jxnlco · 6月12日62

Silicon Valley Halloween couple costume is going to be Tibo and the reset button.

译OpenAI 宣布即日起，用户可将 Codex 速率限制重置保存至稍后使用。Go、Plus、Pro 及 Business 用户将获得一次免费重置。对此，Jason Liu 调侃道：硅谷万圣节情侣装将是 Tibo 和重置按钮。

Berryxia.AI@berryxia · 6月12日49

中转站的哥哥们大喜~~~

译Codex Plus 和 Pro 用户可在未来两周内邀请最多三位朋友试用。被邀请人发送第一条 Codex 消息后，双方各获一次额度重置。限制：不可邀请自己、被邀请人过去 2 个月未使用过 Codex、且未持有有效邀请。

Berryxia.AI@berryxia · 6月12日54

Codex 模型没有新模型发布，但是玩法高出新花样。可以邀请好友给你重置一次额度。这不妥妥的利好中转站和俄罗斯套娃拉~

ginobefun@hongming731 · 6月12日58

http://x.com/i/article/2065232915970371585 # BestBlogs 早报 · 06-12｜智能体解耦、Harness 工程化、脚手架被吞在线阅读本期早报 ## 导语智能体工程化正在从两端同时收紧。一端是 Anthropic：用 Claude Managed Agents 把推理与执行彻底解耦，靠可恢复的事件日志和独立 Vault 撑起企业级落地，首字延迟中位数已经大幅下降，Notion、Sentry、Rakuten 等公司的生产环境已经跑通。另一端是一位阿里工程师：用三层加载架构、dispatcher 状态机和 G1-G8 门禁，治好了 CLAUDE.md「规则越堆越多、AI 越读越懵」的老毛病，给出了一套「用结构约束 AI，而不是用更多字约束 AI」的可复用模式。再往远看，Sequoia Capital 对 Google AI Studio 与 Gemini API 负责人的一场访谈提了一个更让人不安的趋势：模型正在把外层脚手架一口口吃掉——路由、执行环境这类原本要靠工程团队搭的能力，正逐渐被基础模型自己吸收，留给独立创业公司的窗口正在变窄。今天的速览部分同样值得关注：从"决策-执行-交付三明治"模型看 AI 为什么不会取代软件工程师，到阿里云用声明式 CRD 把多智能体协作模型化的 AgentTeams 实践，再到端侧大模型靠 Arm SME2 指令集实现 Prefill 提速 80% 的工程细节，以及一位 4 人团队靠 Agent 协作平台冲上 GitHub Trending 的真实运转记录——这些案例和今天的三篇精讲互为印证：工程化的红利正在向「会搭框架、会用工具」的团队和个人集中。 ## 精讲一：智能体交互界面的演进：使用 Claude Managed Agents 进行构建 | Claude 背景：从「一问一答」到「全程托管」 2023 年 Anthropic 开放 Claude API 的时候，接口设计非常朴素：token 进、token 出，一次请求对应一次模型轮次，剩下的事全部交给开发者自己处理。这套契约支撑了文档摘要、工单分类、文本改写这类「单轮搞定」的工作，但很快就不够用了——用户希望 Claude 能把一个任务从头跟到尾：去查一些东西、基于结果采取行动、观察发生了什么变化、再决定下一步做什么，而且要能直接在代码库、内部 Wiki、工单系统这些「真实战场」里操作。要把 Claude 变成这样的智能体，开发者过去必须自己搭一套循环：问模型该做什么、执行工具调用、把结果喂回去、再循环一遍。Anthropic 在 2025 年推出的 Claude Code 内置了这样一套经过打磨的 harness（智能体执行框架），随后开放成 Claude Agent SDK，让开发者可以在同一套机器之上构建自己的智能体，而不必维护一套自研循环。关键事实：把「大脑」和「双手」彻底拆开即便有了 SDK，把智能体真正推向生产环境依然困难重重：智能体的代码要在哪里跑、会话历史和进度存在哪里、运行中断后能不能干净地恢复、出了问题的「爆炸半径」有多大、凭证怎么给而不暴露给生成的代码、自主运行一小时之后能不能复盘每一步。这些问题的根源往往是同一个架构选择——智能体的 harness 和它操作的文件系统跑在同一个容器里：容器要先启动才能让 Claude 开始思考（付出启动成本），代码执行紧贴着凭证，容器一旦挂掉整次运行就跟着没了。 Claude Managed Agents 的解法是把「调用 Claude 的 harness」和「代码真正执行的沙箱」彻底拆开，中间用一份可追加的事件日志（session）连接两端——记录每一次模型调用、工具调用和结果。这意味着 Claude 可以在沙箱还没创建出来之前就开始推理，沙箱本身离凭证很远，而整次运行随时都可以从事件日志中重建出来。围绕这套架构，Managed Agents 由三类资源组成：agent（模型 + 提示词 + 工具 + 护栏的配置）、environment（沙箱容器、网络规则和预装包，可以跑在 Anthropic 云上也可以跑在企业自己的基础设施上）、session（每次运行，把一个 agent 和一个 environment 配对，拥有自己独立的沙箱实例）。凭证管理是另一处关键设计：MCP、CLI、GitHub 仓库等工具的 token 统一存进独立的 Vault，用信封加密保护，检索时需要一份经签名验证的请求 token，代码本身永远拿不到这些凭证——即便 prompt injection 想诱导模型读取自己的运行环境，也读不到任何敏感信息。在性能层面，由于 Claude 可以在环境并行启动的同时立即开始推理，从不调用工具的会话甚至可以完全跳过容器，实测下来首字延迟中位数（p50）降低了约六成，最慢的长尾情况（p95）降低超过九成。为什么重要：基础设施差异正在被「抹平」这篇文章最值得关注的一点，是它把「智能体工程」里最耗时的部分——安全、状态管理、权限、harness 调优——明确定义为「不构成产品差异化」的通用基础设施。当 harness 没能跟上模型智能的进化，智能体就会出问题：在 Claude Sonnet 4.5 上，模型会在上下文快用完时匆忙收尾、提前打住工作，团队为此专门给 harness 加了「上下文重置」机制；但到了 Claude Opus 4.5，这个行为消失了，之前加的重置反而变成了纯粹的开销。这说明 harness 调优本身是一种会随着模型迭代而过期的「沉没成本」，与其反复自己调，不如把这部分托管出去，把精力放在「上下文管理和领域专长」这些真正能拉开差距的地方。与今日其他报道的关系这篇文章和今天另外两篇精讲构成了一个完整的叙事闭环：Anthropic 用 Managed Agents 把通用 harness 能力产品化、托管化，恰好对应阿里工程师在精讲二里复盘的「自建 harness」的另一种路径——一个是把基础设施外包给平台，一个是自己动手搭三层加载架构；而 Logan Kilpatrick 在精讲三里提出的「模型吞掉脚手架」趋势，则提示无论是托管方案还是自建框架，都需要持续关注哪些能力会被模型本身吸收。Notion、Sentry、Rakuten 等公司的落地案例，也呼应了速览中阿里云 AgentTeams 把多智能体「组织化」的思路——基础设施成熟之后，下一个竞争点是「怎么把 Agent 团队真正用起来」。阅读建议如果你正在评估是否要自建智能体 harness，这篇文章值得通读全文，重点看「凭证管理」和「会话持久化」两部分的具体设计——这两点往往是自建方案里最容易留坑的地方。完整内容见 BestBlogs 阅读原文。 ## 精讲二：AI 不缺智商缺纪律：一场 Harness 工程化实践背景：CLAUDE.md 越写越厚，AI 反而越读越懵一位阿里工程师分享了他过去两个月用 AI 编码时踩过的一个典型坑：一开始他用一个不断膨胀的 CLAUDE.md 解决 AI「不守纪律」的问题——先写单测、部署前评审、提交前合并主分支，所有规矩都往里堆。这套做法管用了三天，然后问题以更严重的形式回来了：规则多到把上下文「撑爆」，模型读完所有规则之后已经没有「脑容量」去读代码，于是开始遗忘、串味、自我矛盾。他由此得出一个核心判断：对付 AI 的不确定性，堆 prompt 是负债，搭框架（harness）才是资产。关键事实：三层加载架构 + dispatcher 状态机 + G1-G8 门禁文章的核心是一套三层加载模型，设计思想可以浓缩成一句话：把上下文当预算管理，而不是当免费的草稿纸。常驻入口层（CLAUDE.md + CLAUDE.local.md）只放角色定义、代码偏好、流程触发规则和门禁速查表，把主会话的常驻上下文压到 8K 以内；原子规则层（rules/）每条规则单一职责，本质是把踩过的坑固化成强制约束——「每条规则都是一次事故的墓志铭」；按需上下文层（context/）存放完整流程详情、Pre-Mortem 模板、TDD/ATDD 指南等深度内容，只在进入对应阶段时才被读取，用完即释放。更关键的是角色 Agent 层：一个 dispatcher 读取 state.json 和 workflow.yaml，决定下一步该调用哪个 agent，自己只管路由不管业务；orchestrator 负责合成三角色（业务、技术、质量）评审的观点并向用户确认；developer、verifier、deployer、tester 各管一段，从方案到验收一步一岗。主会话被刻意「降级」成一个只听 dispatcher 指令的纯执行器——这个设计反直觉，因为我们本能地想让主模型更全能，但全能恰恰是污染之源。贯穿全文的还有一条 19 节点的标准研发链路，按 intent（意图）× risk（风险）动态裁剪——一次简单的 BUG_FIX/LOW 任务只需要检查 5 个节点，而 FEATURE/HIGH 任务要走满 19 个节点，外加一条硬规则：只要检测到真实业务代码改动，部署预发和接口测试自动成为必需节点，堵死「改了代码、没验证就收工」的漏洞。为了回答「改完 harness 到底是变好还是变坏」这个问题，作者还搭了一套确定性评分平台：100% Python 逻辑、零 LLM 调用、3 次跑分 hash 完全一致，从 7 个维度（参考了 SWE-bench、AgentBench、Anthropic Eval Guide、CMMI 等方法论）给每次执行打分，权重最高的两个维度是流程完整性（22%）和代码正确性（22%）——前者靠「产物文件在不在」而不是「模型说做了」来判断，后者用真编译、真单测来防止 AI 自我汇报和实际结果之间出现「诚实度差距」。为什么重要：从「堆 prompt」到「做框架」的范式转移这篇文章给出的核心论点，是 AI Coding 的瓶颈正从「模型能力」转移到「流程工程」——模型已经足够聪明，但不稳定，而稳定性必须由外部框架供给。文章引用了多项研究支撑这个判断：Stanford 的「Lost in the Middle」研究表明 LLM 注意力呈 U 型分布，中部信息准确率显著下降；另一项研究（arxiv 2605.29682）发现原始 token 消耗和工具调用只能解释 agent 成功率方差的 R²=0.33~0.42，而验证反馈质量能达到 R²=0.94~0.99——也就是说，决定 AI 干活靠不靠谱的不是「给它多少预算」，而是「检查做得多好」。这也是为什么作者坚持用确定性评分而非 LLM 评委：宁要可复现的「粗糙分」，不要会漂移的「精准分」。与今日其他报道的关系这篇文章和精讲一形成了有趣的对照：Anthropic 把 harness 能力做成了托管产品，而这位工程师选择自己动手，用 dispatcher + 文件交接的方式搭了一套轻量级的「控制平面」。两者殊途同归的地方在于：都把「流程纪律」从模型推理中外置成确定性的基础设施——一个靠平台层的事件日志和 Vault，一个靠文件系统的状态持久化和 G1-G8 门禁。文章里提到的「fail-closed（默认拒绝，只放行显式允许的操作）」原则，也是精讲三里 Logan Kilpatrick 讨论的「脚手架」最终会沉淀成什么形态的一种答案：当模型还不能自我保证流程纪律时，这类外置约束就是当下最稳的解法。阅读建议如果你正在用 AI 做长周期、跨多个阶段的开发任务，这篇文章里的三层加载架构和 19 节点裁剪规则可以直接拿来参考；如果你更关心「怎么验证一次 harness 改动到底有没有用」，重点看第四部分的 7 维评分体系设计。完整内容见 BestBlogs 阅读原文。 ## 精讲三：Google DeepMind 的 Logan Kilpatrick：为什么模型会吞掉智能体脚手架背景：Google 智能体生态的「重新打地基」在 Sequoia Capital 主持的这场访谈中，Google AI Studio 和 Gemini API 负责人 Logan Kilpatrick 谈到了 Google 产品生态正在经历的一次范式转变。过去 Google 旗下的各类产品之间缺乏统一的主线，Gemini API 的出现提供了一层共享的基础智能层，而当前的演进则聚焦于通过一套被称为 anti-gravity agent harness 的智能体框架进行深度架构整合——这套框架横跨核心 IDE 功能、Web 界面、CLI 和 SDK 能力，把消费级和开发者工具统一改造成能够自主执行长周期任务的智能体原生环境。关键事实：Gemini 3.5 Flash 的提升全部来自后训练，模型在「吃」周边脚手架 Logan 特别提到，智能体执行最强的落脚点是软件工程领域。在讨论模型训练路径时，他强调 Gemini 3.5 Flash 在编程任务上观察到的性能跃升完全来自后训练增益——这让一个体量更小的模型在编程任务上反超了此前的 Pro 版本。同时，Google 内部的深度「自用」（dogfooding）也大幅压缩了产品迭代周期，让工程团队能比传统开发流程更快地构建和上线复杂的桌面与移动端原生工具。更值得关注的是「世界模型」架构的演进——以 Omni 这样的系统为代表，行业正从「文本、音频、图像、视频分别建一条独立流水线」转向「统一的单一模型结构」，能够同时解释多模态序列，并在编辑操作中展现出对场景的整体理解：调整环境的同时保持历史上下文和核心主体的一致性。Logan 给出的一个核心趋势是：应用层的一个普遍现象是基础模型在系统性地「吞掉」周边基础设施——曾经作为外部平台脚手架搭建的工程能力（比如路由机制、执行环境封装），正逐渐被上移并整合进模型自身的核心逻辑中。为什么重要：独立公司的生存空间在收窄对于独立创业公司和软件初创团队而言，Logan 给出的结论并不轻松：长期生存将高度依赖于在特定垂直领域内的深度专精，只有这种独特的市场聚焦才能在某些场景下跑赢通用化的消费级系统。换句话说，「在模型外面搭一层路由 / 编排 / 执行环境」这件事本身的护城河正在变薄——基础模型每完成一次后训练迭代，就可能把昨天还需要专门团队维护的脚手架变成今天的「免费午餐」。与今日其他报道的关系这篇访谈给今天的另外两篇精讲提供了一个更长远的视角。精讲一里 Claude Managed Agents 把 harness 做成托管基础设施、精讲二里那位工程师辛苦搭出的三层加载架构和 G1-G8 门禁——这些工程投入的价值会随着模型本身「吃掉脚手架」的速度而发生变化。但这并不意味着这些投入是徒劳的：恰恰相反，越是「过程可观测、可固化成规则」的工程能力，越有可能被模型吸收为原生能力，而那些依赖深度领域知识、无法简单规则化的部分，反而会成为 Logan 所说的「垂直专精」的真正壁垒。这也是为什么精讲二的作者特别强调「这套模式的价值会随模型进化而衰减，当模型强到能自我保证流程纪律的那天，harness 就该功成身退」——两篇文章在不同立场上得出了相似的判断。阅读建议如果你在思考公司或团队的技术护城河，这段访谈值得完整看一遍，尤其是关于「世界模型」架构演进和「脚手架被吞」的部分，能帮你判断当前投入的工程能力哪些更容易被模型吸收、哪些更值得长期押注。完整内容见 BestBlogs 阅读原文。 ## 速览为什么 AI 还没有取代软件工程师，而且也不会这篇文章用「决策-执行-交付三明治」模型来解释一个反直觉的现象：尽管 AI 编程能力的进步速度和落地速度都远超其他行业，软件工程师的整体岗位需求并未出现大规模裁员。文章把知识工作拆成三层——决策（decide）、执行（execute）、交付（deliver），AI 主要压缩的是中间的「执行」层，但两端的「决策」和「交付」（包括对结果负责）依然高度依赖人类判断，不会因为模型能力的单纯提升而被自动化吞掉。文章还引用了一项基于真实 AI 编程会话日志的研究（SWE-chat），数据显示只有 44% 的 agent 生成代码最终进入了用户的正式提交。文章作者来自专注于 AI 评估的研究团队，本文是系列文章的第一篇，后续会讨论个体工程师的职业路径为何仍可能颠簸。阅读原文：BestBlogs。云原生 - AI Native 多智能体数字人架构实践阿里云开发者团队分享了他们基于商业化产品 AgentTeams 落地「数字员工小分队」的实践：通过声明式 CRD（自定义资源定义）把组织结构和协作策略模型化，让多个 Agent 像一个真实团队一样分工协作，而不是各自为政、互相抢活。文章用一个凌晨三点的告警场景开场——以前需要值班同学被叫醒、登录跳板机、翻日志、判断根因、必要时拉群升级，整套流程下来 MTTR（平均故障恢复时间）轻则一两个小时；而在 AI Native 的流程里，告警进来 30 秒内就有 Agent 数字人贴出第一轮诊断结论并 @ 另一个 Agent 进一步定位，90 秒后根因定位完成并给出可执行修复脚本，留给人的只是「是否在生产环境直接执行修复」这一个判断。文章还梳理了从 RPA 到大模型再到多 Agent 协同的演进逻辑：RPA 是「录屏式」自动化，规则固定但不理解业务，界面一变就要返工；大模型带来了「理解」能力，Agent 不再是录屏脚本，而是能听懂模糊指令、查文档、调工具、做判断；但单 Agent 有天花板——上下文窗口有限，遇到需要多角色协作的真实业务场景（产品提需求、研发写代码、测试跑回归、文档同步发布）就会力不从心，于是自然演化到多 Agent 协同。文章特别强调「让多个 Agent 跑起来」和「让它们像一个团队一样工作」是两件完全不同的事：没有组织结构就没有稳定的分派关系，没有通信策略就没有可控可审计的消息边界，没有共享状态和统一网关就没法把 LLM 和工具（MCP）安全接入。AgentTeams 正是为解决这一整套组织化问题而生，文章给出了网络架构图和研发、值班、开源维护等场景的具体落地步骤。阅读原文：BestBlogs。端侧 AI 提速 80%？如何让 Qwen3-VL 在手机起飞通义实验室团队手把手演示了如何利用 Arm 第二代可伸缩矩阵扩展（SME2）指令集与 MNN 推理引擎，在支持 SME2 的旗舰手机（如 vivo X300）上部署 Qwen3-VL-4B 这样的多模态模型，实现 Prefill 阶段提速超过 80%。文章解释了 SME2 的核心突破——引入 ZA 矩阵累加器寄存器和流式模式，让 FMOPA 等指令可以一条指令完成一个矩阵 tile 的外积累加，相比传统 Neon 需要手工拆分向量乘再累加效率大幅提升。MNN 对 SME2 的支持采用「编译时内建 + 运行时自动检测」设计：编译时通过 MNN_SME2 开关（默认开启）控制是否编译优化内核，运行时自动检测硬件支持情况，不支持则平滑回退到 i8mm → Neon，不会崩溃；同时覆盖 FP32、FP16、INT8/INT4 三种精度，并集成了 Arm 官方 KleidiAI 加速库。文章给出了从引擎编译、模型部署到 APP 构建的完整实战流程。阅读原文：BestBlogs。人是最慢的节点，还怎么管 AI Agent？｜AI 跃迁者调研腾讯研究院「AI 跃迁者调研」系列第四期，深度访谈了开源 Agent 协作与编排平台 Multica 的创始人张佳圆。Multica 连续霸榜 GitHub Trending，一周涨 1.2 万 Star，访谈时已收获 2.75 万 Star，平台上每 10 秒就触发一个 Agent 任务——而做出这一切的团队只有 4 个人，这 4 个人本身也是 Multica 最极端的用户，构成了一个「4 人 + 几十个 Agent」的超级小团队。访谈中提出了几个值得玩味的观点：整个组织的产出效率瓶颈如今已经是「人」而非 AI 或 Agent；建太多管理层级是对人类低效组织的拙劣模仿；快速做一个错误决策，比缓慢做一个正确决策更好，因为错误决策可以修正，但犹豫不决会让整个组织在某个环节卡死；只要活得足够久，本身可能就是一种很大的壁垒；而人的思考在 AI 时代是被低估的——AI 给出的东西可能只是一个「中位数」水平的答案。产品定位上，Multica 做的不是 Agent 本身，而是一个模型和平台中立的协作层，处理多个 Agent 怎么分工、怎么传递任务、怎么合并上下文。产品的三个核心概念分别是：运行时（Agent 运行的机器，可以是本地 MacBook、Mac Mini 或服务器，统一注册到 workspace）、智能体（相当于 AI 员工，可分配任务、设置角色）、Agent Team（多个 Agent 组成的小队，有自己的工作流程）。日常使用模式是创建任务、分配给对应的 Agent 或 Agent Team，人只需做最终 review，需要介入时会出现在 inbox 里。阅读原文：BestBlogs。 Fable AI 实现 1770% 性能提升并发现关键 Bug：我的个人奇点时刻知名开发者 Taelin（@VictorTaelin）报告了一次他称之为「个人奇点时刻」的体验：Anthropic 的 Fable AI 在代码优化任务上，以数量级优势超越了他本人、Opus 4.8 以及一整群 GPT-5.5 智能体，实现了高达 1770% 的性能提升，并且在优化过程中还顺带发现了他自己代码里一个相当微妙的 Bug。这条推文引发了广泛讨论，因为它把「AI 代码优化能力超过资深开发者本人」这件事变得非常具体——不是某个 benchmark 上的分数对比，而是一次真实的、可验证的优化任务。阅读原文：BestBlogs。 CFO 的自白：为什么你的加薪变成了 GPU Peter Girnus（@gothburz）分享了一段来自某 CFO 的「自白」，揭示了一个企业用 AI 投资取代员工加薪决定背后的会计逻辑：花在人身上的每一块钱是当期费用（expense），会直接拉低利润率、受到市场审视；而花在 GPU 上的每一块钱则可以记为资本资产（capital asset），不会以同样的方式冲击利润表，也因此能规避市场对人力成本上涨的审视。这条推文用一种近乎赤裸的方式解释了为什么很多公司在「降本增效」叙事下，会优先把预算投向算力而不是涨薪——这并非单纯的技术判断，而是财务报表结构带来的激励扭曲，也是很多团队感受到「公司有钱买卡、没钱涨薪」的真实原因。阅读原文：BestBlogs。 "无招" 没变，但 AI 改变了公司和人才的权力关系晚点 LatePost 以钉钉 CEO 陈航（花名"无招"）因高压管理风格被阿里合伙人委员会直接换掉为切入点，分析了 AI 时代大公司与顶尖人才之间权力关系的根本性转变。陈航以"高压"管理风格闻名，曾要求团队早 9 点打卡、深夜巡楼查岗，甚至要求员工动员亲友注册钉钉、完成"族谱上钉"的考核任务。这些管理方式过去虽屡受争议，但阿里内部一直没有针对性动作；这一次，一篇 7.5 万字的员工离职长文迅速传播后，阿里合伙人委员会在 6 天内罕见回应，直指钉钉的管理方式"不是阿里文化该有的样子"，不到 24 小时后陈航卸任 CEO。文章借此事件展开，探讨为什么在 AI 重塑生产力的当下，顶尖人才和公司之间的议价权正在发生结构性变化。阅读原文：BestBlogs。 ## 补充阅读今天的候选内容里还有不少值得一看的角度，限于篇幅未能逐一展开，这里简单提一下： - 多智能体编排和协作平台是今天的一条隐藏主线——从 Claude Managed Agents 的托管编排，到阿里云 AgentTeams 的声明式协作模型，再到 Multica 的「4 人 + 几十个 Agent」实践，三者分别代表了「平台托管」「企业内部落地」「创业团队自建」三种不同的路径，适合关注智能体编排方向的读者对照阅读。 - 端侧推理优化（如 Qwen3-VL 的 SME2 提速）和云端智能体托管基础设施（如 Claude Managed Agents）看似是两个方向，但都指向同一个趋势：把"跑得动 AI"这件事的门槛持续往下压，无论是手机端还是企业基础设施。 - 关于 AI 对就业市场的影响，"决策-执行-交付三明治"模型和"CFO 的自白"可以放在一起读——前者从岗位需求结构的角度论证 AI 不会带来大规模裁员，后者从企业财务激励的角度解释了为什么算力投入比涨薪更"划算"，两者从不同角度解释了同一个现象的两面。 - 钉钉"无招"事件本质上是一个组织管理案例，但放在 AI 重塑权力关系的背景下读会更有意思——尤其是和 Multica 里"人是最慢的节点"的判断对照，能看到大公司和小团队在同一个趋势下走向了截然不同的应对方式：一边是用考勤和层级管理人，一边是用 Agent 团队去掉中间层、让 4 个人端到端做完所有事。 - 如果你既关心工程框架又关心组织设计，可以把今天的内容串成一条线读：harness 解决的是「AI 怎么干活才靠谱」，AgentTeams 和 Multica 解决的是「一群 Agent 怎么像团队一样协作」，而钉钉和 CFO 的两篇则提醒你，工程能力之外，组织和激励结构同样会决定 AI 红利最终流向谁。 ## 今日阅读路径如果今天时间有限，建议按以下顺序读： 1. 精讲二《AI 不缺智商缺纪律：一场 Harness 工程化实践》——这是今天信息密度最高、最具操作性的一篇，三层加载架构和 19 节点裁剪规则可以直接套用到自己的 AI 工作流里，读完能立刻上手改造。 1. 精讲一《智能体交互界面的演进：使用 Claude Managed Agents 进行构建》——和精讲二形成互补视角，了解平台层提供了哪些「托管基础设施」，帮你判断哪些事该自己搭、哪些事该交给平台。 1. 精讲三《Google DeepMind 的 Logan Kilpatrick：为什么模型会吞掉智能体脚手架》——作为前两篇的「远景校准」，提醒你在投入工程化建设时，留意哪些能力可能很快被模型本身吸收。如果还有余力，再读一下「人是最慢的节点，还怎么管 AI Agent？」——它把今天所有关于工程化、协作平台的讨论，落回到「人在这个体系里到底该做什么」这个最终问题上。 BestBlogs 是 AI 驱动的私人阅读助手，帮助你建立稳定、可信、个性化的高质量信息输入。它帮你判断什么值得读、协助你读懂，并逐渐理解你关注什么。

译本期精讲聚焦智能体工程化：Anthropic推出Claude Managed Agents，将推理与执行解耦，独立Vault管理凭证，事件日志支持运行恢复，首字延迟p50降约六成、p95降超九成。阿里工程师分享三层加载架构（常驻入口层压至8K上下文）、dispatcher状态机及G1-G8门禁，用结构约束替代堆prompt。Sequoia访谈指出模型正逐步吸收路由、执行环境等外层脚手架，独立创业公司窗口收窄。

ginobefun@hongming731 · 6月12日63

BestBlogs 早报 · 06-12 # Claude Managed Agents / Harness 工程化 / 模型吞脚手架 / Logan Kilpatrick / Gemini 3.5 Flash [1] ★ 精讲｜智能体交互界面的演进：使用 Claude Managed Agents 进行构建 | Claude Anthropic 推出 Claude Managed Agents，把智能体的「大脑」（推理循环）和「双手」（代码执行沙箱）彻底解耦，靠可恢复的事件日志连接两端：凭证统一存进独立的 Vault，绝不暴露给生成的代码，自托管沙箱还能让代码留在企业内网，首字延迟中位数降低六成、长尾降低九成以上，Notion、Sentry、Rakuten 等都已在生产环境跑通。来源：Claude Blog https://www.bestblogs.dev/article/8e6ddfdf [2] ★ 精讲｜AI 不缺智商缺纪律：一场 Harness 工程化实践一位阿里工程师复盘两个月的 AI Harness 演进：从把所有规则堆进 CLAUDE.md 导致「读完规则没脑容量读代码」，到三层加载架构 + dispatcher 状态机 + 文件交接 + G1-G8 门禁，再用 7 维确定性评分给每次改动打分，结论是「用更好的结构约束 AI，而不是用更多的字」。来源：阿里技术 https://www.bestblogs.dev/article/07b28cbc [3] ★ 精讲｜Google DeepMind 的 Logan Kilpatrick：为什么模型会吞掉智能体脚手架 [视频] Google DeepMind 的 Logan Kilpatrick 在 Sequoia 访谈中提出「模型吞掉脚手架」：路由、执行环境这类原本搭在外层的工程能力正被模型本身逐步吸收，Gemini 3.5 Flash 的编程能力提升完全来自后训练；他认为随着基础模型不断「吃掉」周边脚手架，独立创业公司的出路只剩垂直领域的深度专精。来源：Sequoia Capital https://www.bestblogs.dev/video/568d29c [4] 为什么 AI 还没有取代软件工程师，而且也不会本文通过“决策-执行-交付三明治”模型论证 AI 不会取代软件工程师，解释了人类在决策和问责中的角色为何仍然至关重要。来源：AI as Normal Technology https://www.bestblogs.dev/article/28a90882 [5] 云原生 - AI Native 多智能体数字人架构实践本文介绍了阿里云基于云原生理念打造的 AI Native 多智能体数字人协作平台 AgentTeams，通过声明式 CRD 将组织结构与协作策略模型化，实现多 Agent 像团队一样协同工作，并分享了在研发、值班、开源维护等场景的落地实践。来源：阿里云开发者 https://www.bestblogs.dev/article/cb8e134b [6] 端侧 AI 提速 80%？如何让 Qwen3-VL 在手机起飞本文手把手演示如何利用 Arm SME2 指令集与 MNN 推理引擎，在支持 SME2 的旗舰手机上实现 Qwen3-VL-4B 多模态模型的高效部署，Prefill 阶段提速超 80%。来源：通义实验室 https://www.bestblogs.dev/article/2e22b643 [7] 人是最慢的节点，还怎么管 AI Agent？｜AI 跃迁者调研本文深度访谈 Multica 创始人张佳圆，揭示了一个 4 人团队如何通过 Agent 协作平台实现组织效率革命，并探讨了人在 AI 时代的新角色与思考边界。来源：腾讯研究院 https://www.bestblogs.dev/article/7bf0f7d2 [8] Fable AI 实现 1770% 性能提升并发现关键 Bug：我的个人奇点时刻 Taelin 报告称，Anthropic 的 Fable AI 在代码优化方面以数量级优势超越了他本人、Opus 4.8 以及一群 GPT-5.5 智能体，甚至还发现了他自己代码中的一个微妙 Bug。来源：Taelin(@VictorTaelin) https://www.bestblogs.dev/status/2064448425936994742 [9] CFO 的自白：为什么你的加薪变成了 GPU 一位 CFO 解释称，用 AI 投资取代员工加薪的决定纯粹是会计把戏：花在人身上的每一块钱是费用，而花在 GPU 上的每一块钱则是一项可以规避市场审视的资本资产。来源：Peter Girnus 🦅(@gothburz) https://www.bestblogs.dev/status/2064800166272512122 [10] “无招” 没变，但 AI 改变了公司和人才的权力关系本文以钉钉 CEO 陈航（无招）因高压管理被阿里合伙人委员会直接换掉为引子，深入分析了 AI 时代大公司与顶尖人才之间权力关系的根本性转变。来源：晚点 LatePost https://www.bestblogs.dev/article/959001dd --- http://BestBlogs.dev · 发现真正适合你的高质量内容 BestBlogs 是 AI 驱动的私人阅读助手，帮助你建立稳定、可信、个性化的高质量信息输入。关注你感兴趣的来源和主题，每天生成一份更适合自己的「我的早报」。在线阅读：https://www.bestblogs.dev/explore/brief/2026-06-12

译Anthropic推出Claude Managed Agents，将推理循环与代码执行沙箱解耦，凭证存入独立Vault，自托管沙箱支持内网，首字延迟中位数降低六成、长尾降低九成。阿里工程师复盘Harness工程化，提出三层加载架构与G1-G8门禁。Google DeepMind的Logan Kilpatrick称模型正“吞掉”脚手架，Gemini 3.5 Flash编程能力完全来自后训练。另，Qwen3-VL-4B在支持SME2的旗舰手机上Prefill提速超80%；Fable AI实现1770%性能提升并发现关键Bug；此外涉及AI取代工程师、多智能体数字人、CFO用GPU替代加薪等讨论。

宝玉@dotey · 6月12日66

Codex 真是把 Token 用量重置玩出花开了，邀请好友，双方都获得一次重置机会，自己重置。

小互@xiaohu · 6月12日51

OpenAI 公布邀请好友重置用量规则： Plus 和 Pro 用户可以邀请最多三位朋友试用 Codex。当你邀请的一位朋友发送他的第一条 Codex 消息时，你们双方都会获得另一个储备重置机会。这个重置用量机会可以一直保留，你可以在任意的时候选择使用。使用后你的Codex 用量将会重置，重新计算。

译OpenAI 公布 Codex 新邀请规则：Plus 和 Pro 用户可邀请最多三位朋友试用 Codex。被邀请好友首次发送 Codex 消息时，邀请者与该好友各获得一次储备重置机会。该机会可保留，用户可随时手动使用，重置后 Codex 用量重新计算，且可重复通过邀请新好友获取新重置机会。

meng shao@shao__meng · 6月12日75

Spec 驱动开发 (SDD) 需要这三个 Skills：覆盖 Spec -> Implement -> Verify 闭环 Agent 出错往往是需求理解偏差。解决办法是把规格当作 PR 的一部分，让队友和 Agent 都能对照同一份文档。规格分两层： 1. 产品规格：PRODUCT.md 做什么，用户视角、用户故事、可验证的产品不变量 2. 技术规格：TECH.md 怎么做，架构、代码位置、实现策略都放在 specs/<issue>/ 目录，随实现 PR 一起提交、一起 Review。 # SDD 五步流程（包含三个 Skills） 1. 写产品规格（/write-product-spec）从用户行为出发，写用户故事和详细的不变量（invariants）——即「无论什么情况都必须成立」的规则。可附 Figma、截图等。这些不变量后续可被代码检查，甚至用计算机操作（computer use）验证。 2. 写技术规格（/write-tech-spec）在同一目录生成 TECH.md，说明架构思路、改哪些文件、实现时要注意什么。这是给 Agent 的「施工图纸」。 3. 让 Agent 按规格实现理论上任何 Agent、包括推理能力较弱的模型，只要有清晰规格，实现质量都会更稳定。 4. 规格一致性校验（/validate-changes-match-specs）实现后不能默认「做完了就对」。用 Skill 让 Agent 对照 PRODUCT.md 和 TECH.md 自查，列出与规格不一致之处，再由人决定如何处理。这是规格驱动开发里容易被忽略、但很关键的一步。 5. 用计算机操作做端到端验证 Warp 内部用 Oz 做 UX 验证：在云端沙箱里给 Agent 鼠标键盘权限，模拟真实用户操作。对他们这种 Rust 原生桌面应用尤其必要——单元测试覆盖不了完整交互链路。 # 为什么用这三个 Skills 编码流程 Skills 把「怎么写产品规格」「怎么写技术规格」「怎么校验」固化成可复用指令，不绑定 Warp，流程可移植。 @warpdotdev 开源仓库：warpdotdev/common-skills 安装：npx skills add warpdotdev/common-skills 本质是把人的工程习惯（先 PRD、再设计、再实现、再验收）变成 Agent 可执行的流水线。

译邵猛分享 Spec 驱动开发（SDD）方法，用三个 Skills（/write-product-spec、/write-tech-spec、/validate-changes-match-specs）覆盖 Spec→Implement→Verify 闭环。规格分两层：PRODUCT.md（用户故事、不变量）和 TECH.md（架构、实现策略），均放在 specs/<issue>/ 目录，随 PR 提交。五步流程：写产品规格、写技术规格、Agent 按规格实现、一致性校验、计算机操作端到端验证。Skills 可移植，不绑定 Warp。开源仓库 warpdotdev/common-skills，安装：npx skills add warpdotdev/common-skills。

meng shao@shao__meng · 6月12日60

OpenAI Codex 是不是挖来了 PDD 增长负责人 😂 OpenAI 推出可保存（bank/save）速率限制重置的功能，用户可将重置额度留存至后续自行使用，而非必须在重置窗口内立即消耗。 Go、Plus、Pro 和 Business 用户立即获得 1 次免费重置可银行储存。 Plus 和 Pro 用户可邀请最多 3 位好友试用 Codex。好友首次发送 Codex 消息时，双方各获得一次额外可银行重置（30 天内可兑现），限时两周 -- 这也太 PDD 了，朋友们帮砍一刀？

jason@jxnlco · 6月12日75

Great ship by the growth team! Give @abraibrai a follow!

译OpenAI 宣布，用户现可保存 Codex 速率限制重置以供之后使用。Go、Plus、Pro 及 Business 用户将获得一次免费重置。

jason@jxnlco · 6月12日66

Great ship by the browser team! Make sure to give @JamesZmSun a follow!

译浏览器团队干得漂亮！记得关注 @JamesZmSun！（摘要：OpenAI 为 Chrome 和 Codex 应用内浏览器推出开发者模式，Codex 可通过 Chrome DevTools 协议分析 JavaScript 性能并检查控制台输出、网络流量和页面状态。）

OpenAI Developers@OpenAIDevs · 6月12日69

Introducing developer mode for browser use in Chrome and the Codex in-app browser. Codex can use the Chrome DevTools Protocol (CDP) to debug browser issues by profiling JavaScript performance and inspecting console output, network traffic, and page state.

译为 Chrome 和 Codex 内置浏览器引入开发者模式。 Codex 可以使用 Chrome DevTools 协议（CDP）来调试浏览器问题，通过分析 JavaScript 性能、检查控制台输出、网络流量和页面状态。

Greg Brockman@gdb · 6月12日60

For next two weeks, refer your friends to Codex, and you'll bank a rate limit reset:

译接下来两周，推荐朋友使用 Codex，你将获得一次速率限制重置：

OpenAI@OpenAI · 6月12日70

We heard you wanted to use Codex rate limit resets on your own time. Starting today, we’re rolling out the ability to save rate limit resets to use later. We’re starting Go, Plus, Pro, and Business users with one free reset:

译我们听说您希望能在自己方便的时候使用 Codex 速率限制重置。从今天起，我们开始推出将速率限制重置保留到以后使用的功能。我们从 Go、Plus、Pro 和 Business 用户开始，每人提供一次免费重置：

karminski-牙医@karminski3 · 6月12日56

我的使用经验是, one-pass 能力越强(且能在较少的思考下one-pass) 模型才是SOTA的. 要用 agentic coding 才能修复第一次犯的错反而是模型拉夸的表现, 再不济也要在Interleaved thinking过程中修复. agentic coding 是用来解决工程量和运行时问题的. 不是用来修静态检查就行发现的bug的.更简单的说, 你有bug不在thinking中修, 反而非要在n+1次上下文中修复, 是不是骗我买coding plan(x)?

译karminski认为，one-pass能力强（少思考即正确）的模型才是SOTA；需用agentic coding修复首次错误反显模型差，bug应在thinking中修复，而非依赖n+1次上下文，否则有诱导购买coding plan之嫌。@iamai_omni建议测评转向长期任务一致性，可构建loop测评，重点看后续几轮修复表现。

Replit ⠕@Replit · 6月12日72

How to prompt like a pro with Replit 🤖 Vague prompts just mean more rewrites. Here's how to get Agent to build the right thing the first time. 🧵 Open thread ↓

译如何像专家一样使用 Replit 进行提示 🤖 模糊的提示词只会导致更多重写。以下是如何让 Agent 第一次就构建出正确的东西。 🧵 展开线程 ↓

elvis@omarsar0 · 6月12日25

Got my 10yr old introduced to Codex today. The excitement in his face tells it all. After struggling with Claude Code CLI for a bit, today he was like “this is the future, dad”. The Codex team built a beautiful app.

译今天让我10岁的孩子体验了Codex。他脸上的兴奋说明了一切。在用Claude Code CLI折腾了一会儿之后，今天他说：“这就是未来，爸爸。” Codex团队打造了一个漂亮的应用程序。

Peter Steinberger 🦞@steipete · 6月12日17

Getting Chris to do a PR with Codex!

译让 Chris 用 Codex 做 PR！

elvis@omarsar0 · 6月12日59

Same here. Happy with Opus 4.8 (planning) and GPT-5.5 (execution). Also, breaking steps into smaller ones for increasing quality is so underrated. This is why dynamic workflows are a bigger deal than most people think.

译threepointone 使用 Fable 处理一个约 10k 行代码的大 PR，花费 $250，认为不值，更倾向小步骤。Elvis Saravia 认同，表示自己用 Opus 4.8 做规划、GPT-5.5 做执行，并将任务拆解成更小步骤能显著提升质量。他认为动态工作流（dynamic workflows）的重要性被大多数人低估了。其日常仍使用 Cursor AI。

Rohan Paul@rohanpaul_ai · 6月12日67

OpenAI is buying Ona to give Codex agents a secure cloud desk that stays open after humans leave. Codex already has 5M weekly users, up 400%, but harder work breaks the old chat pattern because agents need tools, files, credentials, logs, and time. Ona adds persistent cloud workspaces, meaning an agent gets a controlled place to run commands, inspect systems, preserve context, and resume work without depending on one device. The enterprise angle is the real acquisition target: companies want agents inside their own cloud boundary, with scoped credentials, review trails, access limits, and auditable activity. This makes Codexmore like a managed execution layer for tests, bug fixes, refactors, vulnerability work, migrations, and multi-step knowledge tasks.

译OpenAI 宣布收购 Ona，其安全云端执行技术可为 Codex 智能体创建持久云端工作空间——用户离开后，智能体仍可持续运行命令、检查系统、保留上下文并跨设备恢复任务。目前 Codex 周活用户达 500 万（增长 400%）。收购旨在强化企业级部署：智能体可在企业云边界内运行，具备作用域凭证、审核追踪、访问限制和可审计活动，适用于测试、漏洞修复、重构、迁移等多步骤任务。收购完成后，Ona 团队将加入 OpenAI Codex 团队。

宝玉@dotey · 6月12日62

AI 没有重新定义软件工程，AI 放大了软件工程的重要性

译AI 没有重新定义软件工程，AI 放大了软件工程的重要性 [引用 @arkuy99]：AI 重新定义了软件工程。

Rohan Paul@rohanpaul_ai · 6月12日82

WSJ: OpenAI is considering deep price reductions as competition with Anthropic intensifies. Anthropic is pressuring OpenAI because its strongest growth is coming from developer and coding workflows, specially with Claude Code, where users can generate huge token volume every day and quickly make Claude part of their normal work. OpenAI is still the bigger consumer brand, but in this fight the valuable prize is not casual chat users, it is enterprise teams paying metered bills for coding agents, automation, and internal tools. The difference is that Anthropic seems to have a sharper wedge in high-spend technical work, while OpenAI has to defend ChatGPT’s broad lead and stop Claude from becoming the default tool inside companies. --- wsj. com/tech/ai/openai-considers-drastic-price-cuts-anticipating-war-for-users-with-anthropic-9b8c178e

译WSJ 报道，OpenAI 正考虑大幅降价以应对与 Anthropic 的竞争。Anthropic 增长主要来自开发者和编码工作流，Claude Code 消耗大量 token，已让企业团队将其融入日常工作。OpenAI 虽在消费品牌上更大，但企业市场才是关键——企业为编码智能体、自动化等工具付费。同时，OpenAI 在 IPO 前准备对 ChatGPT 进行史上最大改版，将其打造成涵盖编码、AI 智能体、图像生成和商业软件的超级应用，改版将在未来几周陆续推出。OpenAI 将更多资源投入编码工具 Codex，目标实现 Codex 工程负责人所说的“个人智能体”。

Replit ⠕@Replit · 6月12日65

AI agents are powerful, but they don’t remember your preferences. So you end up repeating instructions- How you structure projects. Your brand guidelines. You can now teach Replit Agent your conventions with Custom Instructions and Skills. It'll take them into account for every project automatically.

译AI 智能体很强大，但它们不记得你的偏好。所以你总是重复指令——如何组织项目、你的品牌指南。现在你可以通过自定义指令和技能让 Replit Agent 学会你的惯例。它会在每个项目中自动将这些考虑进去。

AYi@AYi_AInotes · 6月12日56

我问了Fable 5，在一个 AI 能在几秒内完美总结或解释任何书的时代，亲自花 8–20 小时啃一本难读的文本，其不可替代的认知价值是什么？这是他的回答：

译用户指令Fable 5自建2026设计趋势的落地页，要求动态和彩蛋。Fable 5自行搜索趋势、调整配色与动效，藏入3个彩蛋，几分钟生成单文件HTML。用户计划让其担任全职全栈工程师。此前用户曾问亲自啃难懂文本的不可替代价值，Fable 5以此能力展示作答。

Replit ⠕@Replit · 6月12日45

Build Your Business Live: Episode 2 https://x.com/i/broadcasts/1dJrPPYbDvQKX

译Build Your Business Live: 第二期 https://x.com/i/broadcasts/1dJrPPYbDvQKX

xAI@xai · 6月11日73

The Grok Build Plugin Marketplace is now in beta. Build with MongoDB, Vercel, Sentry, Cloudflare, and Chrome DevTools plugins from your terminal. Read more https://x.ai/news/grok-plugin-marketplace

译Grok Build 插件市场现已进入 Beta 测试阶段。从终端使用 MongoDB、Vercel、Sentry、Cloudflare 和 Chrome DevTools 插件进行构建。了解更多 https://x.ai/news/grok-plugin-marketplace

AYi@AYi_AInotes · 6月11日71

Fable 5是真的厉害真的好用，但也真的贵啊，今天直接干掉$1000+😭

译用户分享 Claude Fable 5 体验：仅靠一句指令“给你自己做个落地页，自由发挥，要2026最新设计趋势，要彩蛋”，Fable 5 在几分钟内自动生成完整单文件 HTML，无需任何修改。它主动搜索 2026 设计趋势、调整配色和动效，并偷偷藏了 3 个彩蛋。用户惊叹其代码质量和文笔，但当天因使用 Fable 5 耗费超过 $1000，称“真的贵”。

向阳乔木@vista8 · 6月11日75

很多朋友问，如何给Codex写一个好的Goal指令？睡觉前执行，模型自动开发，第二天“收菜”。发过4w字文档，但多数人懒的看，所以我写了个Skill。把一句话需求变成目标，复制就能用。安装指令： npx skills add joeseesun/qiaomu-goal-meta-skill 源码免费开源，见评论区

译针对如何给Codex写Goal指令的问题，作者发布了一个Skill，可将一句话需求自动转化为目标，实现“睡前写指令、模型自动开发、第二天收菜”。安装命令：`npx skills add joeseesun/qiaomu-goal-meta-skill`。源码免费开源（见评论区），旨在简化4w字文档的阅读负担。

向阳乔木@vista8 · 6月11日79

Claude Fable 5 一句话生成的桌面台球！念念不忘的蝗虫群梗彻底终结。提示词：设计一个完整的能玩的3D桌球游戏，一个网页就能运行

Lee Robinson@leerob · 6月11日56

We're training the next version of Composer... with Composer! The model is always learning from itself. This kind of "recursive self-improvement" might sound new, but it's been happening for many months! For example, training big models requires creating *lots* of data for RL - essentially games the model plays to improve at any task you can grade. The newest models can configure their own environments to make those games playable (auto-installing dependencies, fixing broken setups). Composer 2 was *dramatically* better at this than version 1. So the better the model gets, the better it gets at creating the conditions to train its successor. Each generation unlocks capabilities the previous one didn't have! So cool. https://x.com/cursor_ai/status/2052116064474161556

译Cursor 正用当前版 Composer 训练下一代 Composer，形成递归自我改进循环。训练大型模型需要大量 RL 数据（模型通过“游戏”提升能力），新模型能自动配置开发环境（如自动安装依赖、修复故障）。Composer 2 在环境配置能力上显著优于版本 1，模型越强，越擅长创造训练其继任者的条件。Cursor 的 autoinstall 系统让前代 Composer 设置 RL 训练环境，使下一代专注于解决更难题，每一代都解锁先前版本不具备的能力。

Rohan Paul@rohanpaul_ai · 6月11日61

AI agents may turn software from fixed code into systems that can plan and build on demand. This paper argues that code may stop being the central artifact. For decades, software meant frozen intent: a human anticipated a situation, translated judgment into rules, and shipped those rules into the world. Agents disturb that bargain because they can turn intent into action at runtime, generating code as a disposable tool rather than treating it as the product. The real shift is not from human coding to AI coding; it is from predesigned behavior to negotiated behavior, where the system keeps interpreting the goal as conditions change. That sounds powerful, but it is also where the danger lives. A static program fails inside boundaries we can often inspect, while an agent can fail through drift, overconfidence, bad memory, or a plausible chain of steps that quietly compounds an early mistake. So the paper is not saying coding tools will get better, but that software itself may become a living agent system where humans guide intent and audit outcomes. So the future engineer is not just a prompt writer, and not merely a supervisor of digital interns. The valuable person becomes someone who can define intent, constrain autonomy, design evaluation, inspect reasoning traces, and know when the machine’s fluent answer is not the same as a reliable system. ---- Link – arxiv. org/abs/2606.05608 Title: "Agentic Software: How AI Agents Are Restructuring the Software Paradigm"

译该论文认为，AI智能体可能使软件从固定代码转变为按需规划和构建的系统，代码不再是核心产物。传统软件预先固化规则，而智能体在运行时将意图转化为行动，把代码视为一次性工具。真正转变是从“预设计行为”到“协商式行为”，系统随条件变化不断解读目标。但这也带来新风险：静态程序在可检查边界内失效，智能体可能因漂移、过度自信、记忆错误或逐步放大早期错误而失败。未来工程师的关键能力是定义意图、约束自主性、设计评估、检查推理痕迹，并辨别流利回复与可靠系统的区别。

Berryxia.AI@berryxia · 6月11日76

对了直接限时免费！！所以大家可以用起来啊～ https://mimo.xiaomi.com/zh/mimocode

译小米开源MiMo-Code，为终端原生AI coding助手，fork自OpenCode。新增SQLite持久记忆实现跨会话永久记忆，配备build/plan/compose三类子代理、自动checkpoint、智能上下文预算，及/dream自我提炼知识与/distill打包技能进化机制。零配置支持任何OpenAI兼容模型，一键curl安装，MIT协议。此前MiMo 2.5模型已接入Bloome作为Agent使用，且MiMo-Code限时免费。

Alibaba Cloud@alibaba_cloud · 6月11日65

Big news! 🚀 Qwen is now live on #Eden AI, one of Europe’s leading AI gateways, trusted by more than 200,000 developers. Enterprises can now access Qwen’s powerful open-weight models for reasoning, coding, and AI applications through Eden AI’s unified API, making it easier to build multi-model workflows while avoiding vendor lock-in. To celebrate the launch, enjoy 35% OFF all Qwen models. If you are attending VivaTech Alibaba Cloud AInnovation Summit at Hall 7.3 Workshop A next week, stay tuned for a special meet-up with Eden AI CEO Taha Zemmouri and Eden AI CPTO Samy Melaine. 🔗 Start building today: https://app.edenai.run/playground #AlibabaCloud #Qwen #EdenAI #VivaTech2026 #GenerativeAI #Developers #CloudComputing

译阿里云宣布Qwen模型上线欧洲AI网关Eden AI。Eden AI拥有超20万开发者，企业可通过其统一API访问Qwen开放权重模型（用于推理、编程和AI应用），构建多模型工作流并避免供应商锁定。庆祝上线期间，所有Qwen模型享35%折扣。下周VivaTech阿里云AI创新峰会（7.3区Workshop A）将举办特别见面会，Eden AI CEO与CPTO出席。