虽然 Claude Fable 5 被禁，但也挡不住古法编程真的很快要退出历史舞台了，想想这十几年，还是用过一些非主流编程语言的：Cobol、Fortran、Flex、Silverlight...

兄弟们！就说GLM 好久没有更新，应该快更新模型了。果不其然，我们前天讨论更新的事儿。今天就看到GLM-5.2 更新，目前先给codingPlan 的用户使用，API调用要到下周才可以支持~

译GLM-5.2作为智谱新旗舰模型，主打编码能力，支持可用的1M上下文，并在长任务上表现强劲。目前已面向所有GLM Coding Plan用户（包括Lite、Pro、Max、Team）开放，API和Chatbot服务将于下周上线。同时，该模型将于下周在MIT许可证下正式开源。

meng shao@shao__meng · 6月13日77

前沿智能不应只属于少数人，也不应被少数规则随时收回。它应该开放、可用、可构建，并服务于每一位开发者。 -- 智谱致大洋彼岸的某厂和某政府。

译智谱（Zhipu AI）推出新旗舰模型GLM-5.2，已对GLM Coding Plan所有用户（Lite/Pro/Max/Team）开放。该模型具备强大编码能力，支持1M上下文窗口，在长周期任务中表现持续优秀。API和Chatbot服务将于下周上线，模型也将于下周以MIT许可证正式开源。智谱在声明中强调“前沿智能不应只属于少数人”，并暗讽大洋彼岸某厂商和政府，称未来AI属于开放和大众。

数字生命卡兹克@Khazix0918 · 6月13日61

千言万语汇成一句话：国产之光，无愧于此。 GLM 5.2今晚Coding Plan上线，下周开源。

译GLM-5.2作为智谱新旗舰模型，今晚已向所有Coding Plan用户（Lite/Pro/Max/Team）开放，支持1M可用的上下文窗口，具备强大的编码能力。API和Chatbot服务将于下周推出，模型也将在下周以MIT许可证正式开源。

Z.ai@Zai_org · 6月13日73

Intelligence should be open, accessible, and ready to build with, empowering every developer, everywhere. GLM-5.2 is now available to all GLM Coding Plan users, including Lite, Pro, Max, and Team plans. http://docs.z.ai/devpack/latest-model As our new flagship model, GLM-5.2 delivers powerful coding capabilities, usable 1M-context support, and continued strengths in long-horizon tasks. API and Chatbot services will launch next week. The model will also be officially open-sourced next week under the MIT License. The future of AI is open, and it belongs to the people.

译智谱（Z.ai）发布新旗舰模型 GLM-5.2，现已对 GLM Coding Plan 用户（Lite/Pro/Max/Team 计划）开放。该模型具备强大编程能力、可用的 1M 上下文支持，并延续长程任务优势。API 和聊天机器人服务将于下周上线，模型也将于下周以 MIT 许可证正式开源。

AYi@AYi_AInotes · 6月13日29

最近折腾Fable5和Codex的人 90%买VPS的姿势全错了对着几核几G比来比去却完全不看IP是什么类型，脏不脏，你要是跑Claude Code、Codex这类要长期挂着的活，登Claude、Google这类对网络环境挑剔的账号， IP质量才是真正的命门，脏IP轻则限流断连，重则直接触发风控封号，配置堆得再高，全是白花钱。我把自己踩坑摸出来的全套筛选流程全摊开了，三个免费网页，三十秒就能验出一台VPS的底细，从看懂检测结果到一步步下单选购，全程不用写一行命令，跟着点就行。文章最后也给大家总结了，有不少场景其实根本没必要自己搭VPS，避免为了折腾而折腾。以下是我的IP监测，还是蛮纯净的

译推文指出90%的人买VPS只对比配置，忽略IP类型和纯净度。用于运行Claude Code、Codex等长期任务，或登录Claude、Google等对环境挑剔的账号时，脏IP轻则限流断连，重则触发风控封号。作者分享了一套免费筛选流程：使用三个网页工具，三十秒即可检测VPS的IP底细，从看懂结果到下单选购全程无需写命令。文章最后还提到许多场景无需自建VPS，避免为折腾而折腾。

jason@jxnlco · 6月13日9

codex users! two things i want feedback on: are plugins actually making codex better? which ones, and what still feels broken? how are you using codex as a team? drop examples and i’ll organize them for the team!

译codex 用户！我想就两件事征集反馈：插件是否真的让 codex 更好用了？哪些插件，以及哪些地方仍有问题？你们团队是如何使用 codex 的？请提供示例，我会整理给团队！

Peter Steinberger 🦞@steipete · 6月13日48

I can barely keep up with implementing/testing/landing all the Issues/PRs folks submit to https://github.com/openclaw/crabbox#providers Codex runs INSIDE crabbox while it is building crabbox. This is becoming essential infra for my work. Codex been looping nonstop for the last 4 days in multiple trees. Since all of it is e2e verifiable it basically builds itself. Codex even signs up for the services automatically via browser/computer use. My main job is adding credit card details and closing things that I don't see as a fit.

译Peter Steinberger 分享了 Codex 在其项目 crabbox 中的应用体验。Codex 在 crabbox 内部运行，同时构建 crabbox 自身。它已连续4天在多处代码树中非停止循环运行。所有构建均为端到端可验证，使得项目几乎能够自我构建。Codex 还能通过浏览器/电脑使用自动注册所需服务。作者的主要工作仅剩添加信用卡信息和关闭不合适的内容。

Kimi.ai@Kimi_Moonshot · 6月13日31

Extra API quota for Kimi K2.7 Code builders 🎉 If you're building with Kimi API, get 20%–30% extra quota when you top up $100+ by July 2! 🔷 $100–$299 → +20% quota 🔷 $300–$999 → +25% quota 🔷 $1,000+ → +30% quota (One bonus per account.) - Details: https://platform.kimi.ai/docs/pricing/promotion - Kimi API: https://platform.kimi.ai/

译Kimi K2.7 Code builders 额外 API 配额 🎉 如果你正在使用 Kimi API 进行开发，在 7 月 2 日前充值 $100+ 可获 20%–30% 额外配额！ 🔷 $100–$299 → +20% 配额 🔷 $300–$999 → +25% 配额 🔷 $1,000+ → +30% 配额（每账户一次奖励。） - 详情：https://platform.kimi.ai/docs/pricing/promotion - Kimi API：https://platform.kimi.ai/

Berryxia.AI@berryxia · 6月13日72

兄弟们，这几天国产模型都在疯狂更新啊！ Kimi直接把coding model最烦人的“过度思考”这个毛病给治好了，2.7版比上一代少烧30% token，agent长任务成功率却反而大幅提升。 Kimi-K2.7-Code今天正式开源，Kimi Code Bench v2涨21.8%、Program Bench涨11%、MLS Bench Lite直接拉高31.5%，指令跟随和端到端完成率都明显更好。以前大家做长horizon coding agent最头疼的就是模型越想越多、token越烧越多、最后半途而废！现在Kimi用更高效的推理直接把这个瓶颈给砸开了，还顺手把权重和代码全扔到Hugging Face。最狠的是他们还预告了即将到来的6x High-Speed Mode，coding效率要继续起飞。开放API和Kimi Code今天就能用，同时开了Beta计划让开发者先试新功能。这波更新证明了真正的coding agent进步，不是单纯堆参数，而是把“想得少但干得好”这件事做到极致。开源之后，社区直接能把这个能力拿去魔改、组合、部署。以前coding model总在“聪明但低效”和“高效但笨”之间摇摆，结果Kimi直接给出了第三条路。

译Kimi 发布并开源最新编码模型 Kimi-K2.7-Code。相比 K2.6，该模型在 Kimi Code Bench v2 提升 21.8%，Program Bench 提升 11%，MLS Bench Lite 提升 31.5%。核心改进是解决编码模型“过度思考”问题，推理 token 使用量降低 30%，long-horizon 编码任务的指令跟随和端到端成功率显著提升。权重与代码已上传 Hugging Face，支持通过 Kimi API 和 Kimi Code 使用，同时开放 Beta 计划。团队预告即将推出 6x High-Speed Mode，进一步提升编码效率。

meng shao@shao__meng · 6月13日46

为大规模训练 Composer 模型，Cursor 团队构建了始终运行的 Agent 舰队系统，本质是一个 Loop，实现数千个 Agent 的协同工作和自我管理 # 系统架构与工作原理主 Agent（Fleet Manager）： · 运行在大型远程机器上，配备本地常用工具 + 一个磁盘文件作为“inbox”（舰队共享收件箱） · 通过 SSH 连接数百台子 Agent 机器，收集状态并写入 inbox · 每轮循环检查舰队健康状况： · 保持健康任务后台运行 · 将故障/异常推送至 Slack 或 PagerDuty · 可主动控制舰队：终止、重启进程，处理瞬时故障子 Agent：数百个并行运行的研究任务 Agent，专注于具体实验。构建基础：基于 Cursor 此前公开的长运行 Agent 研究，赋予主 Agent 多项 Skills，这些技能编码了运行 ML 实验、审查监控结果等的隐性知识。关键设计：使用 Cursor 自身产品，inbox 文件 + 良好 skills 实现状态共享和协调。

译Cursor 团队为训练 Composer 模型构建了一个始终运行的 Agent 舰队系统。主 Agent（Fleet Manager）在远程机器上运行，通过 SSH 连接数百台子 Agent 机器，利用本地工具和磁盘文件“inbox”实现状态共享与协调。每轮循环检查舰队健康，将故障推送至 Slack/PagerDuty，并主动终止或重启进程。子 Agent 并行执行研究实验。系统基于此前长运行 Agent 研究，主 Agent 拥有编码 ML 实验隐性知识的 Skills。核心是使用 Cursor 自身产品，通过 inbox 文件与 Skills 实现大规模 Agent 协同与自我管理。

ginobefun@hongming731 · 6月13日47

http://x.com/i/article/2065581374749413376 # BestBlogs 早报 · 06-13｜Anthropic AI 民调、AI 工厂、Kimi K2.7 Code 在线阅读本期早报 ## 导语 AI 正在被谁信任，又将把计算带向何处？今天的三篇精讲恰好构成同一场变革的三个切面。第一个切面是公众心态：Anthropic 完成了覆盖近 52000 人的首次全美公众调查，结果呈现出清晰的「期待与焦虑并存」——48% 的人期待 AI 攻克癌症等疾病，64% 的人担心失业，而每天用 AI 工作的人反而更不担心被取代。第二个切面是产业框架：黄仁勋在红杉的访谈里，给智能时代找了一个 300 年前的参照物——发电机，并把计算范式的切换讲成了一个五层产业故事。第三个切面是一线工具：月之暗面发布并开源了 Kimi K2.7 Code 编程模型，更快、更省、更聪明的编程能力已经送到了每个开发者手边。速览部分同样密集：浮之静万字解析架构腐朽与 Loop Engineering，The Batch 串讲本周模型大事并讨论递归自我改进，阮一峰周刊记录 rsync 维护者用 AI 写代码引发的争论，SpaceX 完成史上最大 IPO，Y Combinator 用 5 篇论文勾勒 AI 研究走向，歸藏系统阐述 Skill 作为「能力商品」的本质，Simon Willison 实测 Claude Fable 5 的「不懈主动性」。补充阅读里还有 Spring AI 2.0.0、WebMCP、企业级 Agent 落地与 7000 亿资本支出观察。从公众民意到产业资本，从架构哲学到编程模型，这一天的信息浓度值得你留出完整的阅读时间。 ## 精讲一：Anthropic 首份公开记录调查结果先说背景。AI 公司谈论「公众怎么看 AI」时，大多引用第三方机构的零散数据，而 Anthropic 这次选择自己下场：推出名为 Anthropic Public Record 的全新调查系列，第一轮于 2025 年 11 月至 12 月执行，通过 YouGov 采样、按美国人口普查基准加权，覆盖 51993 名美国人，各州样本从 232 人（阿拉斯加）到 1902 人（纽约）不等，州级误差范围在正负 2.6 到 9.1 个百分点之间。这是 Anthropic 第一次直接面向普通公众做系统性民意研究，也补上了此前研究版图的关键缺口：他们此前通过 Anthropic Interviewer 工具对 81000 名 Claude 用户做过大规模定性访谈，也定期发布基于匿名使用数据的经济指数，但这些都只能覆盖已经在用 AI 的人。这次调查第一次触达了那些根本不用 AI 的群体，让「公众态度」这个词第一次有了完整的样本基础。调查的核心发现可以概括为「期待与焦虑并存」。在期待一侧，受访者要从 17 个选项中挑出自己对 AI 的前三大期望：48% 的人选择了「治愈癌症、阿尔茨海默病等疾病」，比第二位「帮助残障人士」（36%）高出 12 个百分点，「推动技术进步」和「让生活更轻松」并列第三（各 23%）；而「AI 提供心理治疗、缓解孤独」之类的选项排名垫底——公众显然并不希望 AI 取代真实的人际联结。在焦虑一侧，「AI 导致失业」是全美五十个州无一例外的头号恐惧，比例高达 64%；紧随其后的是认知依赖（56%）和虚假信息（52%）。监管态度同样鲜明：超过 70% 的美国人认为政府应当在 AI 监管中发挥作用，且这种支持是跨党派的，公众最希望政府在隐私（56%）、儿童安全（52%）和损害责任（49%）三个领域采取行动。最值得玩味的有两点。其一，只有 15% 的美国人信任 AI 公司自行决定 AI 如何开发和使用；当被问到什么最能确保 AI 造福人类时，排名最高的答案是「让 AI 公司为损害承担法律责任」（47%）和「安全优先于增长」（44%）——公众要的是问责，而不是承诺。一家头部 AI 公司主动公布「公众不信任 AI 公司」的数据，这个姿态本身也是研究的一部分。其二，每天在工作中使用 AI 的人，对失业的担忧（54%）反而显著低于从不使用 AI 的人（70%）。熟悉感冲淡了恐惧，这与历史上多次技术变革中的公众心态曲线一致。另外一个反直觉的结论是：在绝大多数问题上，AI 并没有沿着典型的党派、地域或教育水平分界线撕裂美国社会——美国人普遍渴望兑现 AI 的好处、害怕它带来的冲击、要求建造它的公司负起责任，人们的分歧更多体现在态度的强烈程度，而非方向。为什么重要？这份调查与今天黄仁勋的产业叙事形成了有意思的对照：产业界在谈万亿级的 AI 工厂建设和五层产业蛋糕，而普通人在担心自己的工作、孩子的安全和个人隐私。两者之间的落差不是谁对谁错的问题，而恰恰是未来几年 AI 政策制定与商业决策都必须面对的现实约束。Anthropic 表示这个调查会定期重复并扩展到美国之外，这意味着我们将第一次拥有一条跨年度追踪「公众对 AI 态度」的连续曲线。建议完整阅读原文中的州级数据和方法论附录，尤其推荐关注「使用频率与恐惧程度」的交叉分析。阅读全文 ## 精讲二：黄仁勋谈智能时代的「发电机」：从检索式计算到 AI 工厂这场红杉资本的访谈里，黄仁勋给当下的 AI 基础设施热潮找了一个历史参照物：300 年前的发电机。物理世界的发电机把蒸汽、风力、水流等动能转化为电能；而现代 AI 工厂把这条转换链反过来运行——输入原始的电子，输出结构化的智能 token。这不是一句漂亮的修辞，而是他用来解释「为什么计算范式正在发生 60 年来最大切换」的核心框架。当年发电机的意义不在于发电本身，而在于它催生了围绕电力组织起来的整个工业体系；按同样的逻辑，AI 工厂的意义也不止于训练和推理，而在于一个围绕「实时生成智能」重新组织的计算产业正在成形。先看技术切换的逻辑。自 1964 年 IBM System 360 问世以来，计算一直运行在「检索预存数据」的静态范式中：程序由人手写，媒体以不可变文件的形式录制，数据中心本质上是归档存储的枢纽——用户请求信息，系统从物理磁盘上把数据找出来。生成式 AI 从根本上打破了这个架构：每一段文本回复、每一张合成图像、每一条操作指令，都是基于实时上下文在原点即时构造出来的。过去两年，这种能力又跨过了两个里程碑：早期的生成式翻译（文本到摘要、文本到图像、图像到文本的结构转换），以及如今的智能体推理系统——能做多步规划、内部反思、调用电子表格和浏览器等工具、自主协调执行企业级工作流。再看产业拆解。黄仁勋把整个 AI 基础设施建设比作一块五层蛋糕：第一层是能源，核电、风电、光伏、氢能等电网基础设施迎来前所未有的增长；第二层是计算芯片，包括大规模量产的 GPU、高速交换机和硅光互连；第三层是设施，涵盖土地、吉瓦级供电和数据中心建设；第四层是基础模型，承载对语言、物理规律、生物编码和机器人学的理解；第五层是应用，即面向金融、法律、运营等场景的增值软件。这个分层的好处是把「AI 投资」这个笼统的词拆成了五个资本属性完全不同的赛道——能源和设施是重资产长周期，芯片是制造业节奏，模型和应用则是软件逻辑。落到硬件上，一个典型的计算单元是：72 颗专用计算芯片集成在一个自治服务器机架里，整机约两吨重、造价约 400 万美元、包含超过 150 万个零部件，以高产量直接部署进全球的超大规模数据中心。最后是他对失业焦虑的回应，这一点与精讲一的民调形成了直接对话。黄仁勋用放射科医生和软件工程师举例：AI 自动化的是任务，而不是职业的核心目的——放射科医生的价值从「看片」转向更高层的临床判断，软件工程师的价值从「敲代码」转向定义问题和验证结果。这个「任务 vs 目的」的区分未必能安抚所有人，但它至少提供了一个比「AI 会不会抢走工作」更可操作的分析框架：先问一个职业的核心目的是什么，再问哪些任务可以被自动化，剩下的部分才是人需要重新定位的空间。把这场访谈放进今天的早报里看，价值在于它提供了一张「产业地图」：速览部分的 SpaceX 万亿估值、补充阅读里七巨头 7000 亿美元的资本支出、存储涨价与电力争夺，全都可以在五层蛋糕的框架里找到自己的位置。如果你想理解未来几年资本开支、电力规划和芯片产能为什么会这样流动，这场访谈值得完整观看。观看访谈 ## 精讲三：Kimi K2.7 Code 编程模型已上线 Kimi Code、API 开放平台月之暗面今天发布并开源了 Kimi K2.7 Code 编程模型，发布文章以 Dijkstra 1970 年的名言开场——「编程的艺术，就是组织复杂性的艺术，是掌控庞杂、并尽最大可能避免其沦为畸形混沌的艺术」。这是一次目标非常明确的迭代：专攻编程场景，把性能、效率和智能体能力同时往前推。先看硬指标。相比上一代 K2.6，K2.7 Code 显著提升了长上下文编程场景的指令遵循能力和长程编程任务的性能表现，在内外部代码基准上全面进步：Kimi Code Bench v2 提升 21.8%，Program-Bench 提升 11%，MLS Bench Lite 提升 31.5%。更值得注意的是效率改善：新模型大幅缓解了长程任务中的过度思考倾向，平均 token 消耗减少 30%——也就是用更少的 token 达到更高的性能。对天天跑长任务的智能体编程场景来说，这条「省」的曲线可能比「强」的曲线更直接地决定使用成本。代码能力的进化还带动了智能体能力：在评估 Agent 自主化执行的 Kimi Claw 24/7 Bench、MCP Atlas 和 MCP Mark Verified 基准上，性能提升约 10%。再看获取方式和价格。企业和开发者今天起即可通过 Kimi API 开放平台调用 K2.7 Code，1M token 的标准输入和输出价格与 K2.6 持平，分别为 6.5 元和 27 元，命中缓存的输入价格调整为 1.3 元；Kimi Code Plan 的默认模型也已同步升级，会员计划和企业版用户可以直接体验新模型。模型权重已在 Hugging Face 开放，支持本地部署。有两个使用细节需要特别注意：其一，K2.7 Code 必须开启思考模式（Thinking）才能发挥最佳性能——Kimi API 和 Kimi Code 默认都已开启，但如果手动关闭，API 会直接报错，Kimi Code 则会静默回退到 K2.6，排查性能问题时别忘了先检查这一项；其二，在非编程任务中，官方仍然推荐能力更全面的 K2.6，新模型是一把专用的刀，不是通用的瑞士军刀。最大的悬念留给了下周一。6 月 15 日，K2.7 Code 高速版将通过 API 开放平台上线：同一个模型，输出速度约为普通版的 5 到 6 倍——常规编程场景约 180 token/s，短上下文场景可达 260 token/s，而价格只是普通版的 2 倍，官方的说法是「6 倍速度只要 2 倍价格」。6 月底前，开发者可以通过 Kimi Code Plan 的抢先体验计划在 Kimi Code 中试用高速版；7 月起将逐步开放给 Allegretto 及以上会员，高速版在套餐中的用量消耗为普通版的 3 倍。配合发布，API 开放平台还推出了为期三周的充值赠送活动。为什么值得关注？在 Claude Fable 5、Cursor Composer 2.5 相继刷新编程模型预期的这一周（见速览部分），K2.7 Code 代表了国产开源阵营的回应：不拼大而全，而是在编程这个最有付费意愿的场景里，把「性能、token 效率、推理速度、价格」四个变量同时优化。对于正在搭建 AI 编程工作流的团队，这是一个值得实际接入、跑一轮自家任务集做对比的选项——尤其是下周高速版上线之后，速度敏感型场景（比如交互式结对编程和大批量代码迁移）的体验差异会更加明显。阅读全文 ## 速览 [深度思考：架构腐朽 & Loop Engineering](https://www.bestblogs.dev/article/1706c463)（浮之静）——「屎山源于不敢删，架构活于持续排熵。」作者给屎山下了一个工程上可用的定义：删除任何东西的风险都大于保留它的成本，并拆解出三大症状——局部性丧失（改一行、测全站）、承重 bug（Hyrum 定律的晚期形态：连错误行为都被下游依赖）、疤痕组织（没人删东西，所有人绕着加东西）。文章从 Lehman 软件演化定律讲起：只要系统还活着就会持续变化，变化没有配套的减法，复杂度的无序累积就是腐朽；进而提出在 AI Agent 时代用 Loop Engineering 建立持续排熵的工程循环。一篇罕见地把模糊焦虑转化为可讨论、可测量对象的架构长文。 [神话催生寓言，Cursor 的 Composer 2.5，智能体构建智能体](https://www.bestblogs.dev/article/08a9c3c1)（The Batch | DeepLearning.AI）——本期 The Batch 信息量很大：Anthropic 的 Claude Mythos 5 与 Fable 5 双模型、Cursor 自研的 Composer 2.5，以及由 Anthropic 生产力数据引发的递归自我改进（RSI）讨论。Andrew Ng 的开篇信尤其值得读：他鼓励大家尝试桌面智能体——不只是聊天，而是直接读写本地文件、收发消息、定时交付，并解释了 agent harness 如何让前沿模型自主驱动「下一步做什么」的关键循环；他同时提醒，机密任务上要警惕商业桌面智能体藏在法律条文深处、可能随新模型一夜变更的数据留存政策。 [科技爱好者周刊（第 400 期）：rsync 的争论](https://www.bestblogs.dev/article/d1462f58)（阮一峰的网络日志）——第 400 期周刊聚焦一场标志性争论：有人发现服务器基础命令 rsync 的 3.4.3 版本由 Claude 生成，GitHub 上题为「不要乱搞这个软件」的批评帖已有 300 多条发言。维护者 Andrew Tridgell 的回应很有代表性：他本已准备退休，却突然收到大量由 AI 发现的安全报告，意识到未来的攻击必然由 AI 驱动，而自己的精力已不足以应对，于是选择让 AI 写代码、自己转向编写更严格的测试用例。阮一峰的判断是「AI 写代码 + 人类测试」可能成为大型开源项目的常见运作模式——无人付酬的开源项目，恐怕没有第二条路。 [SpaceX 敲钟，马斯克成人类首个「万亿美元先生」，400 名员工身家过亿](https://www.bestblogs.dev/article/ff2e8373)（腾讯科技）——SpaceX 以每股 135 美元发行、募资 750 亿美元，是 2019 年沙特阿美的两倍有余，创下全球史上最大 IPO；开盘价 150 美元，市值一度突破 2 万亿美元，全球排名第六。认购热度惊人：总需求超 2500 亿美元，仅散户订单就超过 1000 亿美元。造富效应同样罕见：超过 4400 名在职与离职员工跻身百万富翁，约 400 人账面财富过亿。但分歧也很尖锐——做空者查诺斯称之为「建立在希望与梦想之上的狂欢」，晨星给出的公允价值仅每股 63 美元，较发行价折价超过一半。 [从蛋白质模型到智能体编程：5 篇论文看 AI 研究正在走向哪里](https://www.bestblogs.dev/video/18e855a)（Y Combinator）——这场 YC 技术 meetup 用 5 篇论文勾勒出正在成形的研究方向：蛋白质模型的 scaling laws、自引导 selfplay 强化循环、流式实时 RAG 架构、基于 Lean 的数学化代码验证，以及借鉴高 APM 游戏战术的智能体软件工程框架。开场还讨论了持续学习、样本效率与硬件极限等基础性约束，以及对「模型仅靠人类数据子空间就能采样完整解空间」这一假设的普遍怀疑。适合想跳出产品新闻、看清研究脉络的读者，五个方向覆盖了从生物到编程的完整光谱。 [万字长文：做了些爆款 Skills 以后，我对 Skills 的看法](https://www.bestblogs.dev/article/54575866)（歸藏的AI工具箱）——基于 PPT、社交媒体卡片、Logo 生成器等爆款 Skills 的真实实践，歸藏给出了一个核心判断：Agent 不是抹平能力差距，而是放大能力差距，目标清晰、品味和判断强的人被放大，目标混乱的人也被放大混乱，用户正在 K 型分化。Skill 的价值在于弥合这道鸿沟——它不是单纯的提示词，而是把专家经验、工作流、品味和工具调用封装成可安装、可分发、可迭代的「能力商品」。文章对 Skill 的架构、设计、维护与生态边界都有系统论述，是目前中文世界关于 Skills 最完整的实践总结之一。 [Claude Fable 展现出不懈的主动性](https://www.bestblogs.dev/article/67accc9f)（Simon Willison's Weblog）——使用两天后，Simon Willison 用「relentlessly proactive」概括 Claude Fable 5：它掌握一大堆技巧，并且会动用其中任何一个来达成目标。他只丢了一张截图和一句提示词，让模型排查一个 CSS 横向滚动条 bug，自己就走开了。回来时发现模型已经自主打开了他的 Firefox 和 Safari、用 pyobjc 调用 Quartz 定位窗口编号并截屏、自建本地测试页面逐项对照 CSS 属性——所有这些手段都没人教它。一篇生动的一线观察，展示了新一代模型「为达目标穷尽工具箱」的工作风格，可与速览中 The Batch 对桌面智能体的讨论对照阅读。 ## 补充阅读 - [Spring AI 2.0.0 GA 正式发布](https://www.bestblogs.dev/article/9ed27696)（Spring Blog）——以 Spring Boot 4 为基础，带来 Jackson 3、空安全、重构的选项系统与 MCP Java SDK 正式集成。Java 后端团队接入 AI 能力的事实标准更新，建议相关团队对照升级说明评估迁移。 - [迎接智能体就绪的 Web：用 WebMCP 简化用户操作](https://www.bestblogs.dev/video/6ff3380)（AI Engineer）——Chrome 团队介绍实验性浏览器标准 WebMCP：让网站把客户端能力暴露为结构化工具，供浏览器内 AI 智能体直接调用，替代脆弱的 DOM 抓取。前端工程师和做浏览器智能体的团队应当跟进。 - [领域中心？为什么 Hexagonal 与 Onion 架构回答的是错误的问题](https://www.bestblogs.dev/video/f2dd2f0)（Spring I/O）——Spring Modulith 作者 Oliver Drotbohm 的反共识演讲：六边形与洋葱架构本质只是分层架构的依赖反转，并未解决领域拆分；他主张垂直切片加包级封装。适合正在做架构选型的后端架构师。 - [学会记住什么：基于认知的智能体记忆多因素价值模型](https://www.bestblogs.dev/article/008361e6)（arXiv.org – AI）——提出七因子可解释的记忆价值函数，在固定记忆预算下统一控制编码、遗忘和检索。给长时运行 Agent 设计记忆系统的工程师提供了一个超越「语义相似度 + 时近性」的框架。 - [Box AI 如何借助 Deep Agents 构建企业级内容智能体](https://www.bestblogs.dev/article/06adaad3)（LangChain Blog）——Box 用 LangChain 的 Deep Agents 框架实现递归父子智能体架构，从单文档问答一路演进到跨数千文档的综合分析，且始终尊重既有的安全与权限模型。一份难得的企业级 Agent 落地参考，适合做企业知识系统的团队。 - [所有人都在为 7000 亿账单兜底](https://www.bestblogs.dev/article/4b8de76e)（腾讯科技）——硅谷七巨头 2026 年预估 7000 亿美元 AI 资本支出的连锁反应：买空台积电先进产能、推高存储价格、与社区争夺电力，连库克、雷军、余承东都先后被供应链「卡脖子」，风险再通过 SPV 等金融工具层层转嫁给普通消费者。与精讲二的 AI 工厂叙事对照阅读，体感更立体。 ## 今日阅读路径今天的内容密度偏高，如果你只有 30 分钟，建议按「先工具、再民意、后框架」的顺序读三篇： 1. 先读精讲三 [Kimi K2.7 Code](https://www.bestblogs.dev/article/7ed2852b)——最具行动价值：价格不变、效率提升 30%，下周还有 6 倍速高速版，正在搭 AI 编程工作流的人应该今天就去试。 1. 再读精讲一 [Anthropic 公众调查](https://www.bestblogs.dev/article/05a21063)——理解 AI 行业最稀缺的变量：公众信任。「每天用 AI 的人反而更不怕失业」这一条，值得转给你身边焦虑的朋友。 1. 最后看精讲二 [黄仁勋的 AI 工厂](https://www.bestblogs.dev/video/93f8c99)——五层产业蛋糕和「数字发电机」框架，会帮你把今天速览里的 SpaceX、7000 亿资本支出等新闻装进同一张产业地图。时间更充裕的话，浮之静的架构腐朽长文和歸藏的 Skills 万字总结是本周不可多得的两篇深度实践文章，一篇向后看系统如何腐朽、一篇向前看能力如何封装，适合周末配一杯咖啡精读。做 Java 后端的读者，则不要错过补充阅读里 Spring AI 2.0.0 和 Oliver Drotbohm 架构演讲这对组合。 BestBlogs 是 AI 驱动的私人阅读助手，帮助你建立稳定、可信、个性化的高质量信息输入。它帮你判断什么值得读、协助你读懂，并逐渐理解你关注什么。这是面向所有人的每日早报内容，如果你希望它基于你的兴趣和阅读习惯整理，可以体验「我的早报」 https://www.bestblogs.dev/reading/brief

译Anthropic首份全美AI民调覆盖51993人：48%期待AI攻克癌症，64%担心失业，仅15%信任AI公司自行开发。黄仁勋以发电机类比AI工厂，提出五层产业蛋糕（能源/芯片/设施/模型/应用），每个计算单元含72颗芯片、造价约400万美元。月之暗面开源Kimi K2.7 Code编程模型，相比K2.6平均token消耗减少30%，Kimi Code Bench v2提升21.8%，Program-Bench提升11%，MLS Bench Lite提升31.5%。

karminski-牙医@karminski3 · 6月13日63

KIMI K2.7 Code 来了, K3 还会远吗? KIMI K2.7 Code 刚刚发布! 本次 K2.7-Code 是一个编程/Agent专项模型, 其中提升最大的是 kimi 自己的测试项目 kimi-code-bench-v2, 与 k2.6 相比提升了11%! 其它几个 Agent 测试项目也有不小的提升. 不过从架构上看, 其实这个模型与 K2.6 是完全一致的. 所以它是一个后训练优化版本. 于是我给大家写了个适用场景指南: 首先编程任务无疑使用这个新模型会更合适. 另外, Agentic 任务也可以尝试切换, 比如先用AI生成, 然后需要使用 Agent 进行验证的任务, 例如简历筛选, PR 审查这类需要外部 Agent 参与进行评分或者进行数据整合/格式化的的任务也很适合切换到这个新模型. 稍后有时间给大家带来详细测试! #kimik27code #kimik27

译KIMI K2.7 Code正式发布，为编程/Agent专项模型，架构与K2.6一致，属后训练优化版本。在kimi自测的kimi-code-bench-v2上较K2.6提升11%，其他Agent测试项目同样有提升。适用场景包括编程任务以及需要Agent参与的验证任务（如简历筛选、PR审查等）。

Peter Steinberger 🦞@steipete · 6月13日47

How am I only now finding out about appshots? I was dragging screenshots into codex live a caveman.

译我怎么现在才发现appshots？我之前还像个穴居人一样把截图拖进Codex Live。

MiniMax (official)@MiniMax_AI · 6月13日73

With only ~428B params, and ~23B activated params M3 still handles frontier coding + long-horizon agents + native multimodal (text, image, video) at 1M-token context few open-weight models do any of this. M3 does all of it. Thanks @baseten 🚀

译MiniMax 开源 M3 模型，约 428B 总参数、23B 激活参数，支持前沿编码、长周期智能体任务及原生多模态（文本、图像、视频），上下文窗口达 1M token。开放权重，可在 Baseten 部署。在少于 500B 参数的模型中，能同时兼顾编码、智能体工作负载和 1M 上下文的模型极少，M3 全部实现。

Peter Steinberger 🦞@steipete · 6月13日52

IMO sth that is a bit overlooked but will become far more important in the future. GPT is 10-20x more token+cost effective for ~similar outcome.

译Peter Steinberger 指出 GPT 在 token 消耗和成本上比 Fable 高效 10-20 倍，且能达到相似结果。@thorstenball 的对比测试印证：让 Fable 和 deep^2 完成相同的 CLI、Web 服务器等多端功能，deep^2 花费 $20（首次未通过但可修复），Fable 运行 1 小时 40 分、花费 $350（首次成功）。后续追问后 Fable 总花费达 $457，deep^2 预计最多 $40，差距约 17 倍。

Ethan Mollick@emollick · 6月13日63

10 months later, I gave Claude Code with Fable the same brief, asking it to construct SimRefinery from surviving screenshots and documentation. Fully playable, with a learning mode & all sorts of sophistication. Look at the difference from the old version! https://simrefinery.netlify.app/

译10个月后，Ethan Mollick 再次向 Claude Code 和 Fable 下达同一指令——根据幸存截图和文档重建失传的 Maxis 模拟游戏 SimRefinery。新版本完全可玩，包含学习模式等多种复杂功能，与10个月前 ChatGPT Codex 仅凭一篇文章和截图快速搭建的可玩原型形成鲜明对比。当时他未写一行代码，仅偶尔提小修改请求。

OpenCode@opencode · 6月13日50

Kimi 2.7 Code now available in Go text · image · optimized for coding similar pricing as 2.6

译Kimi 2.7 Code 现已在 Go 中可用文本 · 图像 · 针对编码优化定价与 2.6 相似

🚨 AI News | TestingCatalog@testingcatalog · 6月13日48

Kimi-K2.7-Code is now available on AI/ML API 👀 > Kimi K2.7 Code is the latest agentic coding model from Kimi AI that supports extended reasoning and tool use. > AI/ML API is a single gateway to Chat, Reasoning, Image, Video, Audio, Voice, Search, and World models under one bill. Kimi K2.7 Code can be tested on both Playground and APIs.

译月之暗面最新智能体编码模型 Kimi-K2.7-Code 已在 AI/ML API 平台上线，支持扩展推理和工具使用，可通过 Playground 和 API 测试。为验证其自我修正能力（而非一次性生成），研究者让四个 Kimi 智能体运行一个 2D 飞行物理模拟，目标是从发射到入轨并让助推器着陆。四次飞行中：第一次在最大动压处解体；第二次过关但分离过早失败；第三次成功入轨但未抓住着陆船；第四次修正着陆计算后成功着陆。该过程展示了模型通过迭代闭环调试从失败中自动学习。

OpenAI Developers@OpenAIDevs · 6月13日42

Codex is how @ndrewpignanelli at @intelligenceco updates multiple parts of a website in parallel, turning a week of work into three days.

译Codex 让 @intelligenceco 的 @ndrewpignanelli 能够并行更新网站的多个部分，将一周的工作量缩短为三天。

Emad@EMostaque · 6月13日40

So looks like @SpaceX will spend 2.5% of its market cap to buy @cursor_ai at 15x revenue 👀

译看起来 @SpaceX 将花费其市值的 2.5% 以 15 倍营收收购 @cursor_ai 👀

elvis@omarsar0 · 6月13日69

How to effectively run autonomous long-running coding agents? This is one of the most exciting discussions on agents I've ever had. I recorded it and am making it freely available. (bookmark it) The idea of autonomous long-running agents is a real thing. We talk about lots of things like /goal, /loop, and dynamic workflows, and what comes next. One interesting discussion was around how to make the agent run for longer while ensuring it stays on track. Most models today will struggle to coordinate work effectively. They sometimes pause the work early. Lots of mistakes happen, and lots of weird shortcuts (reward hacking). What helps is to be extremely clear about the goals it needs to achieve. To clarify the dos and don'ts clearly. Eliminate any assumptions you think the model would make. Deep expertise matters so much in this. But you can get far through careful planning. My formula currently is to use Opus 4.8 for planning carefully and GPT-5.5 for all executions. For the evaluator (via /goal), I am often using something like Deepseek or the latest models from Qwen, Kimi, and MiniMax, etc. Another insight we discussed to enforce goals is to provide strong visual cues for the agent to compare with. I found that a multimodal goal is a much stronger goal than a plain text one. And use agents to help you set clear goals. Watch here: https://academy.dair.ai/events/cmplo7v3b000e04l1pxprat4d

译DAIR.AI创始人Elvis Saravia分享如何有效运行长期自主编码智能体。他指出当前多数模型难以协调工作，会过早暂停、犯错或走捷径（reward hacking）。关键在于明确目标、消除假设，避免模型自行推断。他的实践公式：用Opus 4.8进行细致规划，GPT-5.5执行所有步骤，评估器（通过/goal）则使用Deepseek及Qwen、Kimi、MiniMax等最新模型。另一关键洞察是提供多模态视觉线索作为目标，比纯文本目标更强，能更好地约束智能体。完整讨论已录制并免费开放。

Ammaar Reshi@ammaar · 6月13日53

I asked Claude Fable 5 to reverse engineer a 1993 DOS game with no source code. It read the raw machine code, rewrote the engine in C, and gave me a fully editable port for every platform. 30 min from EXE to iPhone. Sharing it all so you can revive your own childhood games!

译我让Claude Fable 5逆向工程了一款1993年的DOS游戏，没有源代码。它读取了原始机器码，用C重写了引擎，并给了我一个完全可编辑的移植版，适用于每个平台。从EXE到iPhone，30分钟。分享这一切，让你也能复活自己的童年游戏！

jason@jxnlco · 6月13日16

codex users! how have you found codex'x ability to use (correctly) computer use / chrome extension / in app browser? if you want to give us feedback leave a comment and I'll organize it for the team!

译codex 用户们！你们觉得 codex 在（正确）使用电脑/Chrome 扩展/应用内浏览器方面的能力怎么样？如果想给我们反馈，请留下评论，我会整理给团队的！

Tibo@thsottiaux · 6月13日50

Heard your (amusing) feedback that it was at times annoying to receive a reset of your Codex usage without warning. Next time we press the button you will get to choose when it actually applies. Happy codexing.

译听到了你们（有趣的）反馈，说有时在毫无预警的情况下收到 Codex 用量重置让人烦心。下次我们按按钮时，你可以选择它实际何时生效。祝编程愉快。

jason@jxnlco · 6月13日46

codex for open source! just granted about another huge batch including some that you might recognize! tensorflow/tensorflow n8n-io/n8n twbs/bootstrap github/gitignore ytdl-org/youtube-dl vercel/next.js 30-seconds/30-seconds-of-code kubernetes/kubernetes papers-we-love/papers-we-love angular/angular neovim/neovim microsoft/web-dev-for-beginners florinpop17/app-ideas bitcoin/bitcoin gin-gonic/gin microsoft/playwright laravel/laravel gothinkster/realworld spring-projects/spring-boot tensorflow/models apple/swift unclecode/crawl4ai tldr-pages/tldr snowpackjs/astro embedchain/embedchain vim/vim pingcap/tidb jonnyburger/remotion aspnet/aspnetcore seleniumhq/selenium jqlang/jq immutable-js/immutable-js anncwb/vue-vben-admin pynecone-io/pynecone martinvonz/jj serverless-stack/serverless-stack manojvivek/responsively-app trekhleb/homemade-machine-learning sipeed/picoclaw spicetify/spicetify-cli vueuse/vueuse guidance-ai/guidance nautechsystems/nautilus_trader hshoff/vx preservim/nerdtree officedev/office-ui-fabric-react carlospolop/peass-ng reduxjs/reselect adonisjs/adonis-framework rizinorg/cutter facebookresearch/llama-recipes stackexchange/dapper resendlabs/react-email tomav/docker-mailserver lichess-org/lila google/libphonenumber apache/incubator-brpc googlechrome/chrome-app-samples hwchase17/langchainjs fanux/sealos argoproj/argo argoproj/argo-workflows rjsf-team/react-jsonschema-form secureauthcorp/impacket scylladb/scylla uuidjs/uuid cayleygraph/cayley cesiumgs/cesium eclipse-vertx/vert.x pyodide/pyodide jetstack/cert-manager rileytestut/altstore sunnyyoung/wechattweak-macos pydanny/cookiecutter-django pandas-profiling/pandas-profiling espanso/espanso ansible-semaphore/semaphore k9mail/k-9 nock/nock dotnet/aspnetcore.docs selectize/selectize.js mozilla-mobile/firefox-ios wanghongenpin/network_proxy_flutter webpack-contrib/webpack-bundle-analyzer alicevision/meshroom actions/virtual-environments jxnl/instructor theramu/fay svprogresshud/svprogresshud lexikos/autohotkey_l lipis/flag-icon-css redpanda-data/redpanda vega/vega mrjbq7/ta-lib uber/ludwig keplergl/kepler.gl devicons/devicon crossplane/crossplane openaccess-ai-collective/axolotl go-shiori/shiori audiokit/audiokit pyroscope-io/pyroscope px4/px4-autopilot quickwit-oss/quickwit vuecomponent/ant-design-vue-pro divanteltd/vue-storefront k2-fsa/sherpa-onnx jantimon/html-webpack-plugin mockery/mockery automattic/node-canvas divio/django-cms containers/skopeo kubernetes/kompose lucia-auth/lucia microsoft/fluentui-system-icons triton-inference-server/server pressly/goose altair-viz/altair pwndbg/pwndbg maplibre/maplibre-gl-js webtorrent/webtorrent-desktop hackmdio/codimd

译Codex 为开源项目提供免费授权，最新一批包括 TensorFlow、Next.js、Kubernetes、Angular、Swift、Spring Boot、Playwright、Vim、Bitcoin、n8n、Bootstrap、酷狗（30-seconds-of-code）等大量知名开源仓库，列表涵盖机器学习、前端框架、基础设施、游戏开发、数据库等众多领域。具体授权范围和细则未在推文中说明。

Replit ⠕@Replit · 6月13日31

Agent Superpowers: Skills + Custom Instructions https://x.com/i/broadcasts/1kJzDDnMvrWKv

译Agent 超能力：技能 + 自定义指令 https://x.com/i/broadcasts/1kJzDDnMvrWKv

Claude@claudeai · 6月12日40

Claude Fable 5 has been out for a couple of days. Some projects people have already built with it:

译Claude Fable 5 已经发布几天了。人们已经用它构建的一些项目：

Deedy@deedydas · 6月12日72

Claude 5 Fable (Ultracode) "Make a playable alpine glacial valley at sunrise" No meshes or models. Everything you see is math. Fable screenshotted its own work and iterated. Took ~30 mins, ~500k tokens, ~2500 lines of code, and ~$25. Extremely impressive.

译Claude 5 Fable (Ultracode) "在日出时制作一个可玩的高山冰川山谷" 没有网格或模型。你所看到的一切都是数学。Fable 截取了自己作品的屏幕截图并进行了迭代。耗时约 30 分钟，约 500k tokens，约 2500 行代码，约 25 美元。极其令人印象深刻。

AYi@AYi_AInotes · 6月12日56

我感觉Garry Tan今天这条帖子有点戳破了AI编程的一些泡沫和幻觉。很多人都以为AI编码工具会解放创始人，实际呢，规则，审批，流程，层级，同一座牢笼只是搭得更快了。以前加一层审批要耗两个工程师两周，成本本身就是免疫系统，不值得的东西自然活不下来，但现在AI一个下午就能搭完，在构建成本归零的那一刻，复杂度就开始无限制的繁殖了。因为构建的速度，就是僵化的速度。 AI其实会改变我们的心智模型，只会把我们已有的东西放大，控制型团队用它堆出更密的官僚体系，创造型团队用它跑出更多的新体验，这两种工具本身都没有立场，它只是一面带编译器的镜子。所以我们别忙着用AI把旧流程跑的更快，可以试着去用AI删掉整个旧流程，去重新创造以前从未发生过的体验，不然可能就是赢了效率，输了方向。

译Garry Tan指出AI编码工具并未解放创始人，反而让人更快搭建规则、审批、流程、层级——同一座牢笼装配更快。以前加一层审批需两周，成本本身是免疫系统；现在AI一个下午就能完成，复杂度无限繁殖，构建速度即僵化速度。AI放大已有心智模型：控制型团队用它堆官僚，创造型团队用它创造新体验。提醒不要用AI把旧流程跑得更快，而应删掉整个旧流程，创造前所未有的事，否则赢了效率输了方向。

MiniMax (official)@MiniMax_AI · 6月12日81

MiniMax M3, Open-Weight, Now On Hugging Face , with only ~428B parameters and ~23B activated parameters Weights: https://huggingface.co/MiniMaxAI/MiniMax-M3 MiniMax Sparse Attention: https://huggingface.co/papers/2606.13392

译MiniMax 发布开源权重模型 M3，约 428B 总参数、23B 激活参数，已上传 HuggingFace。该模型融合三种前沿能力：编码与智能体方面达 59.0% SWE-Bench Pro、66.0% Terminal Bench 2.1、34.8% SWE-fficiency、28.8% KernelBench Hard、74.2% MCP Atlas；采用 MiniMax 稀疏注意力将上下文窗口扩展至 1M token；原生多模态。同步上线 MiniMax Code 工具及 API 平台。权重与技术报告预计约 10 天后发布。

🚨 AI News | TestingCatalog@testingcatalog · 6月12日57

KIMI AI🔥: A new open-source “Kimi K2.7 Code” model has been released on APIs and Huggingface! > Improved coding & agent performance over K2.6 > Reasoning efficiency > Long-horizon coding Testing time 👀

译KIMI AI🔥: 一个新的开源“Kimi K2.7 Code”模型已在 API 和 Huggingface 上发布！ > 相比 K2.6，编码与智能体性能提升 > 推理效率 > 长时域编码测试时间 👀

Chubby♨️@kimmonismus · 6月12日66

Moonshot just released Kimi-K2.7 code, a huge upgrade to Kimi-K2.6! Big jump over K2.6: +21.8% on Kimi Code Bench v2 +11.0% on Program Bench +31.5% on MLS Bench Lite It also uses 30% fewer reasoning tokens, follows instructions better, and improves long-horizon coding tasks. 6x High-Speed Mode is coming soon. Good to see open source competition catching up

译Moonshot 发布并开源 Kimi-K2.7-Code 编程模型，相比 K2.6 在多个基准上大幅提升：Kimi Code Bench v2 提高 21.8%，Program Bench 提高 11.0%，MLS Bench Lite 提高 31.5%。推理效率优化，推理 token 使用量降低 30%，指令遵循与长时编码任务成功率提升。即将推出 6 倍高速模式。模型现已通过 Kimi API 和 Kimi Code 开放使用。

🚨 AI News | TestingCatalog@testingcatalog · 6月12日60

KIMI AI🔥: A new open-source “Kimi K2.6 Code” model has been released on APIs and Huggingface! > Improved coding & agent performance over K2.6 > Reasoning efficiency > Long-horizon coding Testing time 👀

译KIMI AI🔥：全新开源 “Kimi K2.6 Code” 模型已在 API 及 HuggingFace 发布！ > 较 K2.6 改进编码与智能体性能 > 推理效率 > 长时编码测试时间 👀

小互@xiaohu · 6月12日76

http://x.com/i/article/2065389944034775040 # Claude Fable 5 官方指南：省钱又有用的使用方法拆解 Anthropic 上了新模型 Claude Fable 5，是现在能用到的最强的一个，专门用来接以前接不住的长活、难活。 Anthropic 同步发布了一份官方提示词工程指南：Fable 5 的能力跃升太大，旧的提示词和编排架构会拖后腿，你需要重新学怎么用它。但其实官方指导总结下来很简单就是：让你先删提示词！ - Fable 5 能持续多天执行目标导向任务，单次请求在高 effort 下可运行数分钟，自主运行可达数小时 - 指令遵循能力强到不再需要逐条列举禁止行为，一条简短指令就能引导大多数行为 - 旧模型的提示词对 Fable 5 来说往往"过于规范化"，反而降低输出质量，官方建议做减法 - 新增 effort 分级控制（low/medium/high/xhigh），Fable 5 的 low 可能就超过旧模型的 xhigh - 并行子代理调度成为一等能力，模型会主动分派并行任务下面我把这份指南，挑出真正影响你怎么用它的几块说说：它强在哪、两个得你主动喂的新能力、effort 怎么调、一份按档位算账的省钱指南、它新冒出来的几个脾气怎么治（带能直接抄的提示词）、迁移要避哪些坑。看你怎么用 Claude，各取所需。 ## 先说为什么强了反而要删提示词打个你熟的比方。新来的实习生，你得把话说死：第一步干嘛、第二步干嘛、碰到这种情况怎么办、那种情况别碰。不是他笨，是他没经验，你不写清楚他真会出岔子。但同一张事无巨细的清单，拿去管一个干了十年的老手，会怎样？他本来凭经验就能把事办得漂亮，结果被这张清单捆住手脚，照着那些其实不太高明的规矩来，活儿反而干差了。你给 AI 写的那些提示词，大多是当年伺候实习生攒下来的。模型不够聪明的时候，你得一条条堵住它可能犯的错。Fable 5 的意思是，它已经是那个老手了，你那摞老规矩现在是绑手绑脚。官方原话是，为旧模型写的规则对它来说常常管得太细，反而把输出质量拉低。这条我自己的体感能印证。昨天我测试的这个案例就是很简单的提示：帮我制作一个详细介绍黑洞是如何诞生的超炫酷动画页面。 ## 它到底强在哪，值不值得你折腾官方在讲技巧之前，先列了七项能力提升。挑你能直接感觉到的说： - **长任务不忘事：**它能连着干好几天的目标任务，跨多天从头记到尾，不像老模型干到后面把你最初的要求丢了。 - 经常一遍就做对：早期试用的人说，以前要来回返工好几天才跑通的系统，它单次就实现了。不是说它从不出错，是只要你把要求讲清楚，一把过的概率高了很多。 - 自己看图、自己查问题：给它糊的、歪的截图，它自己想办法处理，还被专门训练过用工具裁剪图片；查老问题能翻代码的历史记录，定位到是哪次改动埋的雷。 - 找 bug 更准：在安全限制之外的领域，它翻代码、翻仓库历史揪 bug 的能力，明显比上一代 Opus 4.8 高。 - 自己带一队分身：它能把一个大活拆开，派给好几个子代理同时干，自己当调度的工头，还盯着每个分身的进度。除了这几项，它几乎在所有任务上都比旧模型强。一个实用建议是，别只拿简单活去测它，那样会低估它的上限；把你手头最难、最久、还没解开的问题丢给它，才看得出它到底能干到哪。 ## 两个最值钱的新能力，得你主动喂 Fable 5 真正比上一代强一大截的地方，但你不主动给，它发挥不出来。第一个，放手让它派一队分身。它能当工头，但你得明确告诉它“可以多派分身、各干各的、别干等着一个个回来”，它才放得开。 > Delegate independent subtasks to subagents and keep working while they run. Intervene if a subagent goes off track or is missing relevant context. > 把相互独立的子任务派给子代理，它们跑的时候你接着干自己的。某个子代理跑偏了，或者缺了相关上下文，再去干预。让分身长期留着、跨任务保留上下文，还能省缓存、不卡在最慢那个上。这个能力还能直接变成省钱手段，后面「省钱指南」一节有完整玩法。第二个，给它一个记事本。给它一个地方记笔记，简单到一个文本文件就行，让它把每次踩的坑、确认有效的做法记下来，下次翻出来用，它会越用越顺。官方给的记笔记规矩是这样： > Store one lesson per file with a one-line summary at the top. Record corrections and confirmed approaches alike, including why they mattered. Don't save what the repo or chat history already records; update an existing note rather than creating a duplicate; delete notes that turn out to be wrong. > 一个文件只存一条经验，顶上写一句话摘要。纠正和确认有效的做法都要记，连同它们为什么重要。仓库或聊天记录里已经有的别存；同一件事更新那条已有的笔记，别新建一条重复的；后来发现记错的，删掉。这几条跟我自己给 Claude 配的记忆系统几乎一字不差。我那套也是一个文件一条、顶上一句摘要、记纠正也记确认、都写明为什么、重复的更新不新建、错的直接删。我搭它的时候没参考任何标准，是自己踩着坑一条条补出来的土办法。现在看到官方把同样的规矩写进指南，我的判断是：这份指南不只是教你用新模型，更像是官方把一批重度用户摸出来的土办法，收编成了标准。模型越能自己记事、自己复盘，“记忆该怎么管”这点功夫就越值钱。还有个小习惯，省事又好用：交代任务时，把“为什么要这么做”也一起说了，别光丢一句命令。它懂了你的目的，自己就能把事跟相关信息对上，不用瞎猜。套个模板： > I'm working on [the larger task] for [who it's for]. They need [what the output enables]. With that in mind: [request]. > 我在做[更大的任务]，是给[谁]用的，他们需要[这个产出能带来什么]。基于这个背景：[具体请求]。 ## effort：Fable 5 上最重要的那个旋钮这是这代最该先搞懂的一个参数。effort 控制的是模型的智力、速度、成本三者怎么权衡，分四档：low、medium、high、xhigh。官方的建议是：大多数任务用 high 当默认，最吃能力的硬活用 xhigh，日常杂活用 medium 或 low。 Fable 5 的低档，比Opus旧模型拉满的 xhigh 还强。所以别习惯性把它顶到最高，那既慢又贵。任务能做完但花的时间比该花的长，或者你想要更快、更能来回聊的节奏，就往下降档。怎么配： ## Fable 5 省钱指南：单价贵一倍，账单可能更便宜 Claude Fable 5 的 token 单价是 Opus 4.8 的两倍（输入 $10/M，输出 $50/M），但多个实测数据显示，因为模型更聪明、完成同一任务用的 token 更少，最终账单在复杂任务上反而可能更低。省钱的底层逻辑不是“少想”，而是“少犯错”。先看数据：Fable 5 Low 档 vs Opus 4.8 Max 档下面这组数据来自第三方代码基准测试，这组对比是省钱策略最直接的证据：这背后的逻辑，Claude Code 之父 Boris Cherny 称：以前不够聪明的模型，写错了改、跑挂了重跑，每一轮都在烧 token。Fable 5 单任务 token 更少、纠错动作更少，实际上消耗的token更少，砍掉的就是这部分隐性成本。策略一：日常任务直接开 Low 档 Fable 5 Low 档的 64.2% 得分，已经超过了榜单上除 Fable 自己以外的几乎所有模型配置，包括 Opus 4.7 Max（64.8%，但成本 $11.02）、GPT-5.5 Extra High（64.3%，成本 $4.37）、Opus 4.8 Extra High（62.1%）。适用场景：代码编写、调试、日常开发。不是每个任务都需要模型全力思考，Low 档就够了。策略二：要更高质量，Medium 是性价比甜区 Fable 5 各档位的成本收益曲线：从 Low 到 Medium，多花 $2.57 换了 5.6 个百分点，性价比最高。从 Medium 往上，每多花一块钱换来的分数增幅越来越小。High 到 Max 之间多花了 $7.21，只多拿了 2.3 个百分点。 Medium 档的 69.8% 已经超过了榜单上所有非 Fable 的模型配置。对大多数任务来说，这就是天花板了。策略三：复杂项目让 Fable 当指挥，Opus/Sonnet 干活有人分享了一个更牛P、更省Token的玩法，那就是：用 Dynamic Workflow 模式，让 Fable 做编排器（orchestrator）负责理解需求、拆任务、做决策，把实际写代码、跑测试的执行层交给 Opus 或 Sonnet。具体配置三步： 1. 主模型设成 Fable 5 1. effort 开到 Max（最大推理深度） 1. 让 Claude 跑一个 Dynamic Workflow（动态工作流）：Fable 当编排器只管想清楚做什么，Opus 当执行层负责写代码、调试、分析 Fable 5 的核心优势是判断力和调度能力——前面「派一队分身」讲的就是这个，不需要用它的算力写每一行代码。就像公司请了一个年薪两百万的 CTO，不会让他天天写 CSS，让他定架构做决策就行了，写代码的活交给工程师团队。适用场景：大型项目、多步骤工程任务、需要长时间运行的代理工作流。 ## 选档速查表 ## 两个注意事项安全分类器会自动降级。涉及网安、生化、模型蒸馏等敏感请求时，系统自动切到 Opus 4.8 回答，按 Opus 价格计费。Anthropic 说触发率不到 5% 的会话。限时免费窗口。 6 月 22 日之前，Pro、Max、Team 及按席位计费的企业版用户可以直接使用 Fable 5。6 月 23 日起开始消耗用量积分。使用 Fable 5 需要开启 30 天数据保留。 ## 它的几个新脾气，逐个治（带能抄的提示词）模型变强是有代价的：它会自作主张、用力过猛，长时间跑还冒出几个怪毛病。这份指南大半篇幅都在讲这个，也是对你最实用的部分。下面每段提示词，我都给了英文原文和中文版两个方框，抄英文或抄中文都行、效果一样；只想了解意思的，看中文那段就够。 1. 它默认跑很久，你的“等待方式”得改一个难活它能跑好几分钟，全自动能跑好几个钟头。你的程序要是还按“几秒钟必回”设计的，会误以为它卡死了。治法：把超时放宽、给用户加进度提示，更聪明的是别干等，像交代完事就去忙别的、过会儿回来看一眼。另外任务说得含糊时，它容易在那儿反复盘算。加这条让它信息够了就动手： > [text] When you have enough information to act, act. Do not re-derive facts already established in the conversation, re-litigate a decision the user has already made, or narrate options you will not pursue in user-facing messages. If you are weighing a choice, give a recommendation, not an exhaustive survey. This does not apply to thinking blocks. > [text] 信息足够就动手。不要重复推导对话里已经确认过的事实，不要再争论用户已经拍板的决定，也不要在给用户看的消息里罗列你不会采用的选项。如果你在权衡，就直接给一个建议，而不是把所有可能都铺一遍。本条不适用于思考过程。 2. 它太勤快，会干你没让它干的事高 effort 下它爱顺手“打扫卫生”：修个 bug 顺带重构、一次性的操作非要写个 helper、给不可能发生的情况加一堆容错。一条按住它别过度收拾： > Don't add features, refactor, or introduce abstractions beyond what the task requires. A bug fix doesn't need surrounding cleanup and a one-shot operation usually doesn't need a helper. Don't design for hypothetical future requirements: do the simplest thing that works well. Avoid premature abstraction and half-finished implementations. Don't add error handling, fallbacks, or validation for scenarios that cannot happen. Trust internal code and framework guarantees. Only validate at system boundaries (user input, external APIs). Don't use feature flags or backwards-compatibility shims when you can just change the code. > 不要添加任务没要求的功能、重构或抽象。修一个 bug 不需要顺手清理周边代码，一次性的操作通常也不用单写一个辅助函数。不要为假想的未来需求做设计，用最简单、能跑好的办法就行。避免过早抽象和半成品实现。不要为不可能发生的情况加错误处理、兜底或校验。信任内部代码和框架本身的保证，只在系统边界（用户输入、外部接口）做校验。能直接改代码的地方，别用功能开关或向后兼容的垫片。还有一种是你只想听它分析、没让它动手，它直接上手改了。一条划清边界，让它先给判断、别急着改： > When the user is describing a problem, asking a question, or thinking out loud rather than requesting a change, the deliverable is your assessment. Report your findings and stop. Don't apply a fix until they ask for one. Before running a command that changes system state (restarts, deletes, config edits), check that the evidence actually supports that specific action. A signal that pattern-matches to a known failure may have a different cause. > 当用户是在描述问题、提问、或者出声思考，而不是要求你动手改时，你要交付的是你的判断。给出结论就停下，别等他们开口就先去改。在执行任何会改变系统状态的命令（重启、删除、改配置）之前，先确认证据确实支持这个具体动作。一个看着像某种已知故障的信号，背后原因可能完全不同。 ## 3. 一句话，能顶你过去一页的规则这是“做减法”最直接的地方。它现在听话到你不用再一条条列禁止项，一句简短指令就能管住一类行为。比如想让它说话简洁、别绕，一句就够，不用把“不许这样、不许那样”列一长串： > Lead with the outcome. Your first sentence after finishing should answer "what happened" or "what did you find": the thing the user would ask for if they said "just give me the TLDR." Supporting detail and reasoning come after. Being readable and being concise are different things, and readability matters more. > 先说结论。做完之后的第一句话，要回答“发生了什么”或“你发现了什么”，也就是用户说“直接给我结论”时想要的那句。佐证和推理放在后面。可读和简短是两回事，可读更重要。想管它“什么时候才该停下来问你”，也一句话，不用把情况列全： > Pause for the user only when the work genuinely requires them: a destructive or irreversible action, a real scope change, or input that only they can provide. If you hit one of these, ask and end the turn, rather than ending on a promise. > 只在工作真正需要用户介入时才停下来问：一个有破坏性或不可逆的动作、一次真正的范围变更、或者只有他们能提供的信息。碰到这几种情况，就提问并结束这一轮，而不是停在一句空承诺上。你去翻翻老提示词：很多当时你逐条写的限制，现在一句话能替，还更不容易自相矛盾。 4. 长时间跑，它会“虚报进度” 让它自主跑，它报“完成八成”，你一看才四成。它不是存心骗你，是照着计划报、没照着实际结果报。让它每报一条进度，都对一下真实的运行结果，官方说这条基本把虚报摁住了： > Before reporting progress, audit each claim against a tool result from this session. Only report work you can point to evidence for; if something is not yet verified, say so explicitly. Report outcomes faithfully: if tests fail, say so with the output; if a step was skipped, say that; when something is done and verified, state it plainly without hedging. > 报告进度之前，把每一条说法都对照这次会话里的工具结果核一遍。只报你拿得出证据的工作；还没验证的，就明说没验证。如实汇报结果：测试挂了就把输出贴出来说挂了，跳过了某步就说跳过了，确实做完并验证过的，就干脆说做完了，别含糊其辞。 5. 它偶尔会“话说一半就停”和“怕篇幅不够” 跑到很深的地方，它会说一句“我现在去跑 X”然后就停了，那动作根本没做；或者信息明明够了，还停下来问你要不要继续。大多时候你回个“继续”就过去了。没人盯着的全自动流程，给它一段说明，让它该自己往下推就推、别老停下来请示。还有一种，是它看到“还剩多少字数额度”的倒计时会发慌，突然说“要不开个新会话”，或者自己把活儿缩水。治法很简单：别把那个倒计时给它看。非给不可，就补一句“上下文还很充足，别停、别总结、别提议开新会话，接着干”。 ## 迁移之前，这几个坑先避开 - “让它复述思考”的指令，先清掉：如果你的老提示词里有“把你的思考过程写出来给我看”“解释一下你是怎么想的”这类要求，到了 Fable 5 会触发它的一条拒绝规则，结果是大量请求被打回、退到旧模型去处理。迁移前一定回去翻一遍清干净。真想看它怎么想的，官方有别的接口可以读，别硬让它在回答里复述。 - 它会拒绝一些请求，这是设计如此：碰到攻击性网络安全（造病毒、攻击工具那种）、生物和生命科学这两类内容，它会直接拒，正经的安全防御、有益的生物研究也可能被误伤。被拒不算报错，是一次正常的成功响应、还带着是哪条分类器拦的，而且产出之前不计费。解法是配个备胎：被拒的请求自动转给上一代的 Opus 4.8 接手。 - 老技能可能太啰嗦：为旧模型写的技能，对 Fable 5 往往管得太细，反而拉低质量。迁移时把旧指令审一遍，那些删掉之后它默认表现更好的，就删。除了上面三条，官方脚手架建议里还有两条前文没展开的，一并列上： ## 说到底：从管教到放手以前调 AI，琢磨的是怎么把话跟它说清楚。那是一种管教：预判它会在哪犯错，提前堵上；把不许做的事列成清单；把步骤拆细到它走不偏。功夫全花在“过程”上。 Fable 5 这代，琢磨的变成了怎么给它搭一个能放手干活的环境：给够空间让它自己拆活、自己跑；把真正不能碰的边界划死；配上能调度的分身、能记事的本子，剩下的交给它。功夫从“过程”挪到了“边界”。注意一点：放手不等于放任。你回头看上面那些脾气，它们都是放手之后冒出来的代价，不是模型变差。治法也都不是退回去重新事无巨细地管，而是把该划死的边界划死。管得越少它干得越好，前提是该划的边界你得划死。这两句不打架，是一体的。最后，看你怎么用 Claude，对号入座： - 只拿它聊天、查东西、写文案的：不用动什么，知道新模型更能扛复杂长活就行。手头要真有个又难又长、以前嫌它做不利索的活，拿 Fable 5 试一次，这回说不定一把就做完。 - 做内容、做自动化的创作者和小团队：回去把你给 AI 写的提示词翻一遍，当年为防它犯错写的，该删的删（尤其“让它复述思考”那类，会触发拒绝）。再挑一个你平时最烦、最想甩手的长流程，让它自己拆步骤、自己跑。 - 正经搭代理、写程序的：上面方框里的原话直接抄进系统提示，下一节的速查卡可以当对症索引。再给它配上分身调度和记事本，这是它这代最值钱、又最得你主动给的两个能力。 ## 十个调优模式速查卡官方指南把这些场景归纳成十个调优模式。前面各节其实都讲透了，这里压成一张卡，给只想快速对症、抄提示词的人：卡里有两条提示词前文没出现过，补在这里：补充①：防"话说一半就停"（没人盯着的自主管道用）： > 在结束轮次前检查你的最后一段。如果它是计划、分析或承诺（"我将……""请告诉我何时……"），现在就用工具调用完成它。只有在任务完成或被阻塞在只有用户才能提供的输入上时，才结束轮次。补充②：让它从历史会话引导初始记忆（配合记事本用，第一次搭记忆系统时跑一遍）： > 回顾我们之前的会话，用子代理识别核心主题和经验教训，存储在 [指定位置]。确保未来使用时参考这个位置。 ## 两个值得单独讲的工具建议面向用户的可读性指令 Fable 5 在长时间代理式工作中（大量工具调用、庞大上下文）可能产出"只有自己能看懂"的内容：密集的箭头链速记、内部术语、引用用户从未看到的思考过程。官方给了一套沟通风格指令，核心逻辑是：工具调用之间你怎么速记都行，那是你的工作草稿；但最终面向用户的总结，要当成读者第一次看到这件事来写。 > 以结果开头，一句话说明发生了什么。写完整的句子，展开术语，不要用箭头链或自创标签。如果必须在简短和清晰之间选择，选清晰。 send-to-user 工具这是一个面向长时间异步代理的设计模式。给代理一个工具，能在不结束当前轮次的情况下向用户推送消息。工具输入不会被模型摘要化，内容原样到达。适用场景：需要中途向用户展示生成的代码片段、带数字的进度更新，或回复用户在循环中提出的问题。实现很简单，就是一个接收 message 字符串的工具，你在 UI 端直接渲染输入内容，返回确认即可。官方指南：https://platform.claude.com/docs/en/build-with-claude/prompt-engineering/prompting-claude-fable-5

译Anthropic 发布 Claude Fable 5，官方指南强调旧模型提示词会拖后腿，建议“做减法”。Fable 5 支持多天长任务、effort 分级（low/medium/high/xhigh），其 low 档性能已超旧版 Opus 4.8 xhigh。新增并行子代理调度和内置记事本能力。省钱方面：输入 $10/M、输出 $50/M（单价为 Opus 4.8 两倍），但更少的 token 消耗使复杂任务总成本反而可能更低。推荐日常用 Low 档，Medium 是性价比甜区，复杂项目可用 Fable 做编排器、Opus/Sonnet 执行。

meng shao@shao__meng · 6月12日70

Kimi 开源发布最新编码模型「Kimi-K2.7-Code」，在 K2.6 基础上针对编程 Agent 做专项优化的版本，目标很明确：长链路编码任务的成功率更高，推理 token 更少！ # 三个核心改进 1. 编码：全面进步，尚未登顶相对 K2.6，三项编码基准均有提升：Kimi Code Bench v2 +21.8%（50.9→62.0），Program Bench +11.0%，MLS Bench Lite +31.5%（涨幅最大，但绝对分仍低）。与 GPT-5.5、Opus 4.8 比：综合编码任务差距明显缩小；MLS 与 GPT-5.5 基本持平；Program Bench 仍落后 GPT-5.5 一截。结论：稳健迭代，不是 leapfrog。 2. Agent：MCP 是亮点 Kimi Claw 24/7（长周期协作）和 MCP Atlas 均有提升，但仍落后于两大闭源模型。 MCP Mark Verified（81.1）超过 Opus 4.8（76.4）是最有说服力的结果——覆盖 Notion、GitHub、Postgres、Playwright 等真实 MCP 环境，且经人工复核。说明 K2.7 在多工具编排上已具竞争力，GPT-5.5（92.9）仍是天花板。 3. 效率：更少 token，更高分 K2.7 不只提分，还降 reasoning token（官方称整体约 -30%）： · Kimi Code Bench v2：62k→48k token，分数 51%→62% · Program Bench：176k→102k token（-42%），分数 48%→53% · MLS Bench Lite：42k→38k token，分数 27%→35% 对 Agent 的实际意义：同样预算能跑更多步，长任务更省、更稳。 # 关键技术特性 1. 强制 Thinking 模式不支持 Instant 模式；推荐 temperature=1.0、top_p=0.95。面向复杂推理，而非快速补全。 2. Preserve Thinking（强制开启）多轮对话中保留完整 reasoning 内容，不可关闭。对编码 Agent 很重要——模型能引用先前推理链中的中间结论，减少上下文丢失。 3. Interleaved Thinking + Multi-Step Tool Call 与 K2 Thinking 相同设计：推理与工具调用交替进行，适合「想一步、调一步、再看结果」的 Agent 循环。 4. 多模态支持图像和视频输入（官方 API 已支持；第三方 vLLM/SGLang 部署的视频能力仍为实验性）。开源地址： https://huggingface.co/moonshotai/Kimi-K2.7-Code

译Kimi 开源发布最新编码模型 Kimi-K2.7-Code，基于 K2.6 优化。编码基准全面提升：Kimi Code Bench v2 提高 21.8%，Program Bench +11.0%，MLS Bench Lite +31.5%。推理 token 整体降低约 30%。Agent 方面，MCP Mark Verified 得分 81.1，超过 Opus 4.8（76.4），GPT-5.5（92.9）仍为天花板。技术特性：强制 Thinking 模式、Preserve Thinking、Interleaved Thinking+多步工具调用，支持图像和视频输入。可通过 Kimi API 和 Kimi Code 使用，6x 高速模式即将推出。开源地址：HuggingFace 上的 moonshotai/Kimi-K2.7-Code。

Kimi.ai@Kimi_Moonshot · 6月12日70

🌘 Kimi-K2.7-Code, our latest coding model, is now released and open-sourced! 🔷 Improved coding & agent performance over K2.6: +21.8% on Kimi Code Bench v2, +11.0% on Program Bench, and +31.5% on MLS Bench Lite. 🔷 Reasoning efficiency: Less overthinking, with 30% lower reasoning-token usage compared to K2.6. 🔷 Long-horizon coding: Improved instruction following, higher end-to-end coding task success rates. ⚡️ 6x High-Speed Mode coming soon! 🔌 Available today via Kimi API and Kimi Code. 🔗 Kimi Code: https://kimi.com/code 🔗 API: https://platform.moonshot.ai

译Kimi 发布并开源最新代码模型 Kimi-K2.7-Code。相比 K2.6，其在 Kimi Code Bench v2 上提升 +21.8%，Program Bench 提升 +11.0%，MLS Bench Lite 提升 +31.5%。推理效率改进，推理 token 使用量降低 30%，长时编码任务中指令遵循和端到端成功率均提升。6x 高速模式即将推出，即日起可通过 Kimi API 和 Kimi Code 使用。

Berryxia.AI@berryxia · 6月12日25

Trae AI ，这么屌，这你受得了么？

译Trae AI，这么厉害，你受得了吗？

Chubby♨️@kimmonismus · 6月12日64

Shoutout to @maxpolaczuk for making a WoW clone with fable 5! :))

译感谢 @maxpolaczuk 用 Fable 5 做了一个《魔兽世界》克隆版！:))

Chubby♨️@kimmonismus · 6月12日70

Someone just casually vibe-coded a World of Warcraft-style multiplayer game that works online with friends. Fully open source. And apparently, Claude Fable found a visually matching set of open-source assets on its own. Ngl, that’s pretty insane.

译有人刚刚随意地vibe-coded了一个魔兽世界风格的多人在线游戏，可以和朋友们一起在线玩。完全开源。显然，Claude Fable自己找到了一套视觉上匹配的开源素材。说实话，这相当疯狂。