Open-weights are taking over — proud to see more developers building on MiMo. 👏 @cline

译我们对 GLM-5.2 印象深刻，因此推出每月 $9.99 的订阅，让你能以 2-5 倍折扣访问它以及其他开源权重模型，如 DeepSeek、Kimi、MiniMax、Mimo、Qwen。可通过 Cline CLI 和 IDE 使用，通过 `npm i -g cline` 注册可享受 $1.99 特价促销。

meng shao@shao__meng · 2天前31

新拿到一台 Macbook，第一反应是：打开 Safari，下载 Codex 😂 以前还是：打开 Safari，下载 Chrome

SiliconFlow@SiliconFlowAI · 2天前67

The full model behind "Owl Alpha" on @OpenRouter is here🦉 Let's meet @Meituan_LongCat 's latest flagship model, LongCat-2.0 Now Day 0 live on SiliconFlow 🔥 💰 Input Cache/Input/Output: $ 0.015/0.75/2.95 per 1M tokens ⚙️ 1.6T-param MoE (~48B active) · Native 1M context window 🧠 Built for agentic coding from the ground up: ◆ LSA: sparse attention that scales efficiently to 1M ◆ Zero-Compute Experts: dynamic 33B–56B active/token, no wasted compute ◆ MOPD: three specialized expert groups (Agent / Reasoning / Interaction), gate-routed per task 🏆 59.5 SWE-bench Pro: performance on par with mainstream close-sourced models Start building with 🐱👇

译美团 LongCat 推出旗舰模型 LongCat-2.0，采用 1.6T 参数 MoE 架构（约 48B 活跃参数），原生支持 1M 上下文窗口。定价为 Input Cache $0.015/1M tokens、Input $0.75/1M tokens、Output $2.95/1M tokens。模型专为 Agentic Coding 设计，包含三大技术：LSA 稀疏注意力实现高效 1M 扩展；Zero-Compute Experts 动态激活 33B–56B 参数/token，无算力浪费；MOPD 将专家分为 Agent / Reasoning / Interaction 三组，按任务门控路由。在 SWE-bench Pro 上取得 59.5 分，性能接近主流闭源模型。现已上线 SiliconFlow Day 0 服务。

meng shao@shao__meng · 2天前75

美团发布 LongCat-2.0 了，1.6T 参数 MoE 架构，激活参数 48B，上下文窗口 1M（最大输出 128K），采用 5-6 万张中国国产加速卡训练，训练推理全程零英伟达依赖。三项关键技术 1. N-gram Embedding：参数前移 embedding 层，减 MoE 路由与通信开销 2. 稀疏注意力 + 跨层索引：支撑 1M 上下文，控制计算成本 3. 底层算子自研：确定性 FAG、Scatter 重写等，弥补国产芯片生态短板能力定位 Agent + Coding 优先，非通用对话。Preview 在 OpenRouter 开发者调用量居前，Claude Code / Hermes 生态采用度高。与 DeepSeek V4 的差异参数量级相近（1.6T / ~48B / 1M），路径不同：DeepSeek 开源 + 双栈适配；LongCat 强调训推全链路国产化。

译美团发布LongCat-2.0，1.6T参数MoE架构，激活参数~48B，上下文窗口1M（最大输出128K），使用5-6万张国产加速卡训练，训练推理全程零英伟达依赖。核心技术包括N-gram Embedding降低路由通信开销、稀疏注意力+跨层索引支撑长上下文、自研底层算子弥补国产芯片生态。定位Agent+Coding优先，非通用对话。Benchmark：Terminal-Bench 2.1 70.8，SWE-bench Pro 59.5（超GPT-5.5的58.6），SWE-bench Multilingual 77.3，FORTE 73.2等。与DeepSeek V4参数规模相近但路径不同：DeepSeek开源+双栈，LongCat强调全链路国产化。

小互@xiaohu · 2天前81

http://x.com/i/article/2071795831028826112 # 一个人，管理开发5款产品，而且80% 时间不在写代码，靠这一步... Every 单人团队运营 5 款产品，核心是每次完成功能后多做的一步：把解法存进系统，让 AI 下次自动避坑。 > ⚑ 立场提示：本文是 Every 团队自述其「复利工程」方法论与自家开源插件的实践，文中的并发规模、时间分配、产品数量都是官方口径。下面只讲它怎么运作、每个数字代表什么。 > ▸ 先认识下 Every：Every（every.to）是一家 2020 年成立的媒体 + 软件公司，CEO 兼联合创始人是 Dan Shipper。它每天发一份讲「科技下一步」的付费 newsletter，同时自己动手做软件产品——文中的 Cora、Monologue、Sparkle、Spiral 都出自它，另外还做 AI 课程和咨询。所以「复利工程」不是纸上谈兵，是一家又写又做、天天泡在 AI 里的公司，从自家实战里攒出来的方法。 ## 速览 - Every 用「复利工程」（Compound Engineering），以基本单人的工程团队维护旗下 5 款产品，核心是 Plan → Work → Review → Compound 四步循环。 - 传统工程走到 Review 就停了，第四步 Compound 把每次解决的问题变成系统知识，让 AI 下次自动避开同类错误，效率差距就来自这里。 - 这套方法主张工程师 80% 的时间花在 Plan 和 Review，只有 20% 用来实际写代码。 - 配套插件已开源，支持 Claude Code / OpenCode / Codex，含 26 个专项 agent、23 条工作流命令、13 项技能，零配置即用。 - /workflows:review 一次调用并发 14 个专项 agent 审查代码，/workflows:plan 开 ultrathink 模式可并发 40 多个研究 agent。 ## 一个人撑五款产品，怎么做到的 Every 团队最近公开了一套叫「复利工程」（Compound Engineering）的方法论，外加一个配套的开源插件，讲他们怎么用基本是单人配置的工程团队，同时维护旗下五款产品。五款产品 Cora、Monologue、Sparkle、Spiral，加上官网 Every.to，每个产品的工程团队基本只有一个人。撑住这套规模的不是更长的工时，而是一个四步循环里被大多数团队省掉的最后一步。 > ◆ 为什么值得看：Every 把平时只在内部跑的东西开源了，包括 14 个 AI 同时审一段代码、计划阶段并发 40 多个研究 agent，外加 26 个专项 agent。这是目前公开的多 agent 并行工程实践里，数字最具体的开源参考之一。 ## 代码越写越难碰，根子在哪大多数代码库随时间越来越难维护，原因不复杂：每加一个功能，就往系统里注入一份新的复杂度，新功能要和所有旧功能「谈判」。十年下来，团队花在跟历史代码较劲上的时间，比花在造新东西上的还多，代码变得越来越难懂、难改、难信任。复利工程把这条曲线反过来。功能不再是往系统里加负担，而是教会系统一项新本领；修一个 bug，顺手消掉未来一整类同类 bug；一个解法被固化下来，就变成下次能直接复用的工具。迭代越多，系统越好用。 ## 四步循环：80% 的时间根本不是在写代码支撑这套规模的，是一个四步循环：Plan（计划）、Work（执行）、Review（审查）、Compound（固化），然后重复。不管你是花五分钟修个 bug，还是花几天做个功能，走的都是这四步，只是每步花的时间多少不同。前三步任何开发者都熟，第四步 Compound 才是复利工程和普通工程的分界线。跳过它，你做的就只是「有 AI 助手的传统工程」。传统工程到 Review 收手，复利工程多走 Compound 一步，把这一轮学到的东西留给下一轮。反直觉的地方：写代码只占两成时间。 Plan 和 Review 加起来占工程师 80% 的时间，真正动手写（Work）加上固化（Compound）只占 20%。大部分思考发生在代码被写出来之前和之后。四步各自在做什么： - Plan 计划：把想法变成蓝图。弄清需求和约束、研究代码库里同类功能怎么实现、查框架文档和最佳实践、设计方案、再校验方案是否站得住。 - Work 执行：先用 git worktree（仓库的隔离沙盒副本，多任务可各开一份并行跑、互不干扰）开出隔离环境，agent 按计划逐步实现，每改一处就跑测试、linting 和类型检查。 - Review 审查：多个专项 agent 并行审，把问题标成 P1（必须修）/ P2（应该修）/ P3（可以修），修完再校验，并记录这次出了什么问题。 - Compound 固化：把解法抽成可复用的知识写回系统——下面一节专门讲。几个 Every 建议丢掉的旧观念： - ✕「代码必须手写」你的职责是产出可维护、解决对问题的好代码，谁敲键盘不重要。 - ✕「第一版就该写好」他们的经验里第一版 95% 是垃圾、第二版还有 50%，这是过程，目标是迭代够快让第三版落地比第一版还省时。 - ✕「不亲手敲就学不到」今天理解比肌肉记忆重要，审 10 个 AI 实现比手敲 2 个学到的模式更多。 - ✕「代码是自我表达」代码从来不属于你个人，它属于团队、产品和用户。 ## 第四步具体怎么做：把解法变成系统的记忆前三步产出的是「一个功能」。第四步 Compound 产出的是「一个每次都能把功能做得更好的系统」。它落到地上是四个动作： 1. 记录解法——什么管用、什么没用、可复用的点是哪个。 1. 加元数据——用 YAML frontmatter 打标签，方便日后检索。 1. 更新 CLAUDE.md——把新模式写进 agent 每次启动都读的文件。 1. 验证学到了——下次它能自动接住同类问题吗。 > 复利的来源：传统开发停在第三步审查，复利工程多走这一步——把刚解决的问题写进系统。这一步不产出代码，产出的是「系统下次自动避开同类问题」的能力。效率差距就来自这里。 > 打个比方：CLAUDE.md 就是放在项目根目录的「AI 操作手册」，agent 每次启动都会先读它。它像新员工入职必读的 SOP：每当有人解决了一个之前没遇到的问题，就往里加一条规则，下一个人来就自动懂了，不用再踩一遍同样的坑。下面这个对照，能直观看到这条规则攒下来之后的差别： - ✕ 没有积累：agent 不知道这个坑，你和它一起调试、定位、修好。修完，Compound 把「为什么会出、怎么避开」写进 CLAUDE.md，并存一份带 YAML 标签的文档进 docs/solutions/。这一次多花了点时间记录。 - ✓ 系统已经记住了：agent 一启动就读到那条规则，docs/solutions/ 里也能搜到上次那份解法。于是在 Plan 阶段它就主动绕开了同类问题，根本走不到出 bug 那一步。前面那次记录的时间，在这里连本带利赚回来。每完成一次 Compound，CLAUDE.md 就多一条知识：迭代 1 → 1 条，迭代 3 → 3 条，迭代 5 → 8 条，系统越用越聪明。docs/solutions/ 就这样攒成一座机构知识库——Every 用 /workflows:compound 跑这一步，并发派出六个子 agent（理解问题、抽取解法、找相关旧文档互链、写「怎么避免复发」、做分类标签、排版成文档），日后任何一次会话都能自动翻到过去的解法。 ## 14 个 AI 同时帮你审代码一条 PR 进来，/workflows:review 会一次性派出 14 个专项 agent，同时开跑，每个只盯一个维度，最后合并成一份按 P1 / P2 / P3 排好优先级的清单。 1. security-sentinel（安全）— 扫 OWASP Top 10、注入攻击、认证与越权。 1. performance-oracle（性能）— 揪 N+1 查询、缺索引、可缓存点、算法瓶颈。 1. architecture-strategist（架构）— 评估系统设计、组件边界、依赖方向。 1. pattern-recognition-specialist（架构）— 识别设计模式、反模式、代码坏味道。 1. data-integrity-guardian（数据）— 校验数据库迁移、事务边界、引用完整性。 1. data-migration-expert（数据）— 检查 ID 映射、回滚安全、生产数据校验。 1. code-simplicity-reviewer（质量）— 执行 YAGNI，揪多余复杂度。 1. kieran-rails-reviewer（质量）— Rails 规范、模型与控制器职责。 1. kieran-python-reviewer（质量）— PEP 8、类型注解、Pythonic 写法。 1. kieran-typescript-reviewer（质量）— 类型安全、现代 ES、整洁架构。 1. dhh-rails-reviewer（质量）— 37signals 风格：简单优先于抽象。 1. deployment-verification-agent（部署）— 上线前检查单、上线后验证、回滚预案。 1. julik-frontend-races-reviewer（前端）— 揪 JS 和 Stimulus 里的竞态。 1. agent-native-reviewer（Agent-native）— 确保功能不只人能用，agent 也能用。 > 顺带科普 · N+1 查询：查一张 100 条的列表，写法不对就变成每条再单独查一次，一共 101 次请求。像去超市买 10 样东西却跑了 11 趟——先去看看有什么（1 趟），再每样单独取一次（10 趟）。合并去重后归到一份带优先级的清单，大致长这样： - P1 必须修：搜索查询有 SQL 注入漏洞（security-sentinel）／创建用户缺少事务包裹（data-integrity-guardian） - P2 应该修：评论加载有 N+1 查询（performance-oracle）／控制器里塞了业务逻辑（kieran-rails-reviewer） - P3 可以修：有一个未使用的变量（code-simplicity-reviewer） /resolve_pr_parallel 自动处理全部问题，先修 P1 再 P2、各自隔离跑、最后你人工过一遍；想先筛再修就用 /triage 逐条决定。 ## 插件里有什么，装上怎么用整套流程打包成一个插件，零配置装上就能用，支持 Claude Code，也实验性支持 OpenCode 和 Codex。 - 26 个专项 agent：每个只精一件事——14 个 review 专家，外加研究型、设计型、自动化、文档型。 - 23 条工作流命令：主循环 plan / work / review / compound，加一批实用工具命令。 - 13 项技能：即取即用的领域知识，比如 agent-native 架构技能、风格指南技能。四个目录各管一摊：CLAUDE.md（agent 每次启动必读的操作手册）、docs/solutions/（每个解决过的问题存成可搜索文档）、docs/plans/ 与 brainstorms/（计划产出）、todos/（review 查出的问题带优先级）。 Claude Code 两行装好： > claude /plugin marketplace add https://github.com/EveryInc/every-marketplace claude /plugin install compound-engineering 还有个一键到底的 /lfg：你只描述功能，它把计划 → 深化计划 → 执行 → 审查 → 修问题 → 浏览器测试 → 录功能演示 → 固化整条流水线串起来自动跑，全程派出 50 多个 agent，最后交你一个能直接合并的 PR，中途只在计划批准处停一下。 ## 关键数字：并发规模到底有多大 - 5 款——Every 用这套方法维护的产品数量，工程团队基本为单人配置。 - 80 / 20——计划＋审查占工程师 80% 时间，执行＋固化只占 20%。 - 14 个——/workflows:review 一次调用同时运行的专项审查 agent 数量。 - 40+ 个——/workflows:plan 开 ultrathink 模式后派出的研究 agent 数量。 - 26 / 23 / 13——插件包含的专项 agent 数 / 工作流命令数 / 技能数。 > 每一份工程工作，都应该让后续的工作更容易，而不是更难。 —— Every《Compound Engineering》本文为 Every 团队自述其「复利工程」方法论与开源插件实践，文中并发规模、时间分配、产品数量均为其官方口径。原文：Every《Compound Engineering》，every.to/guides/compound-engineering。插件开源地址：github.com/EveryInc/compound-engineering-plugin。

译媒体软件公司Every公开「复利工程」方法论，以单人工程团队维护5款产品。核心是四步循环：Plan→Work→Review→Compound，其中Compound将每次解决问题的解法写入CLAUDE.md和docs/solutions/，使AI下次自动避坑。工程师80%时间花在Plan和Review，仅20%用于写代码。配套开源插件支持Claude Code等，含26个专项agent、23条工作流命令、13项技能，可零配置使用。/workflows:review一次并发14个agent审查代码，/workflows:plan在ultrathink模式下可并发40多个研究agent。

歸藏(guizang.ai)@op7418 · 2天前65

Cline 推出了一个每月 9.9 美元的 token plan, 支持调用 DeepSeek、Kimi、MiniMax、MIMO 和千问，还有 GLM5.2 现在好像还有 1.99 美元的优惠。海外这种聚合的 token plan 也越来越多了，而且他们如果有渠道的话，更方便去推理服务的供应商也不缺卡

歸藏(guizang.ai)@op7418 · 2天前51

Codex 因为消耗速度过快的问题又重置了

译OpenAI 的 Codex 因使用量消耗异常再次重置所有用户使用限制，并额外补偿一次重置（未来 24 小时可用）。调查发现是多个小问题叠加：Auto-review 过度主动、变更导致更多子智能体工作、后台建议重复运行或失败重试过于频繁。已回滚相关变更并修复调度与重试行为，减少不必要 token 消耗。此外，Auto-review 此前被错误显示为 GPT-5.4 的使用量，失败与限流请求也被计入 turn 图表；现在 Auto-review 归入独立类别，仅成功请求计入。修复已通过 CLI、桌面应用和用量后端热更新部署，历史图表中旧数据仍显示为 GPT-5.4。

歸藏(guizang.ai)@op7418 · 2天前30

Open AI 要出 Codex 定制的 Vibecoding 键盘了跟 Work Louder 合作，型号应该是 Creator Micro 2，做了些外观的变动。键盘包含 13 个机械按键和一个旋钮、一个摇杆、触摸传感器，支持RGB 背光 + RGB 底部灯光。推动摇杆即可弹出屏幕上的圆形快捷菜单，完全可自定义。6 层映射，每层包含 13 个按键 + 7 个径向菜单槽位 + 旋钮映射，总共可配置大量快捷方式。 Creator Micro 2 现在的售价是 144 美元起，不知道 OpenAI 这个会卖多少钱

译OpenAI 与 Work Louder 合作推出基于 Creator Micro 2 外观定制的 Codex 键盘，配备 13 键、旋钮、摇杆、触摸传感器，摇杆弹出圆形快捷菜单，支持 6 层映射。标准版售价 144 美元起，定制版价格待公布。7 月 15 日 Codex 快捷键将升级。

meng shao@shao__meng · 2天前69

Codex 团队 @Dimillian 也是一位知名 iOS/Swift 开发者，把他的 Codex Skill Manager 开源了！这是一个用 SwiftUI + SwiftPM 原生构建的 macOS 应用，作为 Codex Skills 的图形化管理器和商店，把 Codex、Claude Code、OpenCode 和 Copilot 的四套 Skills 目录抽象成 SkillPlatform 枚举，让一个 GUI 统一管理跨平台的 Skills。 https://github.com/Dimillian/CodexSkillManager

宝玉@dotey · 2天前63

开源项目推荐：Claude Code From Scratch 这是一本学习 Claude Code 的开源电子书，严格来说不仅仅是电子书，还有代码，不需要你去看 Claude Code 的 50 万行代码。用 ~4300 行代码（TypeScript 和 Python 两个版本分别实现）复现了 Claude Code 的核心架构——Agent Loop、13 个工具（含并行执行 + 流式早期启动）、4 层上下文压缩、语义记忆召回、技能系统、多 Agent、MCP 集成……每一步都对照真实源码讲解它怎么做的 → 我们怎么简化的。有 13 章内容，每一章都是一份分步教程，跟着动手写几千行代码，快速理解 Claude Code 这样最好用的 coding agent 的精髓。读完你就能大致理解了 coding agent 的工作原理，我跟着快速浏览了下都有了些新的收获，推荐有兴趣的可以看看。有中英文版： https://diwang.info/claude-code-from-scratch/#/

译开源电子书用约4300行代码（TypeScript和Python）复现Claude Code核心架构，涵盖Agent Loop、13个工具、4层上下文压缩、语义记忆召回、技能系统、多Agent、MCP集成。全书13章分步教程，讲解如何简化实现。提供中英文版。

Meituan LongCat@Meituan_LongCat · 2天前83

Introducing LongCat-2.0 🐱 1.6T parameters · MoE with ~48B active · 1M context The full model behind Owl Alpha on @OpenRouter — now available. Built for agentic coding from the ground up: ◆ LongCat Sparse Attention (LSA) — scales efficiently for 1M-context tokens ◆ Zero-Compute Experts — dynamic activation 33B–56B per token, zero wasted compute ◆ MOPD — three specialized expert groups (Agent / Reasoning / Interaction), gate-routed per task How it stacks up: → Terminal-Bench 2.1: 70.8 → SWE-bench Pro: 59.5 (GPT-5.5: 58.6) → SWE-bench Multilingual: 77.3 → FORTE: 73.2 · RWSearch: 78.8 · BrowseComp: 79.9 📖 Tech Blog: https://longcat.chat/blog/longcat-2.0/ Try it across different scenarios 🧵👇

译美团 LongCat 推出 LongCat-2.0，基于 MoE 架构，总参数 1.6T，激活参数约 48B，支持 1M 上下文。模型专为智能体编码设计，包含 LongCat 稀疏注意力（LSA）、零计算专家（33B–56B 动态激活）及 MOPD（三组任务路由专家）。基准测试：Terminal-Bench 2.1 达 70.8，SWE-bench Pro 59.5（超 GPT-5.5 的 58.6），SWE-bench Multilingual 77.3，FORTE 73.2，RWSearch 78.8，BrowseComp 79.9。目前已通过 OpenRouter 的 Owl Alpha 开放使用。

歸藏(guizang.ai)@op7418 · 2天前61

Cursor 的 iOS 版上线了，完成度很高啊锁屏的时候，还会展示当前的这个进度，然后也完成以后，会把界面的视频和图片给你发过来，让你审核当前，针对付费用户的 beta 测试已经开放

Ethan Mollick@emollick · 2天前61

The most important weird thing about LLMs is that they are so general. A bigger LLM that is better at coding is also better at ideation & ethical advice & medicine & math. This isn’t true of everything, jaggedness again (see fiction writing!), but it is remarkably true.

译大语言模型最奇特的一点是它们如此通用。一个在编码方面更强的更大LLM，在构思、伦理建议、医学和数学方面也更强。这并非对所有事情都成立，又是不规则性（看看虚构写作！），但它在很大程度上是正确的。

jason@jxnlco · 2天前40

Make sure to come to the keynote tomorrow I’ll be talking about what’s new in codex and where it’s going right after @romainhuet keynote! Then at 2:50pm track 4 same day we’ll be going over how I set up my personal monorepo. If be fun, casual, and plenty of time to just chat about where things are going in the app.

译一定要来参加明天的主题演讲，我将在@romainhuet 的主题演讲之后，谈谈 Codex 的新功能及其未来方向！然后同一天下午2:50，在 track 4，我们将讨论我是如何设置我的个人 monorepo 的。这将很有趣、很随意，并且有充足的时间聊聊应用的未来发展方向。

Berryxia.AI@berryxia · 3天前76

Cursor iOS 版本正式来了，这下可以随时随地Vibe Coding了啊！还有75折的优惠使用Composer 2.5 模型！

ginobefun@hongming731 · 3天前46

BestBlogs 早报 · 06-30 # Claude Code / Spotify Honk / Block Goose / Spring AI / 工程验证体系 [1] ★ 精讲｜Spotify 如何让智能体在 2000 万行代码库中运行：Claude Code、Honk 与工程验证体系 [视频] Spotify 架构师 Niklas Gustavsson 回顾他们如何在超过 2000 万行的后端 monorepo 里跑 Claude Code 智能体。关键不在模型本身，而在配套工程基建：内部平台 Honk 在 Kubernetes 里运行 Claude agent SDK，把 CI、构建、测试自动化、组件归属和自动合并接进智能体的验证回路。他的提醒很务实：标准化的代码库和可靠的验证体系先帮到了人，现在同样帮智能体。适合想知道智能体落地到底依赖什么基建的工程负责人。来源：Claude https://www.bestblogs.dev/video/d60d34a [2] ★ 精讲｜构建自主工程组织：Block 如何让 3500 名工程师走向智能体协作 [视频] Block 工程负责人 Angie Jones 复盘 3500 人工程组织走向智能体协作的全过程。她最尖锐的判断是把采用和影响分开：约九成工程师在用 Goose 和 Claude Code，token 在烧，但功能并没有更快交付。她给出成熟度六阶段模型、AI champions 项目和写进 AGENTS.md 的仓库约定等抓手，三个月内 AI 生成代码占比提升 69%。结尾反问自动化成功后裁员的代价，没有给出确定答案。来源：AI Engineer https://www.bestblogs.dev/video/ff1b45c [3] ★ 精讲｜2026 年 Spring AI 生态全景：从 LLM 基础到智能体架构 [视频] Spring I/O 2026 这场分享梳理 Spring AI 从简单 LLM 调用走向生产级智能体生态的脉络。核心观点是有用的系统需要围绕模型搭一层 harness，处理状态、领域知识、结构化输出、安全和可观测。从 advisor 拦截模式、RAG 检索、guardrails 校验，到工具调用与 MCP 标准化集成，再到按需加载工具和子智能体的上下文优化，路线图指向 Spring AI 2.0 与 MCP GA。适合 Java 和 Spring 工程师理解智能体架构落点。来源：Spring I/O https://www.bestblogs.dev/video/ebd37c5 [4] Token 不经济文章深度剖析「Token 不经济」现象，从模型定价策略、智能体技术损耗、应用场景局限到产业链风险，系统论证了当前 AI token 投入与产出严重失衡的成因，并提出了从技术精细化管理到商业价值锚定的解决路径。来源：腾讯研究院 https://www.bestblogs.dev/article/8f66e3cc [5] 让 KV Cache「按头分家」：小红书 RedKnot 如何重做长文本推理新引擎本文介绍小红书提出的 RedKnot 长文本推理引擎，通过按注意力头拆分 KV Cache、稀疏 FFN 和段页存储三个正交机制，实现 1.6-3.54 倍 TTFT 加速和 4.7-7.8 倍并发提升，同时保持甚至超越稠密模型精度。来源：小红书技术 REDtech https://www.bestblogs.dev/article/98f49843 [6] Deep Agents 中动态子智能体的引入 Deep Agents 引入了动态子智能体机制，智能体通过编写编排脚本来程序化地调度子智能体，从而超越传统工具调用的局限，实现可靠的规模化扩展与复杂多阶段工作流。来源：LangChain Blog https://www.bestblogs.dev/article/e4f0bf64 [7] 如何构建一个能自主运行 LLM 实验的 AI 智能体：autoresearch 实践指南本文深入解析了 Karpathy 的开源工具 autoresearch，详细介绍了 AI 智能体如何自主编辑训练代码、运行实验，并利用 val_bpb 指标来发现真正的 LLM 训练改进方案。来源：freeCodeCamp https://www.bestblogs.dev/article/6699656b [8] World Model-世界模型也有 Scaling Law 吗？ [播客] 深入剖析世界模型为何成为 AI 新风口，系统对比其与大语言模型在数据、成本、安全等维度的根本差异，并以自动驾驶公司 Momenta 为样本，论证物理世界 AI 的「GPT 时刻」尚未到来。来源：屠龙之术 https://www.bestblogs.dev/podcast/e2f49bb [9] Claude Tag：AI 交互范式的第三次重新设计？深度分析 Karpathy 与业界的争议宝玉整合 Karpathy 和 Gergely Orosz 的观点，深入剖析 Claude Tag 背后真正的突破——云端 AI 集成公司内部系统后的开箱即用，而非简单的 Slack bot。来源：宝玉(@dotey) https://www.bestblogs.dev/status/2071356525570924563 [10] 3Blue1Brown 创始人：成为二手思考者的高昂代价 [播客] 3Blue1Brown 创始人 Grant Sanderson 深度对谈创作哲学，揭示「源头思维」与「传声筒思维」的本质区别，以及如何在算法焦虑的时代保持十年创作热情与内心秩序。来源：跨国串门儿计划 https://www.bestblogs.dev/podcast/1490738 --- http://BestBlogs.dev · 发现真正适合你的高质量内容 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。在线阅读：https://www.bestblogs.dev/explore/brief/2026-06-30

译Spotify 在 2000 万行 monorepo 中运行 Claude Code 智能体，依赖内部平台 Honk 在 Kubernetes 里集成 CI、构建、测试自动化；Block 3500 名工程师中九成使用 Goose 和 Claude Code，三个月内 AI 生成代码占比提升 69%；小红书提出 RedKnot 长文本推理引擎，通过按注意力头拆分 KV Cache、稀疏 FFN 和段页存储实现 1.6‑3.54 倍 TTFT 加速和 4.7‑7.8 倍并发提升。同期还涵盖 Spring AI 2.0 与 MCP 路线图、Token 不经济现象分析等内容。

Tibo@thsottiaux · 3天前43

Codex usage limits will be fully reset again in the next hour and we will credit one additional reset into your bank for your own usage over the next 24 hours. We investigated reports that Codex usage was being consumed faster than expected. There wasn't one central issue, but a few smaller problems compounded for some users. Here's what we found and changed: - Actual usage: Auto-review had become more proactive, another change was triggering more subagent work, and background suggestions could run twice or retry too frequently after failures. We reverted the changes and fixed suggestion scheduling, duplicate generation, and retry behavior. This should reduce unnecessary background token consumption while preserving the work users explicitly request. - Usage reporting: Auto-review was incorrectly appearing as GPT‑5.4 usage, and failed or rate-limited requests were still shown as turns. Auto-review now appears as its own category, and only successful requests count toward the turn graphs. Rate-limited requests were never charged, but they were being displayed incorrectly. - Immediate relief: We reset usage limits while rolling out the fixes, then shipped hotfixes across the CLI, desktop app, and usage backend. - What to expect: New usage data should be clearer and actual consumption should be lower. Historical charts may still show auto-review under GPT‑5.4 because older turn data was not relabeled. Features that intentionally perform more work; such as /goal, subagents, and higher reasoning levels will still naturally use more capacity. All fixes are now deployed, and we've added more detailed monitoring so we can detect background-usage regressions sooner. We'll continue watching the results closely. Thank you for building and doing all sorts of things with Codex.

译Codex 使用限制将在下一小时完全重置，额外一次未来24小时重置。消耗过快并非单一原因，而是自动审查更主动、某些改动触发更多子Agent、后台建议重复生成或失败后重试等小问题叠加。现已回滚相关改动，修复调度、重复生成和重试行为，减少不必要的后台token消耗。使用报告方面，自动审查此前被错误归类为GPT-5.4使用量，已单独分类；仅成功请求计入轮次图表。所有修复已部署，并增加更详细监控。团队周日紧急排查日志。

Tibo@thsottiaux · 3天前24

Do you think it has a reset button?

译你最喜爱的 Codex 快捷键即将升级，7 月 15 日推出。主推文问道：“你觉得它有重置按钮吗？”

Emad@EMostaque · 3天前70

We have seen multi model harnesses for cheaper & faster tasks What about for the hardest challenges? What about open source? Proud to share the latest update our Zenith harness, taking models you can use today above Fable on tasks that take hours or days

译ii 团队推出开源 Zenith harness，通过自适应自我改进（adaptive self improvement）将基础模型推向 FrontierSWE 基准榜首，在需数小时或数天的复杂任务（如蛋白质预测模型训练、编译器优化）上超越 Fable。同时预告 GLM 5.2 即将到来。

Chubby♨️@kimmonismus · 3天前37

Really excited for the next version of Claude Code. Keep it coming Boris!

译下个版本的 Claude Code 中，子智能体将默认在后台运行，让你在子智能体工作时仍可继续与 Claude 对话。若想让智能体前台运行，只需告诉 Claude。Kim 对此表示非常期待，并喊话 Boris 继续发力。

Rohan Paul@rohanpaul_ai · 3天前53

The Information: Meta has reportedly limited engineer use of Claude Code and Codex because rival model outputs could contaminate Meta’s own AI training data and create contractual trouble with Anthropic and OpenAI. Distillation risk starts when a new model of Meta learns from another model’s outputs (from OpenAI or Anthropic), so even accidental reuse of Claude or Codex answers could look like Meta extracted capability from competitors rather than built it alone. OpenAI’s terms bar using output to develop competing models, and Anthropic says its terms do not allow Claude outputs to train models competitive with Anthropic’s own systems. Both OpenAI’s and Anthropic's terms bar using output to develop competing models. IMO, the safest strategy could be ingredient tracking: use rival tools for ordinary productivity only when outputs are barred from model-training pipelines, evaluation sets, benchmark generation, post-training data, reward-model data, and internal datasets that later feed model development. Of course a strong lawsuit usually needs much more ugly facts like: mass scraping, fake accounts, rate-limit evasion, automated extraction, direct use of outputs as training labels, or internal records showing the buyer knew it was cloning a rival system. In this situation, som of the typical safeguards are clean-room rules, approved enterprise accounts, no consumer accounts for sensitive work, training-data provenance logs, dataset quarantine, prompt and output retention, automated scanners for “AI-generated by vendor X” material, and access controls separating coding-agent work from model-training data.

译The Information报道，Meta已限制工程师使用Anthropic的Claude Code和OpenAI的Codex，原因是为防止竞争对手模型输出污染Meta自身AI训练数据，并引发合同纠纷。OpenAI和Anthropic的服务条款均禁止使用其输出来开发竞争模型。知识蒸馏风险在于即使意外复用竞品输出也可能被视为从竞争对手提取能力。建议的策略包括成分追踪：仅在不用于模型训练管线、评测集、基准生成、后训练数据、奖励模型数据及内部数据集时才使用竞品工具。典型防护措施有隔离规则、企业账户审批、训练数据溯源日志、数据集隔离及自动扫描“AI生成”标记等。

🚨 AI News | TestingCatalog@testingcatalog · 3天前67

Update: Cursor iOS app is now available in EU as well!

译更新：Cursor iOS 应用现已在欧盟地区可用！

AYi@AYi_AInotes · 3天前68

Cursor iOS端上线了，中国的iOS用户今晚可以甜甜入睡了😴

译Cursor for iOS 正式发布，支持启动云端智能体，或从 App 远程控制电脑上的智能体。Composer 2.5 即日起至 7 月 5 日享 75% 折扣。中国的iOS用户今晚可以甜甜入睡了😴

Boris Cherny@bcherny · 3天前30

In the next version of Claude Code: subagents run in the background by default, so you can keep talking to Claude while your subagents work If you want your agent to run in the foreground, just tell Claude

译下一版 Claude Code 中：子智能体默认在后台运行，因此你可以在子智能体工作时继续与 Claude 对话。如想让智能体在前台运行，只需告诉 Claude 即可。

OpenCode@opencode · 3天前24

OpenCode Go users in New Zealand used 40.9B tokens last week, or, 1,734 tokens per sheep

译OpenCode Go 新西兰用户上周使用了40.9B模型token，即每只羊1734个token。

🚨 AI News | TestingCatalog@testingcatalog · 3天前74

Cursor released an iOS app 🔥 > Users will be able to check live activities and follow up on ongoing tasks. > PR reviews with diff viewer will be supported as well. Looks like it is not available in the EU though.

译Cursor 发布了 iOS 应用 🔥 > 用户将能够查看实时活动，并跟进正在进行的任务。 > 还将支持带有差异查看器的 PR 审查。不过看起来在欧盟地区无法使用。

Chubby♨️@kimmonismus · 3天前71

No composer 3, but Cursor for iOS. dont know...

译Cursor for iOS 正式发布。用户可通过启动始终在线的云智能体在任何地方构建，或从应用远程控制电脑上的智能体。此外，Composer 2.5 在应用内享受75%折扣，持续至7月5日。主推文回应：没有 Composer 3，但有 Cursor for iOS，表示不确定。

OpenAI Developers@OpenAIDevs · 3天前19

Your favorite Codex shortcuts are getting an upgrade. July 15th.

译你最爱的 Codex 快捷键即将升级。 7 月 15 日。

🚨 AI News | TestingCatalog@testingcatalog · 3天前32

OpenAI and @work_louder are about to announce a mechanical keyboard for Codex on July 15? Is it what I think it is? 👀

译OpenAI 和 @work_louder 即将于 7 月 15 日宣布一款为 Codex 打造的机械键盘？是我猜的那样吗？👀

jason@jxnlco · 3天前30

did you know @dkundel is the chief hype officer?

译Codex快捷键即将迎来升级，7月15日上线。有人打趣称@dkundel是首席宣传官。

eric zakariasson@ericzakariasson · 3天前63

i've been using cursor mobile on the go for the last weeks, and having access to all cloud agents from everywhere is really nice go on a walk, get an idea, dictate it in the app come back from walk to a finished agent where you can jump into it try it today!

译过去几周我一直在路上使用 Cursor Mobile，能随时随地访问所有云端智能体，真的太棒了。出去走走，有了想法，在应用中口述下来。走回来时智能体已经完成，可以直接进入其中。今天就试试吧！

Chubby♨️@kimmonismus · 3天前22

Composer 3?

译Cursor 迎来重大更新（Big day），主推文猜测：Composer 3？

🚨 AI News | TestingCatalog@testingcatalog · 3天前64

Cline has launched ClinePass, a flat monthly subscription that opens access to a curated set of open-weight coding models across its IDE extensions, CLI, and SDK. The current lineup includes GLM 5.2, Kimi K2.7 Code, DeepSeek V4 Pro, MiniMax-M3, and Qwen3.7, with a subscription replacing separate API keys across providers.

译Cline 发布 ClinePass 按月订阅服务，覆盖其 IDE 扩展、CLI 和 SDK，取代多个提供商的独立 API 密钥。当前套餐包括 GLM 5.2、Kimi K2.7 Code、DeepSeek V4 Pro、MiniMax-M3 及 Qwen3.7 等开源权重编码模型。Cline 称对 GLM-5.2 印象深刻，推出 $9.99/月订阅，提供 2-5 倍折扣访问；另提供 $1.99 促销价，通过 `npm i -g cline` 注册即可使用。

meng shao@shao__meng · 3天前29

Codex Remote 功能好像有个 bug 在当前 5 小时额度用光时，消息发出去，thinking 几秒钟就没了，没有额度提醒，也没有任何其他异常，就是什么都没有了。。中午吃饭的全程都在纳闷，到底咋了，吃完饭赶紧回家看，呃。。好吧，没额度了

译用户发现 Codex Remote 功能的一个 bug：当前 5 小时额度用光后，消息发出去仅 thinking 几秒就消失，没有任何额度提醒或异常提示，导致用户毫无察觉。

Elon Musk@elonmusk · 3天前28

Grok Build daily updates

译Grok Build 更新至 v0.2.73，新增文本选择高亮保持设置，修复了 tmux 或编辑器终端中切换标签后出现重复行的问题，以及剪贴板复制只在通过可信路径接收文本时显示成功。

数字生命卡兹克@Khazix0918 · 3天前37

Claude最近实在没法用了，Opus 4.8幻觉问题爆炸，还总是莫名其妙出现一些别人的信息串到我的对话里，整个周末我代码都被幻觉问题改崩了好几次，每次任务做到一半就会被各种带偏，用Codex修到今天才把坑全部修完。忍无可忍了，重开了ChatGPT的200刀会员，重回Codex怀抱，坐等GPT-5.6。。。而且有一说一，Codex的远程控制体验真的吊打Claude N个数量级。

译用户反映 Claude Opus 4.8 幻觉问题严重，导致代码多次被改崩，且对话中频繁出现他人信息串扰。最终放弃 Claude，重新订阅 ChatGPT 200 美元会员（Codex），并称赞 Codex 远程控制体验远超 Claude。

eric zakariasson@ericzakariasson · 3天前46

its going to be a good model

译Elon Musk透露，Cursor团队为v9模型SFT & RL训练做出重大工程贡献。1.5T训练中已加入Cursor数据作为补充训练，而几周前开始的2T训练在数据范围和规模上大幅改进，并升级训练配方，预计7月底完成，8月发布。Eric Zakariasson表示这将是个好模型。

数字生命卡兹克@Khazix0918 · 3天前64

http://x.com/i/article/2071459685358792704 # 分享2个Vibe Coding必备的超实用Prompt。周末跟几个之前的老朋友吃饭。大家也都不由自主的聊到了AI，然后也聊到了Vibe Coding。因为几乎都不是专业的程序员，都是各个其他职业的，有基金经理、设计师、老师、产品经理、媒体人等等等等，所以大家也都说了蛮多自己使用Vibe Coding的心得，也聊了不少过程中遇到的坑。然后他们就问我，你几乎每天都在Coding，也写了那么多的教程和分享，问我说如果让你给大家安利几个Vibe Coding中最实用的小技巧，你觉得是什么。我当时还真的想了半天。最后，我想到了两个技巧，同时也是两个神级Prompt，是我觉得上至巨佬，下至萌新都有用的超级好用的东西： 1. 第一性原理。 2. 对抗式审查。可以说，我自己在这将近1年的Vibe Coding时间里，这两个词，绝对是我如今每天跟AI说的最高频词汇。前者管生成，后者管验证，基本能保证你在Vie Coding的时候，写出来的代码和最后的运行，有质的飞跃。其他的技巧当然也有用，比如我自己一直在说的约束先行、洁癖skill做文档迭代等等，这些也都是好东西。但如果你只能选两个，那我就选这两个，它们加在一起构成了一个完整的闭环，是我当今心目中Vibe Coding的两大基石，并肩站在一起的那种。然后给大家在饭桌上解释了一下，大家说，你不如写成文章吧，他们觉得还挺有用。所以，这篇文章就来了。也强烈给给大家安利一下这两个技巧。 1. 第一性原理这个技巧有多简单呢，就是你平时咋说就咋说，但是最后加一句“从第一性原理出发”就行。你相信我，加了这一句话后，你会发现Agent写方案的能力、找BUG的能力，都进化了一大截。举个我周末的例子。我自己做的AIHOT周五出了一个很严重的事故，就是我们的精选消息飞书推送出了BUG，导致周六凌晨，像OpenAI发布GPT-5.6这种大新闻，在飞书群里居然没有被推送。然后用户直接反馈，有的甚至都在别的消息卡片下面评论，我周六中午一醒，飞书的反馈提醒直接炸了，二十多条用户反馈。我就赶紧让Agent去修，他查了下跟我说，是因为之前测试一个国产模型的时候，OpenAI的抓取被那个国产模型给瞎改改坏了，所以断了三天，OpenAI的官网信源其实就一直没有抓取到，只不过今天才发现，让我修好就行。但是我当时有一种直觉，我寻思，这不对啊，这个背后，感觉有更严重的问题，这个修复，好像治标不治本。于是又补了一句，根据第一性原理来找一下原因。这一次，瞬间就不一样了。细节我就不太好说了，不过它找到了我们抓取海外信源的规则中的一个巨大的隐患，而且这个隐患非常的底层非常的深，是流量路由层面的，这个代码甚至都是今年4月中写的，只是因为那个国产模型瞎改代码，在表层上面做错了一个小点，然后把整个底层的流量路由问题都暴露出来了。我们当然可以非常简单的把OpenAI的抓取给单独修复一下，但是未来因为这个底层机制，未来你保不齐又有什么信源会出问题，你倒是可以再修再补，但是那就跟一艘破船一样，缝缝补补，最后堆成一座屎山，到时候再暴雷，那就真的会爆个天大的了。于是我花了半天时间，把这个底层的路由问题直接重构了，目前从机制上看，未来大概率就可以安心了。你看，一个是治表，一个是治本，这个差异，还是巨大的。这就是第一性原理的力量。在跟AI对话时，更是格外好用。社区里更是有朋友，把它称为神之Prompt之一。坦率的讲，现在的AI，很多都还是在做类比推理，跟人类一样，你跟它说写一个过滤函数，它会在训练数据里找到几万个类似的过滤函数，然后给你写一个符合你项目的看起来差不多的出来。这个过程很快，结果也能用，但它跳过了一个我认为最最最最最关键的步骤。就是，这个问题真的应该这么解吗？ “从第一性原理出发”这七个字，做的事情就是强制打断AI的类比推理，逼它回到问题的本质去思考，不要参考别人的方案，从最基本的事实出发，重新推导。这个道理亚里士多德两千多年前就说过了。然后马斯克把这套思维用在了SpaceX上。当时行业里所有人都说火箭发射就是得花几个亿，这就是所谓的行业共识。马斯克我觉得你在放屁，我们重新材料成本开始算起，铝合金、碳纤维、航空级燃料，这些原材料加起来才多少钱，你告诉我几个亿？然后SpaceX从这个数字出发重新设计整个制造流程，最后发射成本降了90%。 GitHub上甚至已经有人做了专门的skill，就叫first-principles。不过我觉得，你也没必要装什么Skill，不需要写什么System Prompt，你就在需要的时候，比如解决问题、修BUG、让AI帮你设计架构的时候，在你的Prompt后面加一句“从第一性原理出发”，相信我，这就够了。只要你的任务稍微复杂一点，这个Prompt几乎是万能的。神级Prompt，我觉得，当之无愧。 2. 对抗式审查这是我之前发现的，超级有用的一个审查Prompt。我现在只要做开发，最后的测试流程，几乎都必然是对抗式审查这句话了。第一性原理可以保证帮你找到好的方案、帮你找到BUG的真正的最本质的解法，但是他们没办法保证，开发完了以后，能稳定的上线。而这，就是这个Prompt去解决的试了，怎么保证AI写的代码确实没啥毛病。今年6月初的时候，也就是Claude Opus 4.8和动态工作流上线之后，我对AIHOT做了一次比较大的对抗式审查，就是纯找BUG。当时我印象中，开启了近40个Agent，跑了很久，然后找出了N个可能的风险。比如有一个叫OOM的死循环问题，就是后台worker如果处理一个特别大的任务时内存爆了，就会被系统杀掉，然后会自动重试，然后结果必然是又爆，又被杀，无限循环。对抗式审查从“如果我是一个恶意用户，我会提交一个50MB的HTML来搞崩你的worker”这个角度，把整条路径从入口到崩溃全走了一遍，找出了这个缺口，避免了后续一系列的风险，因为我后面信源加多了之后，还真的看到过100M的HTML。。。最搞笑的是还有一个未来时间污染的BUG。就是如果某个信源发布了一篇文章，但这篇文章的发布时间因为时区错误或者别的原因，显示的是未来的某个时间，比如明天，那这篇文章就会排到整个精选信息流的最前面，因为它的时间戳最新。它甚至还可能会被推送给用户，进入飞书群PUSH，进入RSS订阅，日报也会把它排在最前面。一篇来自未来的文章，就会把整个信息流都污染了。这种BUG你自己写代码的时候根本不会想到。但当你让AI站在我要用各种奇怪的数据来搞崩掉你的系统这个角度来审查的时候，它就会问，如果发布时间是未来怎么办？然后还有一堆乱七八糟的，比如因为HTML清洗模块的性能炸弹、翻译模块的同类隐患、部署探活的缓存穿透假阳性的各种奇奇怪怪的BUG。提前发现问题，提前解决，考虑到所有的情况，尽可能不让你的真实项目出现问题。毕竟我也不懂代码，我就是个废物，我只能依赖AI来帮我进行Vibe Coding，而大家也懂，Vibe Coding出来的东西，漏洞也是真的多，如果你不提前把这些问题全都考虑到，直接扔到线上，那伤害的，就是你的用户了，那就是真正的事故了。而对抗式审查，我强烈建议是，多开Agent进行对抗式审查。比如Claude Code我现在就很喜欢说：“开启Ultracode（也就是动态工作流，会有N个Agent进行并发）来对之前开发的功能进行对抗式审查。” Codex也可以，直接就说开启多Agent帮我进行对抗性审查就可以了，它会自动开好几个Agent的。极致且纯粹的攻防战。自从用了对抗式审查之后，我对自己代码和项目的信心反而变的很强了。写在最后我现在除了日常的开发外，我也几乎现在是每2到3周，定期对整个项目进行全局性的从第一性原理出发的对抗式审查。让Agent从最底层原理出发，去并发去审查架构、依赖关系、代码质量、文档对应等等，正好也可以用来去测试新模型的能力，也能整体review一下这两三周开发的功能，最好玩的是，每次都能挑出来之前没注意到的技术债和潜在风险。特别有意思。而且这些问题说实话，如果不主动去找，它们就会一直潜伏在那里，等到某天突然爆发。作为一个纯粹的不懂代码的小白，这个纯粹用Vibe Coding方式做出来的AIHOT，最近一周的请求量就超过千万，Skill的调用量也远远超乎我的预期，是网页端的10倍以上，虽然偶尔出一些小BUG，但是能稳定的为这么多用户提供服务，我心里还是很自豪的。而这两个Prompt，第一性原理和对抗性审查，居功甚伟。而且说实话，我觉得这两个东西的应用范围，也真的远不止Vibe Coding，远不止代码。它甚至是我们对待世界的处世哲学。你写完一篇文章，可以让AI帮你对抗式审查，它可能会从逻辑漏洞、事实准确性、论证力度多个维度来挑毛病，比帮我看看这篇文章怎么样有用太多了。你做完一个商业方案，让AI从第一性原理出发审视这个方案，它会剥掉你的所有假设，直接质问你的核心逻辑是否成立。你甚至可以在做人生决策的时候用这两套思路。比如，我要不要换工作，先从第一性原理想清楚自己到底想要什么，再用对抗式审查让AI专门找你思考中的盲点和你下意识回避的风险。因为这两个Prompt的核心逻辑，从本质上来说，跟具体领域无关，只是在Vibe Coding领域格外好用。第一性原理的核心就一句话，回到最根本的事实重新推导。对抗式审查的核心也就一句话，你永远需要一个站在你对面的力量来告诉你，你可能是错的。想想还挺浪漫的。相信我。这两种思维习惯一旦内化。你用AI的水平，会有一个质的飞跃。

译卡兹克分享Vibe Coding两个必备技巧：①“从第一性原理出发”——强制AI回归问题本质，曾助其发现AIHOT海外信源抓取底层路由隐患并重构；②“对抗式审查”——让AI从恶意用户角度测试，曾找出OOM死循环、未来时间污染等隐蔽BUG。作者建议每2-3周全局对抗式审查。当前AIHOT每周请求量超千万，Skill调用量为网页端10倍以上。两个技巧适用于任何需要验证与创新的场景。

Tibo@thsottiaux · 4天前50

As we are still investigating, I have reset everyone's Codex usage limits. This is a hard reset given some users had stacked up to three banked resets already that they can apply on their own schedule. Funnily enough, this week at OpenAI is called the RESET week, which is meant for folks to relax a bit. However it will be a different kind of RESET week. Enjoy.

译OpenAI Codex 团队周日进入作战室，梳理日志调查部分用户使用量异常增加的原因，并重置了所有人的 Codex 使用限制。此前一些用户已累积多达三个可自行安排的银行重置。这周 OpenAI 原定为“RESET week”（放松周），但团队将面对另一种形式的“重置周”。团队表示非常重视，不查明原因不会休息。

Tibo@thsottiaux · 4天前33

Codex team is in a warroom on a Sunday combing through logs and checking whether there is anything that could lead to increased usage drains for some users. Taking it very seriously and won't rest until we get to the bottom of it.

译Codex 团队周日待在作战室里，梳理日志，检查是否有任何可能导致部分用户使用消耗增加的情况。他们非常重视此事，不彻底查清绝不罢休。