Working with agents should feel like working with a colleague. You should be able “speak to” them not just with text chats, but by gesturing at a screen together, talking live, etc.

译与 AI 智能体协作应感觉像与同事协作一样。你应能“与它们交谈”——不仅通过文本聊天，还能一起对着屏幕做手势、实时对话等。

jason@jxnlco · 6月6日63

wow its @tomiyasu16 https://x.com/itsolelehmann/status/2062840689415905369?s=46

译日本北海道前公务员 @tomiyasu16 从未学过农业，也未继承土地，利用 OpenAI 的 Codex 自行构建了 100 公顷西兰花农场的全套自动化工具：通过 ESP32、电机驱动器和 Cloudflare Workers 从聊天 App 远程控制温室通风；自动检测温度并开窗；将卫星作物健康数据叠加在地图上；用 Airtable 关联地块、任务、材料和传感器；从照片生成配电盘接线图。这些此前只有大型农业企业才能负担的工程，被他用一台笔记本和 Codex 开发成功。

Yuchen Jin@Yuchenj_UW · 6月6日48

Another Friday, another day where both Claude Code and the Claude web app are down for me. I’m starting to understand why Mythos still hasn’t shipped. Hello Codex.

译又一个周五，又一天我这边Claude Code和Claude网页应用都宕机了。我开始理解为什么Mythos还没发布了。你好，Codex。

宝玉@dotey · 6月6日38

为什么 GitHub Copilot @GitHubCopilot 不能以周为单位刷新额度限制呢？自从 6/1 日实施新的计费价格后，额度消耗的极快，最麻烦的是得等到月底才能刷新额度，这个周期太长了。

译用户反映GitHub Copilot自6月1日实施新计费价格后，额度消耗极快，但额度刷新需等到月底（周期长达一个月），呼吁改为按周刷新。

Replit ⠕@Replit · 6月6日67

Shopify on Replit + the new SEO Agent https://x.com/i/broadcasts/1kJzDDopENZKv

译Replit 上的 Shopify 与新的 SEO Agent

歸藏(guizang.ai)@op7418 · 6月6日61

Codex 个人资料页的这个 Token 消耗数据可以分享了。这个分享图做得真挺好的，打开设置、个人资料页，点击右上角的分享图标，就可以生成分享图了

译Codex 现在有了个人资料页，可以展示活动图、连续使用天数、生命周期 Token、峰值日 Token 以及常用功能（如插件和 /fast 模式）。默认私密，可按需生成分享图。归藏称赞这个分享图做得不错。

AK@_akhaliq · 6月6日57

Code2LoRA Hypernetwork-Generated Adapters for Code Language Models under Software Evolution

译Code2LoRA 超网络生成的代码语言模型适配器，用于软件演化环境。

ginobefun@hongming731 · 6月5日66

http://x.com/i/article/2062871546377728000 # BestBlogs 周刊第 98 期：Agent 时代已来，模型、产品、工程与组织的同步重塑 > 🎧 本期也有播客版本：BestBlogs 周刊第 98 期 · 在小宇宙搜索「BestBlogs 」即可收听。 > https://www.xiaoyuzhoufm.com/episode/6a2290657444b5722233e785 这一周，整理 20 篇内容时有一个越来越清晰的感受：这不像是几件不同的事同时发生，更像是同一件事在不同层面同时爆发。模型层有 OpenAI 的梦境记忆架构升级和 MiniMax M3、Gemma 4 12B 的密集发布；产品层有 Kimi Work、扣子 3.0、SkillOpt 把 Agent 推向更广的工作者；工程层有 Anthropic 和国内腾讯、阿里、阿里云、大淘宝在同一周各自写出万字长文，从不同角度指向同一个结论；战略层有纳德拉和黄仁勋的大会宣言；再到组织和个体层，腾讯研究院三万字报告谈超级个体，一篇深思文章警示认知缴械。 Agent 时代不是一个遥远的未来，而是这一周正在发生的事。 BestBlogs 这边也在用 Agent 和 Skills 做同样的事：我们正在系统整理和更新 BestBlogs 的订阅源库，第一波成果已发布到 GitHub 项目 ginobefun/BestBlogs，接下来几天持续推进。v2.4.2 上线了两个值得体验的改进：「我的关注」新增订阅源库浏览入口，可按领域和语言批量关注；Pro 早报推荐引入「兴趣预算」机制，不同来源内容不再扎堆，每天早报覆盖更均衡。 ## 一、模型层：记忆进化与端侧智能 ChatGPT「梦境」：记忆从手动保存升级为后台合成 OpenAI 把 ChatGPT 记忆架构做了根本性升级，新系统在后台持续整合对话中的碎片信息，就像大脑在睡眠中整理白天记忆一样，无需用户主动触发。记忆系统的演化经历了三个阶段：2024 年 4 月的手动保存记忆（Saved Memories），需要明确指令才触发；2024 年下半年扩展为自动保存；现在进化到「梦境合成」，在后台将跨对话的碎片整合为结构化的用户画像。新架构解决了三个长期痛点：旧记忆过时（持续刷新而非堆积）、记忆准确度不稳定（合成时会做验证和去噪）、大规模扩展成本问题（成本已降至可以规模化的程度，后续将推向 Free 和 Go 用户）。文章中有一个细节值得关注：这套系统的设计目标是让 ChatGPT 在数亿用户和数年时间跨度下都能持续理解用户偏好。这已经不只是功能迭代，而是向长期个性化 AI 助手方向的架构升级。结合第 96 期看到的 Anthropic「用于自学习 Agent 的 Memory 与 Dreaming」，两家公司几乎在同一时间做类似架构，但侧重不同：Anthropic 偏 Agent 的自主学习，OpenAI 偏个人助手的长期陪伴。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/bd3109dd MiniMax M3：一个开源模型，三项前沿能力 MiniMax M3 把编码能力、1M 长上下文和原生多模态放进同一个开源模型。背后的 MSA 稀疏注意力架构让绝大部分注意力计算走稀疏路径，只有少数关键位置做全量计算，大幅降低超长上下文的计算成本。文章展示了论文复现、CUDA 优化、长程 Agent 任务等真实场景，M3 全程保持状态、自主迭代，是这类工作里目前能力组合最完整的开源选项之一。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/46b80e9f Gemma 4 12B：跑在笔记本上的完整 Agent 工作流 Google 这篇文章的重点不是模型参数，而是工具链：AI Edge Gallery、Eloquent 和 LiteRT-LM CLI 三个工具让 Gemma 4 12B 在本地笔记本上运行完整 Agent 工作流，覆盖代码生成、数据可视化、语音编辑。端侧运行的核心价值是隐私、低延迟，以及离线可用。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/cb28b58a ## 二、产品层：Agent 走向知识工作者 Kimi Work：把 Coding Agent 的能力迁移到桌面 GUI Kimi Work Beta 版上线，定位明确：不是给开发者用的 Coding Agent，而是给普通知识工作者用的桌面 Agent。金融分析师做行业报告、科研人员整理文献、办公室处理流程性工作，全部用自然语言描述任务，Agent 去执行。多 Agent 并行和长程任务执行能力从开发者工具迁移到了更广的工作场景。值得关注的是，这个产品自身的开发也深度使用了 AI，是这一周不止一处出现的「吃自己狗粮」实践。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/98fc56b1 SkillOpt：像训练神经网络一样训练 Agent 技能（深度）微软在本周开源了 SkillOpt，一周收获 3,300 star，核心理念是把 Agent 的技能文档——类似 CLAUDE.md 这样指导 Agent 行为的自然语言文档——当作「可训练的外部权重」，用一套系统化循环自动优化。四步循环类比神经网络训练： - Rollout（前向传播）：目标模型用当前技能文档执行一批任务，记录完整执行轨迹 - Reflect（反向传播）：独立的优化器模型分析轨迹，失败案例用来找需要修正的规则，成功案例用来确认哪些规则在起作用 - Edit（参数更新）：优化器基于反思结果，对技能文档执行 add / delete / replace 操作 - Gate（验证门控）：新技能文档必须在 held-out 验证集上性能严格提升才被接受两个精巧的工程设计：「文本学习率」（textual learning rate）：每步最多允许 4 条编辑操作，防止改动太大覆盖已有的有效规则。消融实验显示去掉这个约束后，SearchQA 准确率从 87.1% 降至 84.6%，LiveMath 从 61.3% 降至 57.3%。拒绝编辑缓冲区（rejected-edit buffer）：被验证拒绝的修改不会被丢弃，而是进入缓冲区。优化器下次可以看到这些失败尝试，避免重复同样的弯路。这个细节移除后，SpreadsheetBench 准确率从 77.5% 跌至 72.9%。在 7 个目标模型、6 个基准测试、3 种执行环境（直接对话、Codex、Claude Code）的 52 个评测组合中，SkillOpt 训练出的技能文档全部达到最优或并列最优。这个工作对实际工程的意义在于：每个用 Claude Code 或类似工具的人都在维护某种形式的技能文档，这个过程如果能被系统化，Agent 工程化的天花板会高出很多。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/7b8c6b8d 扣子 3.0：从单 Agent 到可调度的 AI 团队字节跳动把扣子 3.0 的核心定位从「AI 助手」升级为「AI 团队」——多个 Agent 组织进项目空间，通过技能商店安装专业能力，支持本地 Agent 接入和多端协同。这是 Coding Agent 那套编排理念的产品化翻译，受众从开发者扩展到了更广的用户群体。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/b7bca3c0 ## 三、工程层：AI 重塑软件工程的集体思考本周最密集的一批内容集中在这里：Anthropic 两篇、国内四篇大厂长文，从实践记录到工程哲学，从不同角度指向同一个结论：软件工程正在经历范式迁移。 Claude Code 动态工作流：用子代理编排打破上下文限制（深度） Anthropic 发布 Claude Code 动态工作流：模型可以在运行时自己写 Harness，根据任务需求即时构建定制化流程，然后编排独立子代理来执行复杂任务。文章给了一批极具说服力的示例提示词，理解它们比读概念更直接： > 「这个测试大概 50 次运行里有 1 次会失败，给我设计一个工作流来复现它，提出关于竞争条件的假设，不找到原因不停止。」 > 「翻我最近 50 个 session，把我反复在纠正的东西提取出来，变成 CLAUDE.md 规则。」 > 「把这份商业计划书，用工作流让不同的 Agent 分别从投资人、用户、竞争对手三个视角把它批一遍。」这些提示词背后的逻辑是：让模型编排一个小团队来解决问题，而不是靠单次对话硬扛。动态工作流特别适合四类任务：大规模并行（如 80 份简历筛选）、需要对抗性视角（多角色批评同一方案）、高度结构化流程（如 rename 涉及数百个文件），以及需要反复实验的调试。文章也坦承了代价：动态工作流通常消耗更多 token，最适合复杂、高价值任务，不是所有任务的默认选项。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/d9ee6dfe 打造 AI 原生工程组织：Anthropic 的内部实践 Anthropic 工程团队公开了三个已经重写的工作规范：计划方式：六个月路线图在三个月就过时了，改为「即时规划」（JIT planning）——更多靠原型、早期内测、快速反馈，而非预先的设计文档。上下文获取：以前想了解一段代码先找写它的人，现在先问 Claude。Claude 承担了大量代码审查工作，人专注在更需要判断力的地方。招聘标准：更看重有产品洞察力的创造者和深层系统专家，纯执行型工程师需求在减少。这篇放在动态工作流文章之后读，会发现一件有意思的事：他们描述的工作方式，正是动态工作流设计所服务的那种工作场景。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/f781c46a OpenClaw 与 Hermes：55,000 字源码级 Agent 架构复盘腾讯技术工程把 OpenClaw 微内核架构与 Hermes 单体架构并排拆解，覆盖 Gateway 路由、Channel 契约（25+ 协议适配）、记忆系统（三阶段加权晋升的 Dreaming 机制）、工具编排和安全边界。文章最后用 Google 新书《Agentic Design Patterns》的 21 个模式作为坐标系，重新审视两套架构的覆盖与空白。这是 Agent 工程化领域难得一见的源码级参照，适合正在做多端 Agent、长期记忆或跨平台工具编排的工程师深读。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/19c7f702 AI 软件工程范式革命：五十年最根本的转变腾讯云这篇将近 2 万字的文章，核心论断清晰：软件工程在过去五十年其实从未真正「工程化」过。其他工程门类（化工、电力、自动化）成功的路径是「消耗能源，把低阶认知固化成物理装置」，人从主回路退出。但软件要做的是抽象、推理、创造，是高阶认知，没法固化成电路，所以软件工程骨子里一直靠人脑堆。过去五十年的所有方法论（敏捷、DevOps、Scrum）都是在「管理人」，而不是「替代人」。大模型第一次做到了「输入算力，输出高阶智能」，这才是经典工程意义上的「能源换智能」。作者批评现在主流的 Copilot 模式走不远，倡导「AI 为中心、人工辅助」，人的角色重塑为产线设计师和认知边界守卫者。他认为最难攻克的核心问题是「隐性知识蒸馏」——那些老工程师靠直觉判断、无法被明确写下来的工程经验，如何让 AI 系统真正习得。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/f66bdbca AI 研发自动化：Wiki 知识库 + 技能包的落地路径阿里云开发者这篇把 LLM-Wiki 和 Agent Skill 结合成一套可落地的研发自动化方法：Wiki 持续更新团队上下文和知识，Skill 把可重复的工程流程固化下来，两者合在一起让 AI 从一次性问答变成长期工程资产。适合想把 AI 从工具升级为基础设施的团队参考。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/d7edfb35 重新思考研发基础设施：当 Agent 成为第一公民阿里巴巴研发基础设施负责人晓斌从一个小工具出发，观察到两个现象：代码生命周期从月和年缩短到了分钟，Infra 变得「不可见」了。他的框架是，软件系统一直是「意图驱动 + 代码沉淀」的进化体，以前的桥梁是人，现在是 Agent。这个替换要求基础设施从 People-Oriented 转向 Agent-Oriented，权限治理、可追溯性、Dry-run 验证等工具需要重新设计。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/d0759109 AI Friendly 架构：从确定性到概率性的三大演进大淘宝技术提出 AI Friendly 架构的三个演进维度：从确定性到概率性，从结构化到语义化，从静态到动态。实践数据：AI 审核准确率达 95.7%，AI 答疑系统效率提升超 80%。这篇适合正在设计新系统、想把 AI 嵌入核心流程的架构师阅读。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/5771ef7f ## 四、战略层：大厂的全面押注纳德拉：微软是「前沿智能平台」，而不是模型公司（深度） Latent Space 和 No Priors 在 Microsoft Build 现场联合访谈纳德拉，这期对话提供了微软 AI 战略的第一手阐述。纳德拉最核心的框架是：微软的定位是「前沿智能平台」，而非模型公司。平台的意义是客户必须从 Microsoft 生态获得比微软自身多得多的价值。为此，他们构建了三层能力：第一层是多模型套件（MAI、OpenClaw、Scout 等），企业可以选择最适合自己任务的模型组合；第二层是 Work IQ 上下文层，统一接入企业的文档、邮件、会议记录、代码；第三层是 Token IP 的概念，他说私有评估、traces 和 benchmark 是新时代的核心资产，就像工业时代的专利，积累的越早护城河越深。对 SaaS 的冲击，纳德拉直接承认 Build vs Buy 的方程已经改变，SaaS 商业模式会被重构。但他的判断是：这个转变的受益者是能帮企业真正把 AI 价值落地的平台，而不是那些只提供工具的公司。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/7ffd8109 黄仁勋：COMPUTEX 2026 上的「Agent 工厂」蓝图本次 COMPUTEX 2026 最值得关注的不是某个单项产品，而是英伟达整体叙事的变化：从卖芯片变成提供完整的「Agent 工厂」。Vera Rubin 架构（NVL144 系统，含 144 颗 GPU）、DSX 数据中心超算平台、Nemotron 3 Ultra 推理模型、Cosmos 3 物理 AI 平台、人形机器人——这些合在一起，是从芯片到数据中心到模型到软件到物理 AI 的完整技术栈。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/074ff85e Benedict Evans：AI 是 1997 年的互联网，自动化的是任务而非工作 Benedict Evans 的比喻用得精准：现在是 AI 的 1997 年——基础设施在快速扩张，但绝大多数最终会改变世界的商业模式还没有被发明。他的核心判断：AI 自动化的是任务而非工作，「杰文斯悖论」意味着某件事变得更便宜时，需求反而会增加。基础模型会商品化，价值将向上层应用和分发能力集中。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/video/ed8426c 中国 AI 大厂访问记：算力差距与效率追赶并存阮一峰整理了 2026 年 5 月美国访问团实地走访中国 14 家 AI 和机器人公司的多位分析师观感。关键数据：美国算力约是中国的 8 倍（主要来自芯片出口管制）；但中国公司在芯片约束下实现了效率创新，单位算力产出的智能达到简单扩展的 4 至 7 倍。此外，两个文化观察值得关注：中国公司大量使用才华横溢的实习生（与西方形成对比）；中国研究人员对 AGI 取代自己「充满好奇而非恐惧」。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/6933ad74 ## 五、人与组织：觉醒与警示超级个体时代：腾讯研究院 3 万字报告（深度）腾讯研究院这份 33,000 字报告的核心观察是：AI 最深刻的组织变革，起点往往不在高管会议室，而在某个工程师深夜感觉自己能力被放大了的那一刻，然后像涟漪向外扩散。他们提出了一个组织公式：组织竞争力 = 人才密度 × AI 杠杆 / 组织摩擦三个变量是乘除关系，不是加减：分母不变只翻分子，效果打折；分母减半等价于分子翻倍。这意味着降低组织摩擦（减少等待、审批、信息衰减）的投入回报，和提升 AI 杠杆一样重要。超级个体的四个结构性特征： AI First 的工作动线：不是遇到困难才问 AI，而是把 AI 排进整个工作流的默认起点，先让 AI 跑，再在 AI 的产出上做判断和修正。能力边界的量级跃迁：不是提升百分之几十，而是十倍甚至更多。报告引用 Anthropic 一项基于 10 万条对话的生产力研究：样本任务若无 AI 辅助平均约需 1.4 小时，引入 AI 后任务完成时间平均减少约 80%；课程开发任务从估算的 4.5 小时降至 11 分钟，节省了 96% 的时间。主动性：天然的边界探索者，不等待组织安排，主动寻找 AI 能力的极限。影响力溢出：这是最关键的阈值。高效个体只让自己变快，超级个体让团队变快。如果同事毫无察觉你的 AI 杠杆，你还不是超级个体，只是一个使用 AI 的优秀员工。从 AI 转型和 AI 原生的分歧视角来看，报告认为两者其实服从同一个底层逻辑：超级个体在存量组织内部涌现，能力溢出带动团队进化，这和 AI 原生团队的聚合方式本质相同，差别只在路径和约束。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/712a9c1e FDE：AI 落地中出现的新型组织角色十字路口这期播客解析 FDE（Forward-Deployed Engineer，前场部署工程师）这一角色：他们的工作不是写功能代码，而是让 AI 真正在企业里运行起来，完成业务融合、知识治理和系统对接。Rolling AI 的「AI 副店长」案例说明了管理逻辑的变化：从标准化动作变成赋能一线做判断——这不只是效率提升，而是组织逻辑的重构。（这个话题在第 97 期 Pragmatic Engineer 那篇里也有出现，两篇合读更完整。） → 前往 BestBlogs 阅读：https://www.bestblogs.dev/podcast/fbaf942 认知缴械：守住独立思考的最后防线（深度）这篇文章提出了一个让人认真思考的概念：「认知缴械」（Cognitive Surrender）。宾夕法尼亚大学 Steven Shaw 和 Gideon Nave 在 2026 年的研究中，把 AI 定义为人类认知的第三系统（System 3）——除了快思考的 System 1 和慢思考的 System 2 之外，AI 成了一个在大脑外部运行的认知系统。研究数据让人警醒：1,372 名参与者完成了 9,593 次认知反射测试，参与者在超过一半的题目中主动选择向 AI 咨询。当 AI 给出正确答案时，90% 的人跟随；当 AI 给出错误答案时，依然有 80% 的人盲从。文章做了一个历史梳理，能力外包在人类文明中一直存在：苏格拉底反对文字、GPS 削弱空间记忆、Google 改变记忆形态（从记住内容变为记住入口）。但 AI 影响的是「推理本身」这个核心能力，与以前的外包有本质不同——以前外包的是存储或执行，现在外包的是判断。作者的立场不是反对 AI，而是指向一个具体的问题：在 AI 已经给了答案的情况下，我们是否还愿意停下来自己想一想？能否在效率和独立思考之间找到自己的边界？ > 如何守住认知主权，是这一期所有内容里，最需要每个人自己回答的问题。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/70d76621 超级个体与 AI 时代的价值归属：Benedict Evans 的宏观分析本期最后，建议把 Benedict Evans 的视频和腾讯研究院报告放在一起看：一个从宏观经济和历史格局解释为什么 AI 不会消灭工作，另一个从组织内部的微观实践说明如何成为 Agent 时代的受益者。两个视角，读完会有一种互相印证的感觉。感谢阅读第 98 期。从模型到产品，从工程到组织，Agent 时代正在每个层面同时展开。如果这些内容对你有启发，欢迎转发给身边正在关注 AI 和知识工作的朋友。下周见。 ## 关于 BestBlogs BestBlogs.dev 是 AI 驱动的私人阅读助手。它会从 RSS、Newsletter、Twitter、YouTube、Podcast 等来源中筛选高质量内容，结合你关注的源、兴趣标签和阅读行为，把「我的早报」整理成每天真正适合你的阅读流——不论你关注的是技术、AI、产品、商业、研究、设计、投资、文化还是个人成长。完成新用户三步引导即送 7 天 Pro 试用；现有 Pro 用户每邀请 1 位朋友双方各得 7 天 Pro（单人上限 28 天）；欢迎到 bestblogs.dev 体验最新版本。发现真正适合你的高质量内容——欢迎来体验，也欢迎推荐给身边认真阅读的朋友。 BestBlogs.dev · 发现真正适合你的高质量内容 #BestBlogs #AI #周刊 #Agent #软件工程 #超级个体

译本周BestBlogs梳理20篇内容，聚焦Agent时代的三层爆发：模型层OpenAI升级ChatGPT“梦境”记忆架构、MiniMax M3开源（1M上下文+稀疏注意力）、Gemma 4 12B端侧Agent工作流；产品层Kimi Work Beta面向知识工作者、微软开源SkillOpt（3300 star，含文本学习率与拒绝编辑缓冲区）、扣子3.0升级为AI团队；工程层Anthropic发布Claude Code动态工作流（子代理编排）及其内部AI原生工程实践。

Rohan Paul@rohanpaul_ai · 6月5日72

Anthropic just disclosed that Claude now writes more than 80% of the production code it merges. Before Claude Code reached research preview in 02-25, Claude wrote only low-single-digit merged code, while output per engineer has since risen to 8x the 2024 baseline. The shift comes from agents that edit files, run tests, inspect failures, spawn helper agents, and keep working across longer tasks instead of only suggesting snippets. Anthropic says reliable task length is doubling about every 4 months, with Mythos Preview reaching at least 16 hours and open-ended Claude Code success hitting 76%. i.e. Claude Mythos Preview could stay useful on a task that would take a skilled human roughly 16 hours of work Claude also moved from a 3x training-code speedup to 52x, while a skilled human reached about 4x in 4 to 8 hours on the same setup. The remaining human edge is research judgment: choosing the right problem, trusting the right result, and knowing when an experiment is dead.

译Anthropic 披露，Claude 现已编写超过80%的合并生产代码。2025年2月 Claude Code 研究预览前，该比例仅有个位数，而工程师产出升至2024年基线的8倍。智能体可编辑文件、运行测试、检查失败、生成辅助智能体并在长任务中持续工作。可靠任务长度约每4个月翻倍，Mythos Preview 达至少16小时，开放式 Claude Code 成功率达76%。Claude 训练代码加速从3倍升至52倍，有经验工程师在相同设置下4-8小时仅约4倍。人类剩余优势在于研究判断。

Alibaba Cloud@alibaba_cloud · 6月5日22

Don't miss 50% OFF — limited time only. Upgrade to Qwen3.7-Max today. Meet Qwen3.7-Max, the most versatile agent foundation model for coding, business automation, and long-running AI workflows. Built to use tools, work across frameworks, and handle complex tasks with stable execution, it's designed for teams and developers who need power, flexibility, and reliability at scale. ‒ Get started now with: ‒ 50% off pricing1 million free tokens ‒ A faster way to build, automate, and ship with AI Try Qwen3.7-Max free today — before the deal ends. 🔗 https://int.alibabacloud.com/m/1000414102/ #Qwen #AI #AgenticAI #CodingAI #BusinessAutomation #LLM #Developers #AIWorkflows #AlibabaCloud

译阿里云推出Qwen3.7-Max，定位为最通用的智能体基础模型，专为编码、业务自动化和长时间运行的AI工作流设计。支持工具调用、跨框架协作与复杂任务稳定执行。限时提供50%折扣及1百万免费token，开发者可免费试用。

MiniMax (official)@MiniMax_AI · 6月5日67

Excited to bring M3 to more developers through @dgrid_ai 🤝 Frontier coding, native multimodality, and 1M-token context — now available on DGrid.

译MiniMax M3现已在去中心化AI网关DGrid上线，提供1M token上下文窗口、原生多模态能力和前沿编码性能，面向下一代AI应用与自主智能体。开发者可通过dgrid.ai使用，并在6月7日前享50%折扣。DGrid表示将借助其基础设施让M3更易被开发者和智能体调用，推动MiniMax模型在生态中的广泛采用。

Elon Musk@elonmusk · 6月5日64

Grok Build updates

译xAI 发布 Grok Build 0.2.20 更新，修复多项 Bug 并新增工具。修复包括：消除 Markdown 表格渲染中的鬼影单元格、使监控对模型可见且可终止、保留计划预览中的软换行、修复 image_edit 中的附件引用、优化 MCP 生命周期通知路由和鼠标滚轮滚动、改进压缩提示与去重子代理提醒、允许回滚时自动降级、修复 Windows 上本地 stdio MCP 服务器问题。新增 image_to_video 和 reference_to_video 工具，捆绑 imagine 技能，支持 ICO 转 PNG，以及 Search 和 ListDir 块按 Enter 打开全屏查看器。

Elon Musk@elonmusk · 6月5日66

Grok supports worktrees

译Grok 现已支持 worktrees。worktrees 是代码仓库的轻量级副本，允许在独立工作区中并行运行 AI 智能体，可通过主页或 `grok -w` 使用。

jason@jxnlco · 6月5日41

codex for oss update few more hundreds of plans have been distributed! we have some spam and I got 30k applicants and got flooded...

译codex for oss update 又发放了几百个计划！我们遇到了一些垃圾信息，我收到了3万份申请，被淹没了...

Tibo@thsottiaux · 6月5日71

You can use codex within your own programs using the Python SDK. It's awesome. Built by @ah20im and friends ``` pip install openai-codex ``` https://developers.openai.com/codex/sdk#python-library

译你可以在自己的程序中使用Codex Python SDK。这太棒了。由@ah20im和朋友构建 ``` pip install openai-codex ``` https://developers.openai.com/codex/sdk#python-library

歸藏(guizang.ai)@op7418 · 6月5日59

事实上，Codepilot 这种大型代码库 Vibe Coding 非常依赖于文档。自从 Claude Code 的 Plan 模式废掉以后，我连计划写的都是计划文档，整个文档体系的复杂度和占代码的比例都在快速大幅上升。所以，文档体系的管理，以及 AI 和人协作下的文档梳理，在整个大型代码库中其实是非常重要的。我让 Codex 分析了一下 CodePilot 目前的文档体系，以及它跟代码之间的关系。目前 CodePilot 里面有 26 万行代码和 5.6 万行文档，文档占代码的比例大约是 21%。说一个事实：从 CodePilot 的第一个版本到现在，我没有动过一行代码，因为现在确实看不懂了。但目前基本上所有已知的 bug 我都能修复，所有想要实现的能力也都能实现。这是当前 Vibe Coding 我自己的一个实践，也是我自己的一个上限。整个重构本来预期是两周，但实际持续了超过一个月零三周。

译@op7418 发布 CodePilot v0.55.0 正式版，新增多执行引擎（Claude Code / 自建 Native / OpenAI Codex）、上下文用量可视化及 Codex 账号原生能力。作者分享实践：当前代码库有 26 万行代码与 5.6 万行文档（占比 21%），文档体系对 bug 修复和功能实现至关重要。作者称从未手写一行代码，但能修复所有已知 bug 并实现所有想要能力。原本预期两周的重构持续超过一个月零三周。

向阳乔木@vista8 · 6月5日40

懂的朋友讲讲，为啥 Claude 4.8，GPT 5.5 反而写作能力都不如 Claude 4.6 系列。是因为 Anthropic 和 OpenAI 都 All in Coding后，训练数太多倾向于编程带来的问题？为什么不能兼顾编程和写作呢，有什么技术难点？

译有用户观察到Claude 4.8和GPT 5.5的写作能力不如Claude 4.6系列，推测原因是Anthropic与OpenAI正全力聚焦编程能力，训练数据偏向编程任务，导致写作表现下降。发问者质疑为何两大模型无法兼顾编程与写作，并询问其技术难点。

meng shao@shao__meng · 6月5日72

Anthropic 内部设计师如何用 Claude Code 做产品、写代码、推 PR -- 来自 Claude Code & Cowork 设计负责人 @meaghaneschoi 核心命题：时间被压缩，但工作方式还没跟上 Meaghan 开场就点出一个行业现状： · 产品节奏越来越快，交付周期被大幅压缩； · Anthropic 内部因为能随时用最新模型、整天在试新用法，总在找「下一套更高效的工作方式」。她这次分享的目标很明确：把团队内部已经验证过的 Claude Code 工作流，做成可复制的实操 demo，而不是讲概念。同时她也先打了预防针：自己是 CLI 重度用户（她本人就参与设计 Claude Code 的 CLI），但桌面版同样能做演示里的一切，不必为了学她而硬上终端。现场 Demo：在 Excalidraw 上「一句话加功能」演示选在开源项目 Excalidraw（issue 多、社区开放，适合练手）。任务极简：给 Excalidraw 加一个 autocomplete 功能。没有设计稿，没有详细 spec。她实际用的 Prompt 结构（值得学） 1. 调用自定义 /prototype Skill · 让 Claude 默认生成 5 个不同实现方案（HTML 预览 + 迭代）； · 她强调：没人再手写 Skill，都是让 Claude 生成。 2. 让 AI 先选方案，再解释理由 · 以前：原型出来 → 人选； · 现在：「你选一个并说明为什么」——把决策权部分交给模型，人只做最终确认。 3. 允许联网 / 查内部资料 · 开源项目：在线调研即可； · 自家产品：会要求查 Slack、Google Docs、BigQuery 等。 4. 实现 → 验证 → 样式对齐 → 开 PR 并附截图她几乎不再看终端对话，而是直接看 Claude 提交的 PR（含功能录屏/GIF）。 5. 使用 loop until done 让任务跑到真正完成，而不是中途停在一半。 6. 全员开 Auto 模式用分类器判断风险操作，减少反复点「确认」，加快并行任务。现场观众选了方案 2，她一句话确认后，Claude 继续往下做。三条「操作层」建议（演示前） · claude-worktree：多开 Claude 时避免改同一分支互相覆盖；比复制多份 repo（repo1、repo2…）更好管 · Opus + 1M 上下文 + Fast 模式：少纠结模型选择，加快 demo（她承认并非所有人都有权限） · Auto 模式：降低权限摩擦，适合长时间并行跑任务她还提到：平时会同时开很多 Claude 会话；今晚为了展示流程，才只跑一个并边等边讲别的。她坚持的三大原则（整场最重要的「观念层」） 1. LLM 目前还做不好设计 → 人必须留在审美与决策环里 · 「Claude 做设计还很糟」是她的原话； · 工作流围绕：AI 出方案，人定最终产品形态； · 这不代表永远如此，而是当前阶段的现实约束。 2. 自动化不应只限于「写代码」 · 编码可以交给 AI，但她把大量非编码工作也交给 Claude； · 若只用 Claude Code 写代码，等于没用满这套工具； · 要把 AI 当成全流程协作者，而不只是 Copilot。 3. 「人人都能 ship」≠「什么都该 ship」 · 代码门槛下降后，功能会泛滥； · 需要可扩展的质量与治理机制，否则产品会失控。这三条把演讲从「技巧清单」抬到了组织与产品治理层面。三条「并行工作流」（Claude 在跑主任务时她在做什么）这是视频最有价值的部分：Anthropic 设计负责人真实在用的 side workflows。工作流 A：云端 Claude 批量处理「小抛光」 · 用 Claude in the web / cloud 提交大量零碎 UI 修复（CSS 微调等）； · 不值得为每个小问题开新会话； · 工程师有时会抱怨 PR 太多，她就让 Claude 合并成一个 PR； · 极小改动常自动通过，无需人工 review。启示：把「工艺感」维护成后台持续流水线，而不是等项目排期。工作流 B：PR 合并与 Code Review 自动化她坦言：idea 定下来之后，她几乎不再碰 CI——不手动改 review 意见、不盯着 merge 流程。依赖两类能力（多为内部 Skill，但逻辑可复刻）： · simplify / code review：大改前做代码卫生检查； · commit push PR：跑内部检查清单； · 审查所有 open PR 并推到可合并（原命令已封装成 Skill）； · 与 Slack 打通：自动 DM reviewer 或 stamp 频道、@ on-call。配合 Claude in Chrome：前端改动由浏览器里自动点测、自验证；演示里 Claude 正在 Chrome 里测 autocomplete。启示：人的精力应放在决策与验收（PR + 录屏），而不是 diff 往返。工作流 C：定时任务 —「无设计师参与的改动」巡检（最激进）她用 Claude Cowork 的 scheduled task 跑一条 routine： 1. 扫描所有 repo 的前端变更； 2. 查 Slack、Google Meet 转录、Google Docs 等，判断是否有设计师参与； 3. 若无 → 标记「未经设计评审就 ship」； 4. 生成对抗性设计改进并起草 PR，原本还会 DM 工程师（后因 AI 设计太差而关掉 DM）； 5. 她本人消费这份报告，并为下一代模型预留脚本——模型变强后可直接再启用。 6. 她自嘲第一次试时「真的很烂」，但团队当时愿意包容；现在改为自己消化报告，等模型升级再放开。启示：自动化要想到第 N 步（发现 → 评估 → 起草 → 通知 → 协作），而不是停在「生成代码」。演示收尾：验收方式已经变了主任务结束时，Claude： 1. 用 Chrome 扩展自测功能； 2. 用 GIF 录屏记录行为； 3. 自动开 PR。她的验收单位是：带视觉证据的 Pull Request，而不是聊天窗口里的文字。对不同角色的实用 takeaway · 设计师：/prototype 多方案探索；人定审美；小 polish 用云端批量提交；争取直接 ship 前端细节 · 产品经理：让 AI 查 Slack/Docs 再实现；用 loop 跑完；建立「能 ship 不等于该 ship」的规范 · 工程师：worktree 并行；对接 simplify/CR/merge 类 Skill；Claude in Chrome 做 E2E 自验 · 团队负责人：投资 Slack/CI/文档/定时任务一体化；为「设计治理自动化」留接口，即使当前模型还不够好

译Anthropic设计负责人Meaghan在NYC Dive Club Live展示团队已验证的Claude Code工作流。现场演示用`/prototype` Skill为Excalidraw生成5个方案，让AI选择并解释，然后实现、验证、开PR（含录屏）。她强调三大原则：LLM做设计还很糟，人必须留审美环；自动化不应限于写代码；人人都能ship不等于什么都该ship。并行工作流包括云端批量UI修复、自动Code Review与PR合并、定时巡检无设计师参与的改动并生成草案。验收单位从聊天文字变为带视觉证据的Pull Request。建议使用claude-worktree、Opus加百万上下文、Auto模式。

meng shao@shao__meng · 6月5日58

所以 agent 并不会替代所有程序员，只会让顶级的程序员生产力翻 20 倍，并淘汰其他程序员，且，集体主义 >>> 个人英雄主义。 -- 太难得且美好无比的经历了，这句话尤其深有同感！这就去体验 Kimi Code 去，看看这个团队一个月的时间到底创造了什么奇迹，令人期待。 https://www.kimi.com/code

译月之暗面旗下Kimi Code完成架构重构并开源。开发团队在一个月内进行封闭开发，频繁在白板前争论迭代，实现集体主义远胜个人英雄主义的工程效率。作者强调，AI Agent不会替代所有程序员，但会让顶级程序员生产力提升20倍，同时淘汰其他程序员。重构过程中，作者花数千美元token进行架构分析与验证，开源后因皮质醇过度分泌病倒。一周消耗整箱红牛，且感性上感觉时间已过一个月，实际仅开源一周多。

Baidu Inc.@Baidu_Inc · 6月5日44

30 minutes until @Medo_CodeFree goes live. See you there 👀 https://x.com/i/broadcasts/1XxyggzZZrWGM

译30分钟后Medo_CodeFree就要开播了，到时见👀。本周五北京时间上午9点，百度将直播讲解MeDo 3.0，涵盖更新内容、工作原理以及可用它构建的应用。

Rohan Paul@rohanpaul_ai · 6月5日53

Nemotron 3 Ultra vs GPT-5.5 on atomic[.]chat, a desktop app that runs LLMs locally. Nemotron 3 Ultra gave almost similar result on a test to build HTML5 canvas with real physics, while being 10X cheaper. - Nemotron 3 Ultra: 11.3k tokens, $0.051 - GPT 5.5: 11.0k tokens, $0.57 Nemotron 3 Ultra has 550 bn total parameters (55 bn active per token), because it is a Mixture-of-Experts model.

译在 atomic.chat 本地桌面应用中，Nemotron 3 Ultra（MoE 架构，总参数 550B，每 token 活跃 55B）与 GPT-5.5 在构建带物理引擎的 HTML5 canvas 任务（旋转水桶、高尔顿板、极端质量块碰撞）上表现几乎相同。Nemotron 3 Ultra 消耗 11.3k tokens、花费 $0.051，GPT-5.5 消耗 11.0k tokens、花费 $0.57，前者成本仅为后者的约 1/10，质量差距远小于价格差距。

meng shao@shao__meng · 6月5日69

OpenAI Codex 新增了面向 iOS / SwiftUI 开发的“Build iOS Apps”官方插件，把 iOS 应用开发闭环进一步引入 Codex 工作流主要能力：在 Codex 内直接查看和测试 iOS 应用，打开 SwiftUI previews，并对代码编辑进行热重载，从而减少在 Codex 与 Xcode/模拟器之间来回切换。底层机制：围绕 XcodeBuildMCP 构建自动化工作流，支持构建、测试、模拟器运行、UI 检查、日志和调试器状态采集。实践意义：让 Codex 能自主完成“发现项目与模拟器 -> 构建运行 -> 观察 UI 和日志 -> 调试验证”的完整开发闭环。这两个底层的开源项目需要关注 1. serve-sim（作者 @Baconbrix / Evan Bacon）为 Codex 提供了 streaming simulator 能力，支持更顺畅的模拟器交互体验。 https://github.com/EvanBacon/serve-sim 2. SnapshotPreviews（作者 @sentry）用于从项目中提取 SwiftUI previews，让预览能力可以更方便地被工具链集成。 https://github.com/getsentry/SnapshotPreviews

译OpenAI Codex 推出“Build iOS Apps”官方插件，将 iOS 应用开发闭环引入 Codex 工作流。用户可在 Codex 内直接查看和测试 iOS 应用、打开 SwiftUI previews 并进行代码热重载，无需切换到 Xcode 或模拟器。底层基于 XcodeBuildMCP 构建自动化工作流，支持构建、测试、模拟器运行、UI 检查、日志与调试状态采集。值得关注的两个开源项目：serve-sim（提供 streaming simulator 能力）和 SnapshotPreviews（用于提取 SwiftUI previews 集成工具链）。

meng shao@shao__meng · 6月5日57

Cursor 也发布了类似 Codex Sites 的「Canvases」这个方向就对了，Coding Agent 本来就能完全吃掉 Lovable、v0、http://bolt.new 的 AI 建站功能，再结合在 Coding 和 Design、Debug、Deploy 等方面的闭环能力，从产品定义、设计、开发、测试到部署运维，完整覆盖。

Baidu Inc.@Baidu_Inc · 6月5日37

30 minutes until @Medo_CodeFree goes live. See you there 👀 X: https://x.com/i/broadcasts/1XxyggzZZrWGM YouTube: https://youtube.com/live/Gyt9khLec1c?feature=share

译百度将于本周五上午9点（UTC+8）直播介绍 MeDo 3.0，涵盖更新内容、工作原理和可用它构建的项目。不见不散👀 X: https://x.com/i/broadcasts/1XxyggzZZrWGM YouTube: https://youtube.com/live/Gyt9khLec1c?feature=share

OpenAI Developers@OpenAIDevs · 6月5日42

Your Codex activity now has a home, and an easier way to share it. Codex profiles show your activity graph, streaks, lifetime tokens, peak daily tokens, and top features like plugins and /fast mode. Private by default. Share a card when you want to.

译你的 Codex 活动现在有了专属主页，分享也更方便了。 Codex 个人资料展示你的活动图、连续天数、累计 token、单日最高 token，以及插件和 /fast 模式等主要功能。默认私密。想分享时，可以分享一张卡片。

Berryxia.AI@berryxia · 6月5日70

这下Xcode的价值进一步被弱化，终究要被大家遗弃啊！以前你还需要以来Xcode作为跑模拟器的入口！今天OpenAI Developers直接把这个循环彻底封死了。他们上线了Build iOS Apps插件。现在Codex里就能直接用in-app browser看到你的iOS app实时运行，能打开SwiftUI 预览功能！还支持实时编辑，改完代码不用切出去，预览瞬间更新，一切都在同一个对话窗口里完成。底层靠两个开源项目：Evan Bacon的serve-sim做流式模拟器，Sentry的SnapshotPreviews提取SwiftUI预览。完全开源，社区直接把Xcode的灵魂功能搬进了Codex。以前大家以为AI coding工具最多帮你写代码更快，现在它把“写-跑-看-改”整个反馈闭环都塞进了同一个界面。 iOS开发者第一次能把模拟器、预览、热重载和AI对话真正融合，不用再在Xcode、浏览器、终端之间反复跳转。这其实把行业里一个老共识彻底反转了：很多人觉得AI会让IDE变得更强大，结果真实路径是让IDE慢慢变成可选。 Codex不再只是助手，它正在变成iOS开发的默认操作系统。

译OpenAI Developers 推出 Build iOS Apps 插件，使 Codex 能直接在 in-app browser 中查看和测试 iOS 应用、打开 SwiftUI 预览、热重载编辑，无需离开 Codex。底层依赖两个开源项目：Evan Bacon 的 serve-sim（流式模拟器）和 Sentry 的 SnapshotPreviews（提取 SwiftUI 预览）。该插件完全开源，将“写—跑—看—改”反馈闭环集成在同一对话界面，使 iOS 开发者可将模拟器、预览、热重载与 AI 对话融合，不再需要在 Xcode、浏览器、终端间反复跳转。

Sam Altman@sama · 6月5日80

build and publish web apps with chatgpt! i really wish i had this when i was a kid, but i do miss hypercard.

译用ChatGPT构建并发布网页应用！我真希望我小时候就有这个，但我确实怀念HyperCard。

Chubby♨️@kimmonismus · 6月5日78

I believe the majority still doesn't understand the momentous threshold humanity is facing. Anthropic itself states quite clearly that even if development ceased entirely, if all development were frozen, they would still witness massive societal changes: "Even if model capabilities were frozen at today’s level, we would expect major changes to occur in the world. (...) And we are still early in the diffusion of today’s models into the wider economy, where a 100-person company can increasingly do the work of a 1,000-person one, because each employee will sit atop a pyramid of agents." But there's no question of stagnation. Anthropic itself still maintains that development has exceeded its own internal assumptions. Take that statement seriously for a second and consider it. Although Anthropic models internally and assumes exponential development, even this trajectory lags behind actual development, which is even faster. "It's happening faster than we thought, and the implications deserve greater attention." and "The rate at which AI models improve is accelerating. The length of tasks that they can reliably complete on their own has been doubling roughly every four months, up from an earlier trend of doubling every seven months. In March 2024, Claude Opus 3 could complete software tasks that take humans about four minutes to complete. A year later, Claude Sonnet 3.7 managed tasks that took about an hour and a half. A year after that, Claude Opus 4.6 managed 12-hour tasks.1 If this trend holds, tasks that take a skilled person days could come into range this year. So again: there can be no question of standing still. The models are not only getting better, they can also work autonomously for longer. Certainly numerous breakthroughs are still needed, context window is still a problem. But the most likely direction is that the models themselves will find the solutions to the underlying problems. This opens up unforeseen possibilities, and Demis Hassabi's statement that the golden age of science is not a dream, not a utopia, but a purposeful reality, is now confirmed. And finally, it's not just Anthropic, but also OpenAI, that sees this development, considers it feasible, and is moving forward. Most people don't know what's coming. But one thing is certain: it's coming even faster than expected. And it will be even bigger. Myth was just the beginning.

译Anthropic内部数据显示，AI模型可自主完成任务时长加速增长：Opus 3（2024年3月）约4分钟，Sonnet 3.7（2025年3月）约90分钟，Opus 4.6（2026年3月）12小时，翻倍周期从7个月缩至4个月。Claude Mythos Preview在METR中可连续工作至少16小时。工程师季度代码产出是2021–2025年均值8倍，Claude代码占代码库80%+，单个AI曾一次性修复800+API错误（相当于人力四年）。最难开放任务成功率6个月内从低点升至76%。Anthropic强调，即使模型能力冻结，100人公司通过智能体即可完成1000人工作；实际发展已超越自身指数假设，递归自我改进虽未实现，但可能比预期更快到来。

SemiAnalysis@SemiAnalysis_ · 6月5日61

Ex-OpenAI Tech Lead, Justin Lebar joins SemiAnalysis as an Visiting Fellow to Burn $10,000 in 3 hours to find dozens of AMDGPU LLVM, x86 LLVM, NVPTX bugs 00:00 - Intro & Justin’s background 00:59 - How compiler fuzzing works 01:56 - Why we did this project 02:48 - The gap in GPU vs. CPU compiler testing 04:13 - The major AMD & x86 bugs we found 05:38 - Using LLMs to read code & find vulnerabilities 07:56 - The impact of UltraCode mode 12:18 - Doing this without AI (Time & manual limits) 15:03 - The future of AI in software development 16:17 - What’s next + key takeaways for devs

译前OpenAI技术主管Justin Lebar以访问学者身份加入SemiAnalysis，通过投入1万美元在3小时内进行编译器模糊测试（compiler fuzzing），发现了AMD GPU LLVM、x86 LLVM及NVPTX编译器中的数十个bug。该项目揭示了GPU vs CPU编译器测试的巨大差距，并展示了如何利用LLM阅读代码来发现漏洞。此外，UltraCode模式对代码审计效率影响显著。

宝玉@dotey · 6月5日55

Codex 新的这个 Build iOS Apps 插件，可以让你方便的在 Codex 查看和测试你的 iOS 应用，预览 SwiftUI组件，修改了还能马上看到更新。简单解释下原理：这个插件可以理解成：把原本只能在 Xcode 和 iOS Simulator 里看的 App，搬到了 Codex 右边的浏览器里。视频里右侧那个 iPhone 画面，其实还是一台真实运行中的 iOS Simulator，只是插件用一个第三方 npm serve-sim 把模拟器画面持续截取成视频流，再显示到浏览器页面中。所以 Codex 不只是读代码，它还能“看见”App 当前长什么样。浏览器能操作这个 App，是因为插件还建立了一条控制通道。你在浏览器里点击、拖动、输入文字时，浏览器会把这些动作换算成模拟器里的触摸坐标或键盘事件，再发回 iOS Simulator。也就是说，浏览器本身没有运行 iOS App，它只是像一个远程屏幕：一边接收模拟器画面，一边把你的操作转发给模拟器。结合 Codex 的 Browser Use 操作浏览器能力，就可以实现 Codex 自行调试 iOS App。视频里看到的“选择元素”也不是在选网页里的按钮。iOS App 没有网页 DOM，所以插件会读取 App 的 Accessibility 信息，也就是系统给辅助功能用的那套“这个按钮叫什么、位置在哪里、是不是可点”的数据。然后插件在浏览器画面上盖一层透明的 HTML 按钮，每个透明按钮对应一个 iOS UI 元素。这样 Codex 就能点选、识别、描述这些原生 iOS 元素。 SwiftUI Preview 和热重载则是另一个能力：插件会临时生成一个专门用来展示 Preview 的小 App，把你的 SwiftUI 预览放进去运行。你改代码后，它可以只重新编译预览相关的小动态库，再通知正在运行的 Preview App 更新画面，不一定每次都完整重装 App。最终效果就是：Codex 能在同一个窗口里读代码、改 UI、运行模拟器、看结果、继续调整，形成一个完整的 iOS 开发闭环。

译OpenAI Codex 推出 Build iOS Apps 插件，让用户在不离开 Codex 的情况下查看、测试 iOS 应用，预览 SwiftUI 并热重载。原理：借助第三方 npm serve-sim 将 iOS Simulator 画面截取为视频流显示在浏览器中，同时建立控制通道将浏览器的点击、拖动等操作转换为模拟器触摸或键盘事件。插件读取 iOS App 的 Accessibility 信息，在浏览器画面上覆盖透明 HTML 按钮，使 Codex 能选择原生 UI 元素。SwiftUI 预览和热重载通过临时生成预览小 App，仅重新编译相关动态库，无需完整重装应用。

swyx@swyx · 6月5日55

Finally! the first eval ship from cog!!!!!!!!!! 👼🏼 To contextualize: @METR_Evals cap out at ~16 hours. Cog has private enterprise evals up to 100hrs, and is confident enough to put a financial guarantee on it 🤯 METR dataset: ML eng, GPU kernels, cybersecurity > "METR (2026) used a combination of GPT-4o and GPT-5 to estimate the human-equivalent times from compressed Claude Code transcripts. These transcripts were collected from 7 METR technical staff on 34 sessions labeled on human ground truth". rlog of 0.83 Cog dataset: real life java/typescript/python/c# feature dev, bugfixes, migrations > "We collected a ground-truth dataset by asking Devin users to review recent representative sessions, and estimate how long each completed session would have taken without Devin. Our dataset consists of 258 sessions from 126 users across a diverse set of enterprise customers." rlog of 0.74 on held out set this is pioneering real world evals work and part 1 of a broader frontier code evals drop that I'm really looking forward to writing up. huge kudos to @annarmitchell and @ryanbai1412 for leading the unglamorous last mile data collection!!

译Cognition发布企业级AI代码评估（eval），支持长达100小时深度测试（METR仅约16小时），并附带财务担保：若Devin产出价值低于费用，Cognition将补贴至达标，最高1000万美元。METR数据集覆盖ML工程、GPU内核、网络安全，使用GPT-4o和GPT-5从Claude Code转录估算人类时间，rlog=0.83。Cognition数据集来自126位Devin用户的258个真实会话（Java/TS/Python/C#功能开发、bug修复、迁移），保留集rlog=0.74。

OpenAI Developers@OpenAIDevs · 6月5日68

More of the iOS app loop, now inside Codex. The Build iOS Apps plugin lets Codex view and test your iOS app in the in-app browser, open SwiftUI previews, and hot reload edits without leaving Codex.

译更多 iOS 应用循环，现已集成至 Codex。 Build iOS Apps 插件让 Codex 可在应用内浏览器查看和测试你的 iOS 应用，打开 SwiftUI 预览，并无需离开 Codex 即可热重载编辑。

宝玉@dotey · 6月5日35

产品设计的重要性：）

译产品设计的重要性：） [引用] 没截图，简单画一下：Codex 很醒目，Qodex 一愣神就点错了。

eric zakariasson@ericzakariasson · 6月5日65

introducing cursor profiles! go claim your handle at http://cursor.com/profile

译推出Cursor Profiles！前往 http://cursor.com/profile 认领你的用户名。

Ethan Mollick@emollick · 6月5日76

"As of May 2026, more than 80% of the code we merge into Anthropic’s codebase was authored by Claude." Matches independent measures. There really is no sign this is slowing down (which doesn't mean there aren't organizational challenges to absorbing this much productivity gain)

译截至2026年5月，我们合并到Anthropic代码库中的代码有超过80%由Claude编写。与独立测量结果一致。确实没有迹象表明这一趋势正在放缓（但这并不意味着吸收如此多的生产率提升没有组织挑战）。

jason@jxnlco · 6月5日50

insane ball knowledge in codex I just found out @wonforall has a skill called $kobe that spawns off 3 subagents to discuss / review his code, each of which is build to represent one of our principal engineers on tuned in on his past code reviews. I'm going to start doing this with @dkundel and @charlierguo for our docs...

译Codex 中疯狂的球类知识我刚发现 @wonforall 有一个名为 $kobe 的技能，它会生成 3 个子智能体来讨论 / 审查他的代码，每个子智能体都构建为代表我们的一位首席工程师其中一个专注于他过去的代码审查。我打算开始和 @dkundel 以及 @charlierguo 对我们的文档也这样做……

歸藏(guizang.ai)@op7418 · 6月5日66

CodePilot v0.55.0 正式版已经更新！重构完成的正式版：多执行引擎（Claude Code / 自建 Native / OpenAI Codex）、上下文用量可视化、Codex 账号原生能力全部落地为稳定版，并集中修复了 macOS 视觉与托盘、Windows 安装与交互、服务商型号映射等内测反馈问题。 🆕新增功能多执行引擎，可整体切换也可按会话切换 — 同一个应用里支持 Anthropic Claude Code、CodePilot 自建 Native、OpenAI Codex 三种执行引擎；可以设全局默认，也能在单个对话的输入框下方临时切换，互不影响。上下文用量可视化 — 聊天里能实时看到本次对话占用了多少上下文、还剩多少，并按来源（系统提示 / 工作区规则 / 技能 / 记忆 / 工具 / MCP）分解，长对话不再"用着用着突然被截断也不知道为什么"。 OpenAI Codex 账号原生能力打通 — 用 Codex 账号登录后，助理记忆、Widget 可视化、定时任务 + 到点通知、Dashboard、CLI 工具这些内置能力在 Codex 引擎下也能用；接不了的能力会如实标注为不支持，而不是假装可用。

译CodePilot v0.55.0 正式版发布，核心新增三大功能：多执行引擎支持 Anthropic Claude Code、CodePilot 自建 Native、OpenAI Codex 三种引擎，可设全局默认或按会话临时切换；上下文用量可视化，实时显示占用与剩余，并按系统提示/工作区规则/技能/记忆/工具/MCP 分解；OpenAI Codex 账号原生能力打通，助理记忆、Widget、定时任务、Dashboard、CLI 等可用，不支持的功能如实标注。同时修复 macOS 视觉与托盘、Windows 安装与交互、服务商型号映射等问题。

Nathan Lambert@natolambert · 6月5日31

I feel like this also goes for a lot of people without Mythos as they learn to use agents too tbf

译Anthropic 表示，使用 Mythos 后人均代码产出较半年前 Opus 4.5 提升 3.2 倍。Nathan Lambert 评论称，没有 Mythos 的人在学用智能体时也有类似感受。

SiliconFlow@SiliconFlowAI · 6月4日72

Post-training is having a moment — Nex-N2-Pro from neolab @NexEcosystem proves it. Built on Qwen3.5-397B-A17B, delivers GPT-5.5 and Claude Opus 4.7–level performance. 🎉 T+0 Support on SiliconFlow · Free for First 2 Weeks N2-Pro: 397B MoE / Reasoning Model / 262K context / VLM → Auto-adjusts reasoning depth, 30–50% fewer thinking tokens, no performance trade-off → SOTA performance on Terminal Bench 2.1, GDPVal, SWE-Verified → Excels at agentic coding, deep search, tool use → Plug-and-play with Claude Code, Cursor, OpenClaw, etc. Try it on SiliconFlow ⬇️

译neolab 推出 Nex-N2-Pro，基于 Qwen3.5-397B-A17B，总参数 397B 的 MoE 推理模型，支持 262K 上下文与多模态（VLM），性能达到 GPT-5.5 和 Claude Opus 4.7 级别。模型可自动调节推理深度，减少 30-50% 思考 token 且无性能折损，在 Terminal Bench 2.1、GDPVal、SWE-Verified 上取得 SOTA。擅长智能体编码、深度搜索和工具使用，兼容 Claude Code、Cursor 等工具。硅基流动已提供 T+0 支持，前两周免费使用。

ginobefun@hongming731 · 6月4日61

Vibe Coding「借来的杠杆」vs「增长的能力」

译@pengzheng_ 指出，Vibe Coding 让人同时感觉更聪明和更笨——能发布产品但无法解释原理。如果离开 AI 就无法复现成功，那只是借来的杠杆而非增长的能力。目标不是从提示到产品，而是理解实现路径并建立信心。理解为何有效时，AI 扩展能力；不理解时，AI 替代学习。无限提示终可发布软件，关键在于每次成功是否转化为经验，否则只是产出而非能力增长。