6月5日

05:56

Ethan Mollick：One Useful Thing（RSS）

精选61

共存与协同智能的终结

Ethan Mollick 在 One Useful Thing 博客中，以“共存与协同智能的终结”为题，并附带介绍了如何向 AI 推销一本书。

智能体 Anthropic 大佬观点编码

推荐理由：Mollick 这篇比单纯的新书预告有料，用自己给 AI 写推荐语的实验，把「AI 不再是助手而是守门人」这个新现实讲得很具体。对还在纠结怎么跟 AI 合作的人，是一个挺及时的视角更新。

05:28

SemiAnalysis@SemiAnalysis_

前OpenAI技术主管Justin Lebar加入SemiAnalysis，3小时花费1万美元发现数十个编译器漏洞

前OpenAI技术主管Justin Lebar以访问学者身份加入SemiAnalysis，通过投入1万美元在3小时内进行编译器模糊测试（compiler fuzzing），发现了AMD GPU LLVM、x86 LLVM及NVPTX编译器中的数十个bug。该项目揭示了GPU vs CPU编译器测试的巨大差距，并展示了如何利用LLM阅读代码来发现漏洞。此外，UltraCode模式对代码审计效率影响显著。

OpenAI 教程/实践编码

04:47

宝玉@dotey

OpenAI Codex 推出 Build iOS Apps 插件，允许在浏览器中查看和测试 iOS 应用

OpenAI Codex 推出 Build iOS Apps 插件，让用户在不离开 Codex 的情况下查看、测试 iOS 应用，预览 SwiftUI 并热重载。原理：借助第三方 npm serve-sim 将 iOS Simulator 画面截取为视频流显示在浏览器中，同时建立控制通道将浏览器的点击、拖动等操作转换为模拟器触摸或键盘事件。插件读取 iOS App 的 Accessibility 信息，在浏览器画面上覆盖透明 HTML 按钮，使 Codex 能选择原生 UI 元素。SwiftUI 预览和热重载通过临时生成预览小 App，仅重新编译相关动态库，无需完整重装应用。

OpenAI Developers: More of the iOS app loop, now inside Codex. The Build iOS Apps plugin lets Codex view and test your iOS app in the in-ap...

OpenAI 教程/实践端侧编码

03:15

swyx@swyx

Cognition推出面向企业的AI代码评估（eval）

Cognition发布企业级AI代码评估（eval），支持长达100小时深度测试（METR仅约16小时），并附带财务担保：若Devin产出价值低于费用，Cognition将补贴至达标，最高1000万美元。METR数据集覆盖ML工程、GPU内核、网络安全，使用GPT-4o和GPT-5从Claude Code转录估算人类时间，rlog=0.83。Cognition数据集来自126位Devin用户的258个真实会话（Java/TS/Python/C#功能开发、bug修复、迁移），保留集rlog=0.74。

Cognition: AI should earn its keep. Introducing the AI Productivity Guarantee. If Devin delivers less engineering value than you're...

产品更新编码评测/基准

02:30

OpenAI Developers@OpenAIDevs

精选68

OpenAI 产品更新编码

推荐理由：对 iOS 开发者很实用，热重载和预览直接嵌进 Codex，减少工具间反复横跳，不过暂时还撼动不了 Xcode 的地位。

02:16

宝玉@dotey

产品设计的重要性：）【引用】没截图，简单画一下：Codex 很醒目，Qodex 一愣神就点错了。

Paidax: @jiadana2520 我没截图,简单给你画一下。codex 就很醒目。qodex一愣神就点错了

大佬观点编码

01:46

Hacker News 热门（buzzing.cc 中文翻译）

谷歌员工内部分享吐槽公司AI的梗图

谷歌员工在内部渠道分享多张梗图，直指公司AI产品表现不佳。这些图片在员工间广泛传播，反映了团队内部对谷歌AI研发进度的普遍失望与自嘲。

Google 现象/趋势编码

01:34

eric zakariasson@ericzakariasson

推出Cursor Profiles！前往 http://cursor.com/profile 认领你的用户名。

产品更新编码

01:19

Ethan Mollick@emollick

同事件精选76

截至2026年5月，我们合并到Anthropic代码库中的代码有超过80%由Claude编写。与独立测量结果一致。确实没有迹象表明这一趋势正在放缓（但这并不意味着吸收如此多的生产率提升没有组织挑战）。

Anthropic 现象/趋势编码

同一事件，精选展示《AI加速自我构建：Anthropic研究院报告揭示趋势》

推荐理由：Anthropic内部80%代码由Claude编写，这个数字把AI编程从辅助推到主力，所有码农都该想想这意味着什么。

01:04

jason@jxnlco

Codex 中疯狂的球类知识我刚发现 @wonforall 有一个名为 $kobe 的技能，它会生成 3 个子智能体来讨论 / 审查他的代码，每个子智能体都构建为代表我们的一位首席工程师其中一个专注于他过去的代码审查。我打算开始和 @dkundel 以及 @charlierguo 对我们的文档也这样做……

智能体教程/实践编码

01:03

歸藏(guizang.ai)@op7418

CodePilot v0.55.0 正式版更新

CodePilot v0.55.0 正式版发布，核心新增三大功能：多执行引擎支持 Anthropic Claude Code、CodePilot 自建 Native、OpenAI Codex 三种引擎，可设全局默认或按会话临时切换；上下文用量可视化，实时显示占用与剩余，并按系统提示/工作区规则/技能/记忆/工具/MCP 分解；OpenAI Codex 账号原生能力打通，助理记忆、Widget、定时任务、Dashboard、CLI 等可用，不支持的功能如实标注。同时修复 macOS 视觉与托盘、Windows 安装与交互、服务商型号映射等问题。

产品更新编码

00:45

Nathan Lambert@natolambert

Anthropic 表示，使用 Mythos 后人均代码产出较半年前 Opus 4.5 提升 3.2 倍。Nathan Lambert 评论称，没有 Mythos 的人在学用智能体时也有类似感受。

Lisan al Gaib: Anthropic is shipping 3.2x more code per person with Mythos nowadays than with Opus 4.5 around half a year ago

Anthropic 大佬观点编码

6月4日

23:42

Hugging Face：Blog（RSS）

精选66

Hugging Face 为编码智能体重塑 hf CLI 输出格式

Hugging Face 重新设计 hf CLI，使其同时服务人类用户和编码智能体（Claude Code、Codex 等）。CLI 通过环境变量自动检测智能体驱动，输出紧凑无截断的 TSV 格式，避免 ANSI 和交互提示，大幅降低 token 消耗。复杂多步任务中，不使用 CLI 的智能体 token 消耗最高达 hf CLI 的 6 倍。2026 年 4 月起，Hugging Face 追踪 Hub 智能体流量，Claude Code 约 4 万用户、近 4900 万次请求，Codex 紧随其后。

Hugging Face MCP/工具产品更新编码

推荐理由：HF CLI 现在会自动检测 agent 并切换输出，复杂任务上 token 消耗比 curl/SDK 节省 2-6 倍。如果你在用 Claude Code 或 Codex 操作 Hugging Face Hub，这是必读的升级指南。

23:15

SiliconFlow@SiliconFlowAI

精选72

Nex-N2-Pro 发布：基于 Qwen3.5 的 397B MoE 推理模型，性能达 GPT-5.5 水平

neolab 推出 Nex-N2-Pro，基于 Qwen3.5-397B-A17B，总参数 397B 的 MoE 推理模型，支持 262K 上下文与多模态（VLM），性能达到 GPT-5.5 和 Claude Opus 4.7 级别。模型可自动调节推理深度，减少 30-50% 思考 token 且无性能折损，在 Terminal Bench 2.1、GDPVal、SWE-Verified 上取得 SOTA。擅长智能体编码、深度搜索和工具使用，兼容 Claude Code、Cursor 等工具。硅基流动已提供 T+0 支持，前两周免费使用。

多模态推理模型发布编码

推荐理由：后训练模型能直追 GPT-5.5 和 Claude 4.7，免费两周，对做 agent 和 deep search 的人来说是难得的低成本试错机会。

22:03

ginobefun@hongming731

@pengzheng_ 指出，Vibe Coding 让人同时感觉更聪明和更笨--能发布产品但无法解释原理。如果离开 AI 就无法复现成功，那只是借来的杠杆而非增长的能力。目标不是从提示到产品，而是理解实现路径并建立信心。理解为何有效时，AI 扩展能力；不理解时，AI 替代学习。无限提示终可发布软件，关键在于每次成功是否转化为经验，否则只是产出而非能力增长。

Peng Zheng: after watching @brian_lovin and @wjosephflynn talk about vibe coding, this was the idea i couldn't shake: vibe coding ca...

大佬观点编码

21:00

公众号：昆仑万维（天工）

精选64

SkyClaw-v1.0 深度实测：Agent专属模型，顶尖性能表现，极致价格优势

5月26日，昆仑万维发布SkyClaw-v1.0，定位面向复杂工具使用和真实世界任务执行的高性能Agent模型，输入仅0.5元/百万token、输出4元/百万。实测显示，其从零生成番茄钟和记账本应用时，能自主用Web Audio API合成音效、用SVG手绘图表，细节处理成熟。在现有代码库修改任务中，越难的任务表现越好：单点bug修复精准，能准确诊断iOS Safari滚动问题并给出克制式修复方案。但官方未报告SWE-bench成绩，表明其优势集中在从零生成与模式匹配场景，而非大型仓库精确修改。极致低价使其在批量Agent任务与快速原型生成上性价比突出。

智能体编码评测/基准

推荐理由：这篇实测把SkyClaw的「从零生成」和「老项目修改」摊开了揉碎了测，不看广告看疗效，让我看清Agent模型的分化到底意味着什么——便宜好用但有边界，想省钱做小工具的你值得细读。

20:48

Ethan Mollick@emollick

近几个月来，Claude Code和Codex的能力大幅扩展，增加了许多工作方式（子智能体、技能、目标、工作流、插件等）。考虑到AI实验室可以用自己的AI来辅助文档编写，令人惊讶的是，大量功能实际上没有文档。

Anthropic OpenAI 大佬观点编码

18:22

karminski-牙医@karminski3

MiniMax-M3 实测

MiniMax-M3 实测：前端适配 KCORES2026p2，空间理解、建模精度、美学表现优秀，颜色运用佳；复杂需求如光追引擎需迭代。后端得分超 deepseek-v4-pro 及国产模型，略逊 GPT-5.4-Pro (xhigh)。Agent 能力达榜单第二接单量，规划突出。使用经验：M3 偏好长推理，单次输出可达 64k token，适合嵌入带 plan 模式的 Coding Agent，需做好 prompt 编排，避免大量 tool call；执行约束不足，需增加代码级 harness 闭环。

智能体编码评测/基准

17:26

HuggingFace Daily Papers（社区热门论文）

精选70

RHO：利用过往轨迹优化LLM智能体工具链的自监督方法

Retrospective Harness Optimization (RHO) 是一种自监督方法，仅利用过往轨迹优化LLM智能体的工具链（技能、工具和工作流程集合）。RHO从历史任务中选取多样化的困难任务核心集，并行重新执行；智能体通过自我验证和自我一致性分析回放，生成候选工具链更新，并依据自身成对自我偏好选择最有效更新。在软件工程、技术工作和知识工作三个领域评估中，单轮优化将SWE-Bench Pro通过率从59%提升至78%，无需外部评分。分析表明RHO有效针对先前失败模式，优化后的工具链改变智能体行为模式，在长周期会话中维持更高准确率。

智能体 arXiv MCP/工具编码

推荐理由：不靠人工标注就能让 Agent 自我提升，单轮直接把 SWE-Bench Pro 通过率从 59% 拉到 78%，做自主 Agent 优化的同学应该仔细读一下。

16:47

OpenAI：官网动态（RSS · 排除企业/客户案例）

Endava 围绕 AI 智能体重塑软件交付

全球 IT 服务公司 Endava 利用 OpenAI 的 AI 智能体、ChatGPT Enterprise 和 Codex 加速软件交付与自动化工作流。ChatGPT Enterprise 帮助开发者提升代码质量、缩短上线时间，AI 智能体负责处理重复性任务，从而在企业内部构建 AI 原生文化。

智能体 OpenAI 编码行业动态

16:17

AYi@AYi_AInotes

Codex 额度重置：省着用反亏，建议本地兜底

OpenAI Codex 负责人 Tibo 因 24 小时内 3 次可靠性事故，重置所有付费计划额度。Codex 按推理时间计费：Plus 下 GPT-5.4 约 40 分钟耗尽 5 小时窗口，GPT-5.3 约 60 分钟。重置常将下个计费周期提前，导致精打细算攒的额度被覆盖，立即消耗者反而获得更多推理时间。作者认为系统奖励即刻消耗，建议本地模型兜底、云端冲峰值，夺回生产力控制权。

Tibo: Hi. Over the last 24 hours we had three separate small incidents that affected Codex reliability. Those are three too ma...

MCP/工具 OpenAI 大佬观点编码

15:18

meng shao@shao__meng

ChatGPT App （Android）新增 Codex 快捷方式。

Peter Yang: How do I make Codex the default tab when I open the ChatGPT app

OpenAI 教程/实践编码