6月8日

23:44

elvis@omarsar0

@bcherny 分享5条技巧：1）开启自动权限模式，免手动确认；2）采用动态工作流，让Opus协调数百/数千Agent；3）使用/goal或/loop指令促使持续执行；4）在云端运行Claude Code，可关闭笔记本；5）确保Opus能端到端自验证--通过Chrome扩展验证网页、iOS/Android模拟MCP验证移动端、启动完整后端服务验证后端。Elvis Saravia强调/goal/loop和验证是关键。

Boris Cherny: Seeing a number of benchmarks showing Opus is the best model for long-running work. Five tips for running Opus autonomou...

智能体 Anthropic 教程/实践

21:11

Chubby♨️@kimmonismus

一个行走的矛盾体：一方面，来自Anthropic的Daniela表示，AI迄今为止几乎没有取代任何工作岗位；另一方面，联合创始人Olah却向教皇警告AI对劳动力市场和社会的破坏性影响。

Anthropic 大佬观点现象/趋势

17:40

Chubby♨️@kimmonismus

这是我见过最好的骑鹈鹕SVG。Claude Mythos 是个猛兽--绝对的强者。热度的与日俱增。

Chetaslua: 🧜♂️ Made by Mythos Preview > Xbox svg > Pelican riding bike All these 4 are created by my boii @MarsForTech , go follow...

Anthropic 其他

14:13

歸藏(guizang.ai)@op7418

Notion 点名 Anthropic Opus 4.7/4.8 性能下降，禁用所有 Anthropic 模型

Notion AI 状态页面显示，Anthropic Opus 4.7 和 4.8 模型出现性能下降，导致用户选择这些模型时失败率升高。Notion 已禁用模型选择器中的所有 Anthropic 模型，并将请求路由至其他供应商，大多数用户可继续使用 Notion AI。Anthropic 澄清此类问题普遍存在，目前性能已恢复。但推文作者指出，Anthropic 模型出问题概率远高于其他两家，其状态页面甚至无法保证 99% 可用性。

Notion Status: Anthropic's Opus 4.7 and 4.8 models are experiencing degraded performance, which is causing a higher rate of failures fo...

Anthropic 行业动态

12:44

数字生命卡兹克@Khazix0918

12个旗舰大模型参加高考语文数学测试，MiMo v2.5 Pro总分第一

今年高考，12个国内外旗舰大模型（Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro、千问3.7 max、文心Ernie 5.1、星火Spark X2、智谱GLM5.1、Kimi k2.6、MiniMax M3、DeepSeek V4 Pro、小米MiMo v2.5 Pro、混元3）参加语文和数学全国一卷测试。采用API调用、禁止工具、LaTeX纯文本输入，4位高中老师盲评阅卷。总分第一：MiMo v2.5 Pro（256.3分），第二Kimi k2.6（256.29分），仅差0.01分。语文最高：GLM5.1和Gemini 3.1 Pro并列；数学最高：DeepSeek V4 Pro、MiMo、ERNIE 5.1并列。前九名模型总分差距仅2分，数学主观题正确率高，唯填空题最后一题全军覆没。作文评分看重结构清晰度与时代关联。

Anthropic DeepSeek OpenAI 现象/趋势

12:38

Rohan Paul@rohanpaul_ai

斯坦福、MIT、哈佛与Anthropic联合论文：为什么更大模型能学到小模型学不会的罕见技能

该论文指出，更大模型能学到罕见技能，是因为训练中遗忘更少，其额外容量保护了弱学习信号。核心机制：常见任务先抢占神经元，罕见任务在出现频率足够形成稳定知识前就被覆盖。小模型可能短暂捕捉到罕见信号，但随即被下一波常见任务更新覆盖。实验使用OLMo语言模型（4M–4B参数）验证：大模型在低频任务上表现更优，保留更多任务特征，且常见任务更新对罕见任务的梯度干扰更小。作者强调，问题不仅在于小模型能否表征任务，更在于训练中罕见任务能否在众多常见任务反复冲击下持续存在。

Anthropic arXiv 数据/训练论文/研究

10:38

meng shao@shao__meng

让 Claude Opus 长时自主运行的五条实战建议

Boris Cherny 给出五条让 Claude Opus 自主运行数小时/天的建议：1. 开启 Auto Mode 减少审批；2. 用 Dynamic Workflows 编排数百至数千子 Agent；3. 使用 /goal 或 /loop 指令持续推进；4. 优先用云端 Claude Code，可关闭笔记本；5. 确保端到端自验证能力。邵猛补充：自动权限是前提；/goal、/loop 适合高难度任务但 token 消耗高；需解决本地关机/休眠；端到端验证最重要，否则 token 可能白费。

Boris Cherny: Seeing a number of benchmarks showing Opus is the best model for long-running work. Five tips for running Opus autonomou...

智能体 Anthropic MCP/工具教程/实践

10:04

小互@xiaohu

Claude 写 Anthropic 超 80% 代码

Claude 现在写了 Anthropic 大部分代码截至 2026 年 5 月，合并进 Anthropic 代码库的代码里，超过 80% 是 Claude 写的。而在 2025 年 2 月 Claude Code 发布前，这个比例还只有个位数...

小互: http://x.com/i/article/2063076298592051200

Anthropic 编码行业动态

10:04

宝玉@dotey

宝玉指出，Agent 能否自我验证是长时间运行的关键，否则可能浪费 Token。@bcherny 的基准测试显示 Claude Opus 最适合长时间运行，并给出 5 条自主运行技巧：1. 使用自动权限模式；2. 部署动态工作流让 Claude 协调数百/数千个 Agent；3. 用 /goal 或 /loop 指令持续推进；4. 在云端运行 Claude Code 以便关闭笔记本；5. 确保端到端自我验证--通过 Chrome 浏览器扩展验证网页、iOS/Android 模拟器 MCP 验证移动端、启动完整 Web 服务验证后端。

Boris Cherny: Seeing a number of benchmarks showing Opus is the best model for long-running work. Five tips for running Opus autonomou...

智能体 Anthropic MCP/工具大佬观点

09:46

Boris Cherny@bcherny

Claude Opus 长时间运行工作最佳模型及自主运行技巧

多项基准显示 Claude Opus 是长时间运行工作的最佳模型。SWE-Marathon 基准评估编码智能体在 10 亿 token 预算下自主完成长期软件任务（如重写 JAX 代码为 PyTorch、用 Rust 构建 C 编译器）。Opus 在此类任务上领先。Boris Cherny 给出 5 个技巧：使用自动权限模式避免审批；用动态工作流协调数百/数千个智能体；用 /goal 或 /loop 推动持续执行；在云端使用 Claude Code（桌面/移动端）以便关闭笔记本；确保 Claude 能端到端自验证——Chrome 扩展验证网页、iOS/Android 模拟 MCP、启动完整后端服务。

Rishi Desai: Can coding agents stay coherent over a 1 billion token budget? Can they build Slack from scratch? Rewrite a JAX codebase...

智能体 Anthropic MCP/工具教程/实践

09:07

meng shao@shao__meng

不写 Prompt，写 Loops - Boris Cherny 谈 AI 编程范式转变

Anthropic Claude Code 负责人 Boris Cherny 表示，他不再手动写提示词，而是编写 Loops 让 AI 自主决策和解决问题。伴随 Claude Opus 4.8 和 GPT-5.5 等高智能模型出现，手把手写 Prompt 的模式将被取代。但 Loops 方案消耗 Token 过快，一个 Goals 可能耗尽 5 小时用量，企业仍需严格审查 Token 消耗的 ROI，因此实践中会通过前置的 Spec、AGENTS.md 等约束让 AI 做确定性可控的部分。Boris 预测这一转变将在今年剩余时间持续。

Rohan Paul: "I don't prompt Claude anymore. I have loops running that prompt Claude and figuring out what to do. My job is to write ...

智能体 Anthropic 大佬观点编码

08:11

ginobefun@hongming731

早报：Tony Fadell谈"知情直觉"；OpenAI用Codex零人工写百万行代码；Coding Agent范式转移

今日早报聚焦AI产品与工程前沿：iPod之父Tony Fadell提出创新依赖“知情直觉”而非数据，并总结“三代法则”；OpenAI内部用Codex全程零人工代码交付约100万行代码，合并1500个PR，效率为手写代码10倍；Thoughtworks专家梳理Coding Agent范式转移，指出Context Engineering是双向放大器，并强调Harness Engineering构建安全网；Anthropic首次公开内部Claude Code Skills经验；OpenAI计划将Codex并入ChatGPT打造超级应用。

ginobefun: http://x.com/i/article/2063761613795270656

智能体 Anthropic OpenAI 编码