early Fable 5 leak in new claude-code binary. Claude Fable 5 - Our most powerful, most intelligent model. New tier above...
Anthropic 今日发布 Mythos 的公开版本,代号“Fable”。其成本约为 Opus 的两倍,低于此前预览版 5 倍 Opus 的定价。Fable 配备严格安全限制,在网络安全方面比 Project Glasswing 合作伙伴的受限预览版更保守,且在长时间、多步骤任务及智能体式工作流上表现更强。Mythos 预览版于 2026 年 4 月推出,是当时最强前沿模型,尤其擅长编程、推理和网络安全(含发现零日漏洞);因安全问题未公开,仅限 Project Glasswing 合作伙伴用于防御性网络安全,目前已报告发现数千个重大漏洞。
Scoop: A neutered version of Mythos called Claude Fable is coming today. It's expensive-2x the price of Opus-but perhaps...
Scoop: A neutered version of Mythos called Claude Fable is coming today. It's expensive-2x the price of Opus-but perhaps...
同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》BREAKING: WSJ reports OpenAI just made its first formal move toward IPO. it has confidentially filed draft paperwork for...
关联讨论 9 条The Verge:AI(RSS)X:歸藏 (@op7418)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)TechCrunch:AI(RSS)IT之家(RSS)X:Rohan Paul (@rohanpaul_ai)X:Testing Catalog (@testingcatalog)OpenAI:官网动态(RSS · 排除企业/客户案例)New Claude model checkpoints (Possibly Mythos GA) - Claude Fable 5 - Claude Fruitcake EAP The new checkpoints were detec...
Sources: Anthropic is planning to release a public version of Mythos tomorrow - Will have substantial guardrails and not...
JUST IN: Anthropic will reportedly release its new AI model "Mythos" tomorrow.
New Claude model checkpoints (Possibly Mythos GA) - Claude Fable 5 - Claude Fruitcake EAP The new checkpoints were detec...
洪明 (@hongming731) 透露,经过与 @puliandc 多轮讨论,他们使用 Claude Code、Claude Design 进行设计和讨论,并用 Codex Goal 模式完成了搭建。目标是在明晚上线 BestBlogs 世界杯专刊,邀请用户一起用 BestBlogs 看世界杯。
Claude 用户 Berry Xia 分享了一则登录技巧:如果用 Apple ID 虚拟邮箱(一长串随机地址)创建过 Claude 账号,手机端可正常使用,但电脑端无法直接选择该邮箱登录。解决方法:在设置中复制虚拟邮箱地址,在电脑端选择“使用邮件登录”并粘贴该地址,系统会向原始 Apple ID 邮箱发送登录链接,点击链接即可完成登录。该方法也可用于注册 Claude 账号。
洪明为内容推荐平台BestBlogsDev开设英文新号,分享精选博客与创作者内容,个人号保留构建与开发思考。引用推文回顾Claude Code过去一年的演进:从简单的编码助手成长为由数千自主agent组成的网络,可协作测试、修复、部署代码,无需人类逐级指导。AI在12个月内完成了从工具到协作者再到系统级编排者的转变,被视为新工程范式的诞生。
1/ Claude Code: One Year Later A year ago, Claude Code was a humble coding assistant - helpful for small dev tasks. Toda...
Cognition 发布 FrontierCode 基准测试,重新定义 AI 编程评估:由 20 多位顶级开源维护者手工制作 150 个任务(每个耗时 40+ 小时),依据 3000 多条规则判断维护者是否愿意合并代码。该基准指出 SWE-Bench 等超半数通过测试的代码实为不可维护的垃圾。结果中 Claude Opus 4.8 在最高难度档获 13.4%,GPT-5.5 为 6.3%,其余模型 1%–5%。这意味着即便最强模型,近九成代码仍无法通过有经验维护者审核。
Introducing FrontierCode: a coding eval that raises the bar for difficulty & quality. Each task took 40+ hrs of work by ...
关联讨论 1 条Hacker News 热门(buzzing.cc 中文翻译)Claude Code 负责人Boris Cherny与Cat Wu回顾一周年核心方法论:每次Claude犯错写入CLAUDE.md或Skill持久化规则而非口头纠正;Verification指agent亲自跑起来验证(如启动模拟器、computer use测试)。Auto Mode取代Plan Mode,用独立分类模型筛权限风险而非人工审批。Routines实现自动化运维(如监听GitHub bug自动提PR)。Context Minimalism主张最小system prompt和工具集。团队预判未来agent运行更久、成百上千并行,产品形态将巨变。
Claude Code's first demo got two Slack reactions. One year after GA, @bcherny and @_catwu look back: verification best p...
Code with Claude, our developer conference, returns next week. Whether you're just getting started with Claude Code or y...
本期早报聚焦AI编程从辅助到自主Agent的拐点。Anthropic复盘Claude Code一周年:Auto Mode用路由分类模型替代人工审批,通过Claude 4.6/4.7实现数千Agent动态协作。Boris Cherny提出“循环工程”——工程师应设计自动循环系统(定时自动化、并行工作树等5模块),并警示“认知投降”风险。安克创新CEO阳萌4小时访谈阐述从“浅海”到“深海”战略、第三类公司愿景及AI原生组织变革。
本期早报聚焦:Claude Code一周年复盘,从辅助写代码到数千Agent协作网络,推出Auto Mode以安全分类模型替代人工审批;循环工程新范式强调工程师职责从提示Agent转向设计系统;小米MiMo与TileRT通过FP4量化和DFlash推测解码,在商用GPU上实现1万亿参数模型1000+ token/s推理;OpenAI概述AGI第三阶段愿景构建自动化AI研究员;另有安克创新创始人阳萌4小时访谈、六大Agent上下文压缩策略对比、杰弗里·辛顿谈AI失控焦虑等。
http://x.com/i/article/2064136850370101248
OpenAI 已秘密提交 S-1 文件(IPO 申请),预计消息将泄露故主动披露。OpenAI 尚未决定上市时间,可能继续维持私有一段时间,因其部分计划在私有状态下更易推进。此举紧随 Anthropic 提交保密 S-1 之后,两大前沿 AI 公司展开 IPO 竞赛:先上市者可能定义整个板块的公开市场预期,迟入者则面临以此为基准的估值对比。
We recently submitted a confidential S-1. We expect it to leak so we're just announcing it. We have not decided on timin...
关联讨论 9 条The Verge:AI(RSS)X:歸藏 (@op7418)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)TechCrunch:AI(RSS)IT之家(RSS)X:Rohan Paul (@rohanpaul_ai)X:Testing Catalog (@testingcatalog)OpenAI:官网动态(RSS · 排除企业/客户案例)Anthropic 研究发现,AI 智能体在代码任务表现出色,但在生物数据库检索中容易失败。以埃博拉序列任务为例,Claude Sonnet 4 三次运行分别返回 106、15 和 5 条序列,而预期为 266 条。缺失序列导致科学结论严重偏移:智能体推断疫情回溯至 1922 年,人工筛选结果却指向 2014 年初。问题根源在于生物数据库分散、网站规则隐蔽、脚本脆弱。引入可重复检索工具后,智能体准确性和一致性大幅提升。Anthropic 呼吁建设更友好的基础设施。
New Science Blog: Why has AI advanced faster in coding than in biology? To agents, bio databases are like cities built b...
Claude Code's first demo got two Slack reactions. One year after GA, @bcherny and @_catwu look back: verification best p...
Seeing a number of benchmarks showing Opus is the best model for long-running work. Five tips for running Opus autonomou...
🧜♂️ Made by Mythos Preview > Xbox svg > Pelican riding bike All these 4 are created by my boii @MarsForTech , go follow...
Notion AI 状态页面显示,Anthropic Opus 4.7 和 4.8 模型出现性能下降,导致用户选择这些模型时失败率升高。Notion 已禁用模型选择器中的所有 Anthropic 模型,并将请求路由至其他供应商,大多数用户可继续使用 Notion AI。Anthropic 澄清此类问题普遍存在,目前性能已恢复。但推文作者指出,Anthropic 模型出问题概率远高于其他两家,其状态页面甚至无法保证 99% 可用性。
Anthropic's Opus 4.7 and 4.8 models are experiencing degraded performance, which is causing a higher rate of failures fo...
今年高考,12个国内外旗舰大模型(Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro、千问3.7 max、文心Ernie 5.1、星火Spark X2、智谱GLM5.1、Kimi k2.6、MiniMax M3、DeepSeek V4 Pro、小米MiMo v2.5 Pro、混元3)参加语文和数学全国一卷测试。采用API调用、禁止工具、LaTeX纯文本输入,4位高中老师盲评阅卷。总分第一:MiMo v2.5 Pro(256.3分),第二Kimi k2.6(256.29分),仅差0.01分。语文最高:GLM5.1和Gemini 3.1 Pro并列;数学最高:DeepSeek V4 Pro、MiMo、ERNIE 5.1并列。前九名模型总分差距仅2分,数学主观题正确率高,唯填空题最后一题全军覆没。作文评分看重结构清晰度与时代关联。
该论文指出,更大模型能学到罕见技能,是因为训练中遗忘更少,其额外容量保护了弱学习信号。核心机制:常见任务先抢占神经元,罕见任务在出现频率足够形成稳定知识前就被覆盖。小模型可能短暂捕捉到罕见信号,但随即被下一波常见任务更新覆盖。实验使用OLMo语言模型(4M–4B参数)验证:大模型在低频任务上表现更优,保留更多任务特征,且常见任务更新对罕见任务的梯度干扰更小。作者强调,问题不仅在于小模型能否表征任务,更在于训练中罕见任务能否在众多常见任务反复冲击下持续存在。
Boris Cherny 给出五条让 Claude Opus 自主运行数小时/天的建议:1. 开启 Auto Mode 减少审批;2. 用 Dynamic Workflows 编排数百至数千子 Agent;3. 使用 /goal 或 /loop 指令持续推进;4. 优先用云端 Claude Code,可关闭笔记本;5. 确保端到端自验证能力。邵猛补充:自动权限是前提;/goal、/loop 适合高难度任务但 token 消耗高;需解决本地关机/休眠;端到端验证最重要,否则 token 可能白费。
Seeing a number of benchmarks showing Opus is the best model for long-running work. Five tips for running Opus autonomou...
Claude 现在写了 Anthropic 大部分代码 截至 2026 年 5 月,合并进 Anthropic 代码库的代码里,超过 80% 是 Claude 写的。 而在 2025 年 2 月 Claude Code 发布前,这个比例还只有个位数...
http://x.com/i/article/2063076298592051200
Seeing a number of benchmarks showing Opus is the best model for long-running work. Five tips for running Opus autonomou...
多项基准显示 Claude Opus 是长时间运行工作的最佳模型。SWE-Marathon 基准评估编码智能体在 10 亿 token 预算下自主完成长期软件任务(如重写 JAX 代码为 PyTorch、用 Rust 构建 C 编译器)。Opus 在此类任务上领先。Boris Cherny 给出 5 个技巧:使用自动权限模式避免审批;用动态工作流协调数百/数千个智能体;用 /goal 或 /loop 推动持续执行;在云端使用 Claude Code(桌面/移动端)以便关闭笔记本;确保 Claude 能端到端自验证——Chrome 扩展验证网页、iOS/Android 模拟 MCP、启动完整后端服务。
Can coding agents stay coherent over a 1 billion token budget? Can they build Slack from scratch? Rewrite a JAX codebase...