We've doubled usage limits in Claude Cowork for the next month. Delegate bigger, more complex tasks to Claude.
Arena 推出基于真实用户任务的智能体排行榜,评估模型在代码编写、应用构建、文档分析等工作中的表现,而非孤立基准。排行榜基于30万+任务、200万+工具调用和4000万行代码,综合任务成功、纠正遵从性、错误恢复、用户表扬与抱怨、工具幻觉等信号。前三名:GPT-5.5 High(+10.7%)、Claude Opus 4.7 Thinking(+9.5%)、GPT-5.4 High(+8.9%)。
Introducing Agent Arena: real-world agentic evals at scale. How do you evaluate agents doing actual work? We measure mil...
Anthropic此前承诺每月向SpaceX支付12.5亿美元GPU算力。Google新披露的云服务协议每月再付9.2亿美元(年化约110亿美元),两家AI实验室合计月付21.7亿美元,年化营收达260亿美元。Alphabet于2015年以约9亿美元入股SpaceX约7%,当前SpaceX目标IPO估值1.75万亿美元,其6.11%股份对应约1070亿美元,投资回报约97-119倍。业务转向显示AI算力正成为战略商品。
SpaceX just disclosed a new Cloud Service Agreement with Google. Google to pay SpaceX $920 million a month (about $11B a...
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)Hacker News 热门(buzzing.cc 中文翻译)holy shit - their api is leaking customer data
Anthropic最新化学报告显示,通用大模型Claude Opus 4.7(无化学微调)在NMR核磁共振谱分析上匹配甚至超越专用软件MestReNova,氢预测误差最小,碳预测近乎一致。更关键的是,它能从NMR光谱反向推导分子结构——这一任务以往只能由人类化学家完成。这意味着AI现在可以处理化学中的关键瓶颈:在分子结构、谱图与最终确认之间自动翻译。
New Anthropic Science Blog: Making Claude a chemist. To manipulate a molecule, chemists first need to understand its str...
关联讨论 1 条Anthropic:Research(发表成果 · 网页)分析师 Kim 预测下周将迎来 AI 模型密集发布。Anthropic 的 Claude Mythos 衍生模型已交付红队测试,发布在即;OpenAI 的 GPT-5.6 也即将推出,两公司正激烈竞争;Google 则将在 I/O 大会上宣布 Gemini 3.5 Pro,预计 6 月初上线。三大模型有望在下周实现量子级跃升。
MYTHOS 🔥: Another early preview of recently spotted "Oceanus" checkpoint output. "Oceanus" is rumored to be a version o...
美国将AI视为维持全球主导地位的战略技术,不会同意暂停开发。中国开源模型据估计仅落后4-6个月,暂停将给中国赶超机会,因此暂停呼吁更多是公关姿态。关于RSI(递归自我改进),OpenAI和Anthropic都在讨论,且均计划2026年IPO。Mythos模型与RSI文章出现时机看似可疑,但Anthropic提供的数据支持其论点,且Dario Amodei早在2024年就开始讨论RSI,早于IPO计划,因此RSI并非空谈。
I've read the comment several times now that this is IPO talk. And it's a fair comment. Yes, both OpenAI and Anthropic a...
本周BestBlogs梳理20篇内容,聚焦Agent时代的三层爆发:模型层OpenAI升级ChatGPT“梦境”记忆架构、MiniMax M3开源(1M上下文+稀疏注意力)、Gemma 4 12B端侧Agent工作流;产品层Kimi Work Beta面向知识工作者、微软开源SkillOpt(3300 star,含文本学习率与拒绝编辑缓冲区)、扣子3.0升级为AI团队;工程层Anthropic发布Claude Code动态工作流(子代理编排)及其内部AI原生工程实践。
Anthropic公开呼吁全球采取行动减缓前沿AI发展,因其Claude模型可能接近递归自我改进(系统无需人类控制即帮助构建更强版本)。目前尚未发生,但跳跃可能突然到来,且AI训练运行比武器库更难隐藏。Claude现已编写超80%合并生产代码,工程师产出达2024年基线8倍;可靠任务长度每4个月翻倍,Mythos Preview可连续工作超16小时;训练代码加速从3x跃至52x(人类仅4x)。剩余人类优势仅剩研究判断力。Anthropic估值约1万亿美元,年化收入或达500亿美元,与OpenAI激烈竞争。
Anthropic just disclosed that Claude now writes more than 80% of the production code it merges. Before Claude Code reach...
关联讨论 7 条Anthropic:The Institute(旗舰研究长文 · 网页)X:Anthropic (@AnthropicAI)X:小互 (@xiaohu)公众号:数字生命卡兹克The Decoder:AI News(RSS)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Research(发表成果 · 网页)Kim回应外界对Anthropic与OpenAI近期RSI言论仅为2026年IPO炒作的质疑。引用Anthropic数据:即使模型能力冻结,智能体扩散也将使100人公司完成1000人工作;实际发展已超过内部指数假设。模型自主任务时长加速翻倍——2024年3月Claude Opus 3完成4分钟任务,一年后Sonnet 3.7达1.5小时,再一年后Opus 4.6达12小时,翻倍周期从7个月缩短至4个月。若趋势持续,今年内可处理数天级任务。OpenAI同样认可该方向。
I believe the majority still doesn't understand the momentous threshold humanity is facing. Anthropic itself states quit...
Anthropic 披露,Claude 现已编写超过80%的合并生产代码。2025年2月 Claude Code 研究预览前,该比例仅有个位数,而工程师产出升至2024年基线的8倍。智能体可编辑文件、运行测试、检查失败、生成辅助智能体并在长任务中持续工作。可靠任务长度约每4个月翻倍,Mythos Preview 达至少16小时,开放式 Claude Code 成功率达76%。Claude 训练代码加速从3倍升至52倍,有经验工程师在相同设置下4-8小时仅约4倍。人类剩余优势在于研究判断。
Seeing as Claude Mythos is releasing soon, I have two VERY astonishing outputs to share from it. 👀 ZERO-SHOT and LOW ef...
Anthropic发文呼吁全球暂缓前沿AI的研发,警告AI模型正接近能够在没有人类干预的情况下"自我进化"风险。 Anthropic依然在文章中"阴阳",担心速度放缓会被迎头赶上,最终可能"让所有人的安全受到威胁"。 Anthropic还将...
@op7418 发布 CodePilot v0.55.0 正式版,新增多执行引擎(Claude Code / 自建 Native / OpenAI Codex)、上下文用量可视化及 Codex 账号原生能力。作者分享实践:当前代码库有 26 万行代码与 5.6 万行文档(占比 21%),文档体系对 bug 修复和功能实现至关重要。作者称从未手写一行代码,但能修复所有已知 bug 并实现所有想要能力。原本预期两周的重构持续超过一个月零三周。
CodePilot v0.55.0 正式版已经更新! 重构完成的正式版: 多执行引擎(Claude Code / 自建 Native / OpenAI Codex)、上下文用量可视化、Codex 账号原生能力全部落地为稳定版,并集中修复了 ...
Anthropic发文揭示AI系统加速自身开发的趋势。模型独立完成任务时长约每四个月翻一番:Claude Opus 4.6已能胜任12小时任务,2027年可能处理数周级任务。SWE-bench两年内从个位数饱和至100%;CORE-Bench 15个月从20%饱和。Anthropic内部数据显示,截至2026年5月,超80%合并代码由Claude编写,工程师日均合并代码量是2024年的8倍(但此指标高估真实提升)。内部调查显示使用Mythos Preview使核心工作产出约提升4倍。最开放任务成功率六个月提高50个百分点至76%,Claude代码质量接近人类,预计年内超越。文章指出递归自我改进可能加速到来,需加强安全防护。
关联讨论 7 条Anthropic:The Institute(旗舰研究长文 · 网页)X:Anthropic (@AnthropicAI)X:小互 (@xiaohu)公众号:数字生命卡兹克The Decoder:AI News(RSS)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Research(发表成果 · 网页)有用户观察到Claude 4.8和GPT 5.5的写作能力不如Claude 4.6系列,推测原因是Anthropic与OpenAI正全力聚焦编程能力,训练数据偏向编程任务,导致写作表现下降。发问者质疑为何两大模型无法兼顾编程与写作,并询问其技术难点。
Anthropic设计负责人Meaghan在NYC Dive Club Live展示团队已验证的Claude Code工作流。现场演示用/prototype Skill为Excalidraw生成5个方案,让AI选择并解释,然后实现、验证、开PR(含录屏)。她强调三大原则:LLM做设计还很糟,人必须留审美环;自动化不应限于写代码;人人都能ship不等于什么都该ship。并行工作流包括云端批量UI修复、自动Code Review与PR合并、定时巡检无设计师参与的改动并生成草案。验收单位从聊天文字变为带视觉证据的Pull Request。建议使用claude-worktree、Opus加百万上下文、Auto模式。
~12 min of Claude Code tips for designers (straight from the design lead @meaghaneschoi) here's her demo from Dive Club ...
本期早报聚焦三则动态:OpenAI发布ChatGPT dreaming V3,记忆架构重写为“写入时合成”,效率提升5倍,免费用户可用个性化记忆摘要;阿里云工程师落地LLM-Wiki模式,从传统RAG转向“写入时合成”知识库,封装五大研发技能包实现PRD到全自动研发;SpaceX招股书披露与Anthropic签订450亿美元算力合同,每月12.5亿美元至2029年5月,年收入增加80%,并持有18712枚比特币。记忆与知识库的“写入时合成”成共同范式。
今日早报推荐三篇AI相关文章:① ChatGPT升级记忆系统,可自动整理用户对话历史并记住偏好,无需反复提示,免费用户也可使用。② 阿里云工程师分享实战经验,将团队代码库和文档整理成AI可直接调用的知识库,搭配专项技能包,目标是只需给出需求文档即可由AI完成后续工作。③ SpaceX招股书解读中透露,Anthropic每月支付12.5亿美元购买算力,该数字反映其大规模AI训练与推理的算力需求。
Anthropic 发布报告显示,Claude 正被深度用于开发下一代 AI,趋势加速或导致系统自主设计后继版本。外部指标:模型可靠完成任务时长约每 4 个月翻倍,SWE-bench 两年内饱和,CORE-Bench 15 个月内饱和,长时任务达 16 小时。内部数据:截至 2026 年 5 月超 80% 主干代码由 Claude 撰写;工程师日均合并代码量是 2024 年的 8 倍;员工中位数估计产出为无 AI 时的 4 倍;实验执行从约 3x 提升至约 52x;自主研究恢复能力达人类两组研究者一周工作量的 97%(人类约 23%);研究判断优于人类比例从 51% 升至 64%。报告探讨了趋势停滞、持续自动化、完整递归自我改进三种未来情景。
Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...
Anthropic内部数据显示,AI模型可自主完成任务时长加速增长:Opus 3(2024年3月)约4分钟,Sonnet 3.7(2025年3月)约90分钟,Opus 4.6(2026年3月)12小时,翻倍周期从7个月缩至4个月。Claude Mythos Preview在METR中可连续工作至少16小时。工程师季度代码产出是2021–2025年均值8倍,Claude代码占代码库80%+,单个AI曾一次性修复800+API错误(相当于人力四年)。最难开放任务成功率6个月内从低点升至76%。Anthropic强调,即使模型能力冻结,100人公司通过智能体即可完成1000人工作;实际发展已超越自身指数假设,递归自我改进虽未实现,但可能比预期更快到来。
Holy moly, Anthropic is getting very serious about recursive self-improvement! One word: acceleration. Insane blog artic...
关联讨论 7 条Anthropic:The Institute(旗舰研究长文 · 网页)X:Anthropic (@AnthropicAI)X:小互 (@xiaohu)公众号:数字生命卡兹克The Decoder:AI News(RSS)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Research(发表成果 · 网页)Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...
关联讨论 7 条Anthropic:The Institute(旗舰研究长文 · 网页)X:Anthropic (@AnthropicAI)X:小互 (@xiaohu)公众号:数字生命卡兹克The Decoder:AI News(RSS)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Research(发表成果 · 网页)OpenAI 为 ChatGPT 推出记忆系统升级,新架构“Dreaming”可在后台自动从聊天记录提炼、整合、更新记忆,无需用户主动要求。评测数据显示:事实记忆准确率从 41.5% 升至 82.8%;偏好遵循率从 31.4% 升至 71.3%;时效性准确率从 9.4% 升至 75.1%。用户可在新增“记忆摘要”页面查看并手动修正。Plus/Pro 用户(美国)已开始推送,免费用户未来几周内收到。Anthropic 此前于 5 月 6 日发布同名功能,但面向开发者用于 agent 记录整理。
We've been researching new ways for ChatGPT memory to carry context across conversations and keep it useful over time. T...
关联讨论 7 条X:Tibo (@thsottiaux)X:OpenAI (@OpenAI)X:Greg Brockman (@gdb)X:邵猛 (@shao__meng)OpenAI:官网动态(RSS · 排除企业/客户案例)X:Sam Altman (@sama)X:ChatGPT (@ChatGPTapp)!!️it seems Anthropic is ready to publicly launch a new version of Mythos, something better than Mythos Preview. a coden...
宝玉建议只选最聪明的2-3个模型(如GPT-5.5、Opus 4.8),因单个模型不够稳定全面。翻译用Gemini 3.1 Pro,画图用GPT Image 2,复杂任务让多个模型并行对比。强调“token贵的省时间,时间比token更贵”,暗示深耕一两个最强模型即可。
@dotey 请教一下大佬,假如codex或者cc可以满足目前的需求,是否还有必要体验国内agent,目前只深度用过这两个agent,不知道有没有必要多体验不同agent的区别,还是深耕一两个就行
Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...
关联讨论 7 条Anthropic:The Institute(旗舰研究长文 · 网页)X:Anthropic (@AnthropicAI)X:小互 (@xiaohu)公众号:数字生命卡兹克The Decoder:AI News(RSS)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Research(发表成果 · 网页)Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...
Anthropic 内部数据显示 Claude 能力增速远超预期,可能接近自主设计继任者的递归自我改进。关键指标:工程师人均季度代码产出是此前四年平均的 8 倍;AI 可可靠完成的任务时长每 4 个月翻倍,从 Opus 3 的 4 分钟升至 Mythos Preview 的至少 16 小时。截至 2026 年 5 月,Claude 撰写代码占 Anthropic 代码库 80%+,代码质量已与人类持平,年内将超越。最困难任务成功率 6 个月从 26% 升至 76%。Anthropic 认为趋势停滞可能性最低,复合效率增益最可能,完全递归自我改进的对齐结果最不确定。
Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...
关联讨论 7 条Anthropic:The Institute(旗舰研究长文 · 网页)X:Anthropic (@AnthropicAI)X:小互 (@xiaohu)公众号:数字生命卡兹克The Decoder:AI News(RSS)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Research(发表成果 · 网页)