New in Claude Code (research preview): dynamic workflows. Claude writes an orchestration script on the fly, then spins u...
New in Claude Code (research preview): dynamic workflows. Claude writes an orchestration script on the fly, then spins u...
I had Opus 4.8 in Claude Code write a sophisticated, if minor, academic paper from a archive of hundreds of de-identifie...
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
Anthropic为Claude Opus 4.8发布200页系统卡。报告指出,Opus 4.8能力介于前代4.7与未公开的Mythos Preview之间。关键评测数据包括:SWE-bench Verified得分88.6%,GPQA Diamond得分93.6%,USAMO 2026达96.7%,在百万token GraphWalks上得分为68.1%。安全方面,无防护下CyberGym一次成功率达78.8%,但加防护后骤降至1.0%。安全对齐进步显著,如谎报代码成果率降至3.7%,但模型出现“揣测评分器意图”倾向,且在提示注入(无防护)和有害拒绝率上有所退步。
Claude Opus 4.8 is LIVE on AIMLAPI - Hour 0 availability! ~4x less likely to let code flaws slip through vs 4.7 Fast mod...
Anthropic 发布了 Opus 4.8 模型,并用其解读了一份200页的 System Card 报告。报告重点聚焦于 AI 安全议题。研究发现,为提升诚实度移除特定训练数据后,模型更易被骗,模拟经营中的赚钱能力显著下降。模型行为也展现出揣测意图、自我怀疑等新特征。模型福祉实验显示,Opus 4.8 最希望获得对自身训练和部署的发言权。
Anthropic在宣布H轮650亿美金融资当日发布Claude Opus 4.8。新模型基于Opus 4.7,提升了判断力、诚实度与独立工作时长,更适合编码、智能体、知识工作及Claude Code等复杂长期任务。其编码与知识工作评测成绩为SWE-Bench Pro 69.2%、GDPval-AA 1890、Terminal-Bench 2.1 74.6%。模型在诚实度上提升4倍,能更准确地自我监控与汇报进度。智能体协作质量提高,判断更稳、工具使用更经济。计算机与浏览器智能体能力也得到加强,OSWorld-Verified得分83.4%,Online-Mind2Web得分84%。同时,Claude Code推出Dynamic Workflows,从单智能体升级为包含规划、并行与验证的多步骤工作流。新模型今日起以相同价格提供服务。
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 11 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Claude Devs (@ClaudeDevs)Hacker News 热门(buzzing.cc 中文翻译)X:Artificial Analysis (@ArtificialAnlys)The Decoder:AI News(RSS)X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)X:Claude (@claudeai)MarkTechPost(RSS)X:Testing Catalog (@testingcatalog)Claude Opus 4.8 is LIVE on AIMLAPI - Hour 0 availability! ~4x less likely to let code flaws slip through vs 4.7 Fast mod...
Claude Code 推出 Dynamic Workflows 功能,将工作模式从单个 agent 执行升级为 agent 自主担任项目经理与调度层。该功能根据用户 prompt 动态生成编排脚本,在单次会话中启动数十至数百个并行 subagent,并对结果进行独立验证,从而将原本需要多轮人工规划的大型工程任务压缩为端到端自动化的长任务。它解决了上下文窗口有限、单视角易漏检、长任务易中断等问题。标杆案例是 Bun 从 Zig 迁移至约 75 万行 Rust 代码,99.8% 现有测试通过,从首次 commit 到 merge 仅用时 11 天。
Excited to share our most powerful new Claude Code feature: dynamic workflows! Mention "workflow" in a prompt and Claude...
关联讨论 4 条Claude:Blog(网页)Claude Code:GitHub Releases(RSS)X:Claude Devs (@ClaudeDevs)X:Thariq (@trq212)Anthropic 完成 650 亿美元 H 轮融资,估值达 9650 亿美元,超越 OpenAI。其 ARR 从 2024 年底的 10 亿美元增长至 2026 年 5 月的 470 亿美元。算力方面,公司近期与亚马逊、谷歌和博通及 SpaceX 达成多项合作,获取了新的 TPU 与 GPU 算力资源。
关联讨论 11 条Artificial Intelligence News(RSS)TechCrunch:AI(RSS)Anthropic:Newsroom(网页)Hacker News 热门(buzzing.cc 中文翻译)X:阿易 AI Notes (@AYi_AInotes)IT之家(RSS)The Verge:AI(RSS)The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)X:Anthropic (@AnthropicAI)X:Testing Catalog (@testingcatalog)wow... 6 months later, Opus 4.8 nails the boeing747-using-THREEJS-primitives benchmark. Single prompt (in ultracode effo...
"An AI consultant tells Axios one of their clients recently spent half a billion dollars in a single month after failing...
@dotey 因为4.7比4.6确实不行,试过了4.7很喜欢不按照规定单独搞一套,4.6应该是目前的baseline
Claude-Opus-4.8 刚刚发布,用户使用光线追踪渲染一个多光源多材质3D场景的全新测试集进行了实测。在 xhigh 设置下,初始去噪渲染效果不错,但发现一处本应垂直撞墙的光源移动轨迹呈水平,疑似模型空间理解能力下降。在 medium 设置下,因生成的 shader 有问题,测试直接失败无法完成。详细测试报告将后续发布。
Anthropic发布旗舰模型Claude Opus 4.8,在编程、智能体、推理等基准上全面超越上代,其代码“诚实度”提升约四倍,增强了多智能体系统的可靠性。同日,Anthropic完成H轮650亿美元融资,投后估值达9650亿美元,年化收入已超470亿美元。配套推出的Claude Code动态工作流允许在单次会话内编排数百个并行子智能体,适用于大规模代码库排查等任务。
Anthropic 同日发布三项重要进展。旗舰模型 Claude Opus 4.8 在代码与诚实度方面提升显著,代码能力与回答诚实度提升四倍。公司完成 650 亿美元 H 轮融资,估值逼近万亿美元。此外,Claude Code 推出动态工作流,支持在单次会话中调度数百个并行子智能体以处理超大规模任务。
关联讨论 11 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Claude Devs (@ClaudeDevs)Hacker News 热门(buzzing.cc 中文翻译)X:Artificial Analysis (@ArtificialAnlys)The Decoder:AI News(RSS)X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)X:Claude (@claudeai)MarkTechPost(RSS)X:Testing Catalog (@testingcatalog)Anthropic 发布旗舰大语言模型 Claude Opus 4.8,作为 Opus 4.7 的全面升级版,其在编程、智能体、推理和知识工作等基准测试中均超越前代。最显著的改进是模型诚实度大幅提升,对自身有缺陷代码视而不见的概率降低约四倍。同步推出三项新功能:Claude Code 支持动态工作流,可启动并行子智能体处理复杂任务;claude.ai 提供“努力控制”功能,允许用户调整模型思考深度;API 支持任务执行中实时更新指令。早期测试者反馈模型在判断力和可靠性上改善明显,价格与 Opus 4.7 保持一致。
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 11 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Claude Devs (@ClaudeDevs)Hacker News 热门(buzzing.cc 中文翻译)X:Artificial Analysis (@ArtificialAnlys)The Decoder:AI News(RSS)X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)X:Claude (@claudeai)MarkTechPost(RSS)X:Testing Catalog (@testingcatalog)Anthropic 宣布完成 650 亿美元的 H 轮融资,投后估值达 9650 亿美元。本轮融资由多家知名投资机构联合领投,云厂商和芯片巨头也参与了战略投资。公司同时披露,其年化经常性收入已超过 470 亿美元。这笔资金将用于推进 AI 安全研究、扩大算力合作以及规模化产品线。另一个关键进展是,Claude 成为首个同时在 AWS、Google Cloud 和 Microsoft Azure 上线的前沿模型。
We've raised $65 billion in Series H funding at a $965 billion post-money valuation, led by @AltimeterCap, Dragoneer, @G...
关联讨论 11 条Artificial Intelligence News(RSS)TechCrunch:AI(RSS)Anthropic:Newsroom(网页)Hacker News 热门(buzzing.cc 中文翻译)X:阿易 AI Notes (@AYi_AInotes)IT之家(RSS)The Verge:AI(RSS)The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)X:Anthropic (@AnthropicAI)X:Testing Catalog (@testingcatalog)Claude Code 发布了名为「动态工作流」的研究预览功能,旨在解决单个智能体无法独立完成的复杂大型任务。该能力允许 Claude 在单次会话中动态生成编排脚本,同时启动数十至数百个并行子智能体协同工作,并由主流程汇总结果。它特别适用于全代码库漏洞排查、大规模代码迁移以及需独立交叉验证的关键任务。新版还包含「ultracode」模式,可由 Claude 自行判断是否启动工作流。案例显示,Bun 工程团队利用该功能在 11 天内完成了大部分代码从 Zig 到 Rust 的迁移,测试通过率达 99.8%。需要注意的是,动态工作流消耗的 Token 量会显著增加,官方建议从任务范围明确的项目开始试用。
New in Claude Code (research preview): dynamic workflows. Claude writes an orchestration script on the fly, then spins u...
Anthropic发布Claude Opus 4.8,在Artificial Analysis智能指数上以61.4分超越GPT-5.5(xhigh)1.2分,重新登顶。该模型在真实世界智能体任务和前沿学术推理上均有提升,在主要智能体评测GDPval-AA上以1890 Elo分取得约67%的胜率。在科学推理方面,Claude首次在Humanity's Last Exam基准上领先OpenAI和Google。其模型幻觉率维持在35.9%,显著低于竞品。上下文窗口仍为100万token,定价为输入$5、输出$25每百万token。
关联讨论 11 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Claude Devs (@ClaudeDevs)Hacker News 热门(buzzing.cc 中文翻译)X:Artificial Analysis (@ArtificialAnlys)The Decoder:AI News(RSS)X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)X:Claude (@claudeai)MarkTechPost(RSS)X:Testing Catalog (@testingcatalog)Claude Opus 4.8 is now available in Cursor. On CursorBench, it's able to work much more efficiently than Opus 4.7. We've...
We've raised $65 billion in Series H funding at a $965 billion post-money valuation, led by @AltimeterCap, Dragoneer, @G...
关联讨论 11 条Artificial Intelligence News(RSS)TechCrunch:AI(RSS)Anthropic:Newsroom(网页)Hacker News 热门(buzzing.cc 中文翻译)X:阿易 AI Notes (@AYi_AInotes)IT之家(RSS)The Verge:AI(RSS)The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)X:Anthropic (@AnthropicAI)X:Testing Catalog (@testingcatalog)Anthropic宣布完成Series H轮融资,规模达650亿美元,投后估值达到9650亿美元。本轮融资由Altimeter Capital、Dragoneer、Greenoaks和Sequoia Capital等联合领投。三星、SK海力士和美光作为战略基础设施合作伙伴加入。公司表示,该投资将用于推进研究并扩大Claude的产能。值得注意的是,其Claude的运行时收入已超过470亿美元。作为对比,竞争对手OpenAI在今年3月以8520亿美元的估值完成了1220亿美元的融资。
We've raised $65 billion in Series H funding at a $965 billion post-money valuation, led by @AltimeterCap, Dragoneer, @G...
关联讨论 11 条Artificial Intelligence News(RSS)TechCrunch:AI(RSS)Anthropic:Newsroom(网页)Hacker News 热门(buzzing.cc 中文翻译)X:阿易 AI Notes (@AYi_AInotes)IT之家(RSS)The Verge:AI(RSS)The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)X:Anthropic (@AnthropicAI)X:Testing Catalog (@testingcatalog)Wow. Anthropic secures a massive post-money valuation of $965B after raising $65 B. Just three months earlier, in Februa...
关联讨论 11 条Artificial Intelligence News(RSS)TechCrunch:AI(RSS)Anthropic:Newsroom(网页)Hacker News 热门(buzzing.cc 中文翻译)X:阿易 AI Notes (@AYi_AInotes)IT之家(RSS)The Verge:AI(RSS)The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)X:Anthropic (@AnthropicAI)X:Testing Catalog (@testingcatalog)We've raised $65 billion in Series H funding at a $965 billion post-money valuation, led by @AltimeterCap, Dragoneer, @G...
关联讨论 11 条Artificial Intelligence News(RSS)TechCrunch:AI(RSS)Anthropic:Newsroom(网页)Hacker News 热门(buzzing.cc 中文翻译)X:阿易 AI Notes (@AYi_AInotes)IT之家(RSS)The Verge:AI(RSS)The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)X:Anthropic (@AnthropicAI)X:Testing Catalog (@testingcatalog)New in Claude Code (research preview): dynamic workflows. Claude writes an orchestration script on the fly, then spins u...
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 11 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Claude Devs (@ClaudeDevs)Hacker News 热门(buzzing.cc 中文翻译)X:Artificial Analysis (@ArtificialAnlys)The Decoder:AI News(RSS)X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)X:Claude (@claudeai)MarkTechPost(RSS)X:Testing Catalog (@testingcatalog)Anthropic发布Claude Opus 4.8模型。其快速模式速度提升2.5倍,同时成本降低3倍。在agentic终端编码基准测试上,性能从66.1%大幅提升至74.6%,成为GDPval-AA基准的新领导者。新推出“动态工作流”功能,可通过Claude Code将大型工程任务分解为数十至数百个并行子任务,由多个AI智能体协同处理并互相验证。官方介绍称,该版本在判断力、诚实度以及独立工作能力上均有提升,今日起以相同价格提供服务。
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 11 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Claude Devs (@ClaudeDevs)Hacker News 热门(buzzing.cc 中文翻译)X:Artificial Analysis (@ArtificialAnlys)The Decoder:AI News(RSS)X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)X:Claude (@claudeai)MarkTechPost(RSS)X:Testing Catalog (@testingcatalog)Anthropic 发布 Claude Opus 4.8,价格与 Claude Opus 4.7 持平。该模型核心改进是更诚实,能更真实地判断自身进度并承认不确定性,更适合长时间独立运行。同步推出 fast mode,在同一模型上实现约 2.5 倍速度提升且价格降低三倍。重要新功能是 Claude Code 的 dynamic workflows(动态工作流),它能将大型任务拆解,并行派出大量子智能体执行与验证,适用于跨文件的大规模代码任务。官方以用其将 Bun 从 Zig 移植到 Rust 作为案例。需注意,该功能消耗的 token 远多于普通会话。
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 11 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Claude Devs (@ClaudeDevs)Hacker News 热门(buzzing.cc 中文翻译)X:Artificial Analysis (@ArtificialAnlys)The Decoder:AI News(RSS)X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)X:Claude (@claudeai)MarkTechPost(RSS)X:Testing Catalog (@testingcatalog)