Anthropic在宣布H轮650亿美金融资当日发布Claude Opus 4.8。新模型基于Opus 4.7,提升了判断力、诚实度与独立工作时长,更适合编码、智能体、知识工作及Claude Code等复杂长期任务。其编码与知识工作评测成绩为SWE-Bench Pro 69.2%、GDPval-AA 1890、Terminal-Bench 2.1 74.6%。模型在诚实度上提升4倍,能更准确地自我监控与汇报进度。智能体协作质量提高,判断更稳、工具使用更经济。计算机与浏览器智能体能力也得到加强,OSWorld-Verified得分83.4%,Online-Mind2Web得分84%。同时,Claude Code推出Dynamic Workflows,从单智能体升级为包含规划、并行与验证的多步骤工作流。新模型今日起以相同价格提供服务。
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 10 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)X:Thariq (@trq212)X:Kim (@kimmonismus)X:Claude (@claudeai)MarkTechPost(RSS)X:Testing Catalog (@testingcatalog)Claude Opus 4.8 is LIVE on AIMLAPI - Hour 0 availability! ~4x less likely to let code flaws slip through vs 4.7 Fast mod...
Claude Code 推出 Dynamic Workflows 功能,将工作模式从单个 agent 执行升级为 agent 自主担任项目经理与调度层。该功能根据用户 prompt 动态生成编排脚本,在单次会话中启动数十至数百个并行 subagent,并对结果进行独立验证,从而将原本需要多轮人工规划的大型工程任务压缩为端到端自动化的长任务。它解决了上下文窗口有限、单视角易漏检、长任务易中断等问题。标杆案例是 Bun 从 Zig 迁移至约 75 万行 Rust 代码,99.8% 现有测试通过,从首次 commit 到 merge 仅用时 11 天。
Excited to share our most powerful new Claude Code feature: dynamic workflows! Mention "workflow" in a prompt and Claude...
关联讨论 4 条Claude:Blog(网页)Claude Code:GitHub Releases(RSS)X:Claude Devs (@ClaudeDevs)X:Thariq (@trq212)🎉 Meet Step 3.7 Flash from @StepFun_ai, a 198B sparse MoE vision-language model built for high-throughput agentic workl...
wow... 6 months later, Opus 4.8 nails the boeing747-using-THREEJS-primitives benchmark. Single prompt (in ultracode effo...
Claude-Opus-4.8 刚刚发布,用户使用光线追踪渲染一个多光源多材质3D场景的全新测试集进行了实测。在 xhigh 设置下,初始去噪渲染效果不错,但发现一处本应垂直撞墙的光源移动轨迹呈水平,疑似模型空间理解能力下降。在 medium 设置下,因生成的 shader 有问题,测试直接失败无法完成。详细测试报告将后续发布。
Anthropic发布旗舰模型Claude Opus 4.8,在编程、智能体、推理等基准上全面超越上代,其代码“诚实度”提升约四倍,增强了多智能体系统的可靠性。同日,Anthropic完成H轮650亿美元融资,投后估值达9650亿美元,年化收入已超470亿美元。配套推出的Claude Code动态工作流允许在单次会话内编排数百个并行子智能体,适用于大规模代码库排查等任务。
Anthropic 同日发布三项重要进展。旗舰模型 Claude Opus 4.8 在代码与诚实度方面提升显著,代码能力与回答诚实度提升四倍。公司完成 650 亿美元 H 轮融资,估值逼近万亿美元。此外,Claude Code 推出动态工作流,支持在单次会话中调度数百个并行子智能体以处理超大规模任务。
关联讨论 10 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)X:Thariq (@trq212)X:Kim (@kimmonismus)X:Claude (@claudeai)MarkTechPost(RSS)X:Testing Catalog (@testingcatalog)Anthropic 发布旗舰大语言模型 Claude Opus 4.8,作为 Opus 4.7 的全面升级版,其在编程、智能体、推理和知识工作等基准测试中均超越前代。最显著的改进是模型诚实度大幅提升,对自身有缺陷代码视而不见的概率降低约四倍。同步推出三项新功能:Claude Code 支持动态工作流,可启动并行子智能体处理复杂任务;claude.ai 提供“努力控制”功能,允许用户调整模型思考深度;API 支持任务执行中实时更新指令。早期测试者反馈模型在判断力和可靠性上改善明显,价格与 Opus 4.7 保持一致。
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 10 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)X:Thariq (@trq212)X:Kim (@kimmonismus)X:Claude (@claudeai)MarkTechPost(RSS)X:Testing Catalog (@testingcatalog)Claude Code 发布了名为「动态工作流」的研究预览功能,旨在解决单个智能体无法独立完成的复杂大型任务。该能力允许 Claude 在单次会话中动态生成编排脚本,同时启动数十至数百个并行子智能体协同工作,并由主流程汇总结果。它特别适用于全代码库漏洞排查、大规模代码迁移以及需独立交叉验证的关键任务。新版还包含「ultracode」模式,可由 Claude 自行判断是否启动工作流。案例显示,Bun 工程团队利用该功能在 11 天内完成了大部分代码从 Zig 到 Rust 的迁移,测试通过率达 99.8%。需要注意的是,动态工作流消耗的 Token 量会显著增加,官方建议从任务范围明确的项目开始试用。
New in Claude Code (research preview): dynamic workflows. Claude writes an orchestration script on the fly, then spins u...
OpenClaw's latest sweep: cold agent turns 2.9x faster, warm turns 2.5x faster, tarball 59% smaller, deps down 42% from t...
Claude Opus 4.8 is now available in Cursor. On CursorBench, it's able to work much more efficiently than Opus 4.7. We've...
We've raised $65 billion in Series H funding at a $965 billion post-money valuation, led by @AltimeterCap, Dragoneer, @G...
关联讨论 14 条Artificial Intelligence News(RSS)TechCrunch:AI(RSS)Anthropic:Newsroom(网页)X:小互 (@xiaohu)Hacker News 热门(buzzing.cc 中文翻译)X:Kim (@kimmonismus)X:Anthropic (@AnthropicAI)X:阿易 AI Notes (@AYi_AInotes)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)The Verge:AI(RSS)The Decoder:AI News(RSS)X:洪明 (@hongming731)X:Testing Catalog (@testingcatalog)We have also partnered with @MiniMax_AI to provide *free access to agents with MiniMax-M2.7* for a limited time! This is...
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 10 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)X:Thariq (@trq212)X:Kim (@kimmonismus)X:Claude (@claudeai)MarkTechPost(RSS)X:Testing Catalog (@testingcatalog)Anthropic发布Claude Opus 4.8模型。其快速模式速度提升2.5倍,同时成本降低3倍。在agentic终端编码基准测试上,性能从66.1%大幅提升至74.6%,成为GDPval-AA基准的新领导者。新推出“动态工作流”功能,可通过Claude Code将大型工程任务分解为数十至数百个并行子任务,由多个AI智能体协同处理并互相验证。官方介绍称,该版本在判断力、诚实度以及独立工作能力上均有提升,今日起以相同价格提供服务。
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 10 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)X:Thariq (@trq212)X:Kim (@kimmonismus)X:Claude (@claudeai)MarkTechPost(RSS)X:Testing Catalog (@testingcatalog)Anthropic 发布 Claude Opus 4.8,价格与 Claude Opus 4.7 持平。该模型核心改进是更诚实,能更真实地判断自身进度并承认不确定性,更适合长时间独立运行。同步推出 fast mode,在同一模型上实现约 2.5 倍速度提升且价格降低三倍。重要新功能是 Claude Code 的 dynamic workflows(动态工作流),它能将大型任务拆解,并行派出大量子智能体执行与验证,适用于跨文件的大规模代码任务。官方以用其将 Bun 从 Zig 移植到 Rust 作为案例。需注意,该功能消耗的 token 远多于普通会话。
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 10 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)X:Thariq (@trq212)X:Kim (@kimmonismus)X:Claude (@claudeai)MarkTechPost(RSS)X:Testing Catalog (@testingcatalog)上周 Cursor 送了我 1 万美金额度, 我以为往死里造 7 天怎么也得花到 3000 美金, 结果实际一看, 300 多美金都没花到。 7这几天我用 Claude Opus 4.7 thinking xhigh MAX 跑了几十次, ...
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 10 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)X:Thariq (@trq212)X:Kim (@kimmonismus)X:Claude (@claudeai)MarkTechPost(RSS)X:Testing Catalog (@testingcatalog)Anthropic 为 Claude Code 新增“动态工作流”功能。面对复杂任务,Claude 能动态编写编排脚本,在单个会话中并行运行数十到数百个子智能体,并在结果呈现给用户前进行自我核查。该功能适用于传统单一智能体难以一次处理的挑战,例如整个服务的 bug 排查、涉及数百个文件的代码库迁移等场景。引用内容指出,Claude 会先制定计划,然后运行数百个并行子智能体并验证其工作。
Also new in Claude Code: dynamic workflows (research preview). For the hardest tasks, Claude makes a plan, runs hundreds...
本文是一篇关于xAI新发布的Grok Build CLI工具的零基础安装与上手教程。工具目前为Beta版,需订阅SuperGrok或X Premium+才能使用。文章详细介绍了通过curl或irm命令的简单安装过程,以及首次登录和使用的基础步骤。其核心功能包括通过TUI界面进行交互,使用/plan进入计划模式、/model切换模型,并支持自动文件编辑、代码运行以及Git操作。项目根目录的AGENTS.md文件可用于自定义开发规范。
用户获赠Cursor 1万美金额度,高强度使用7天(包括Claude Opus 4.7 thinking xhigh MAX和GPT-5.3 Codex high fast MAX,单次最高达672万 tokens)后,实际账单仅约300多美金。核心观点是:许多人按 token 单价估算成本是错误的,MAX 等高端模型往往能一次完成任务,而便宜模型需多次试错,总 token 消耗反而达3-5倍,导致“贵的反而便宜”。引用Claude Code之父Boris Cherny的观点强调“计划做得好,代码自然好”,指出省钱关键是让强模型一次做对。结合引用推文背景,Cursor在被收购后能力显著增强,不仅能写代码,更能直接交付可用的产品成品(如10秒生成可交互雷达图),更像“全职执行助理”,进一步支持了“放手使用高效工具”的结论。
Damn,@Cursor被老马收购以后是进化了吗? 现在真的强到离谱,这波必须吹爆, 我现在已经不用 Cursor 写代码了,用它做产品很香啊, 随口一句 帮我做个六维协作雷达图, 10 秒直接交付,Excel 可编辑模板 + HTML 可...
Many developers have suspected for months that GPT-5.5 outperforms Claude Sonnet for coding. But SWE-Bench reported near...
Bug fixes shipping to Grok Build 0.2.7 (release notes will be available in the TUI) • Wrap around on Up/Down in slash me...
AI编程辅助插件Plannotator允许用户在AI生成技术文档后,通过本地浏览器界面进行协作批注、编辑替换。文档可分享给同事进行Review,确认后点击Approve执行。该工具支持Codex、Claude Code、PI、Gemini等所有CLI编程工具,提供了像飞书文档一样的划线点评体验,让AI生成的方案能被仔细查看、修改和确认。
本文介绍了为AI智能体(如Codex、Claude Code)编写指令文件(如Agents.md)的一种实用方法。核心建议是直接复制高手的Agents文件内容,粘贴给工具,让其学习并合并有价值的部分。文中强调了两个关键实践:一是当用户纠正问题时,应提出精简的规则更新建议,并区分作用域;二是要求智能体说话直接,对不确定的技术事实必须验证或明确表示不知道。
Replit平台与Claude深度合作,新模型发布当天即可上线新版Replit Agent。该平台已让超过5000万人通过自然语言构建真实应用,实现了用对话代替编码。Replit总裁Michele Catasta早在16岁时就立志让软件开发对所有人开放。这一合作模式展示了AI Native公司完全Agent化的趋势,让非程序员也能成为软件创造者。
Michele Catasta (@pirroh) is President and Head of AI @replit, the platform where anyone can build software in natural l...
Claude Code 首年营收 25 亿美元,占据编程工具 51% 市场份额,其成功源于流动 Pod 结构、运行时质量把控及自下而上的采用策略。Cursor 与 Fireworks 合作,基于 1 万亿参数 MoE 模型 Kimi 2.5 训练了专用编码模型 Composer 2,其异步分布式 RL 流水线与工程优化实现了在特定任务上超越大型通用模型。与此同时,“SaaSpocalypse” 现象揭示了当 AI 智能体直接调用 API 绕过 SaaS 界面层时,传统软件中间层正面临冲击。
推文指出,2026年1月美国软件股暴跌15%(被称为“SaaSpocalypse”),而同期Claude Code首年营收达$25亿,占据编程工具市场51%份额。这两件事共同指向AI正从辅助工具演进为主导性基础设施。推文通过三个核心截面分析这一转折:Claude Code的产品设计路径、其训练工程(提及Composer 2)、以及由此带来的产业冲击——SaaS中间层被瓦解与工程师角色迁移。