Claude Opus 4.8 is LIVE on AIMLAPI - Hour 0 availability! ~4x less likely to let code flaws slip through vs 4.7 Fast mod...
Claude Opus 4.8 is LIVE on AIMLAPI - Hour 0 availability! ~4x less likely to let code flaws slip through vs 4.7 Fast mod...
Claude Code 推出 Dynamic Workflows 功能,将工作模式从单个 agent 执行升级为 agent 自主担任项目经理与调度层。该功能根据用户 prompt 动态生成编排脚本,在单次会话中启动数十至数百个并行 subagent,并对结果进行独立验证,从而将原本需要多轮人工规划的大型工程任务压缩为端到端自动化的长任务。它解决了上下文窗口有限、单视角易漏检、长任务易中断等问题。标杆案例是 Bun 从 Zig 迁移至约 75 万行 Rust 代码,99.8% 现有测试通过,从首次 commit 到 merge 仅用时 11 天。
Excited to share our most powerful new Claude Code feature: dynamic workflows! Mention "workflow" in a prompt and Claude...
关联讨论 4 条Claude:Blog(网页)Claude Code:GitHub Releases(RSS)X:Claude Devs (@ClaudeDevs)X:Thariq (@trq212)🎉 Meet Step 3.7 Flash from @StepFun_ai, a 198B sparse MoE vision-language model built for high-throughput agentic workl...
wow... 6 months later, Opus 4.8 nails the boeing747-using-THREEJS-primitives benchmark. Single prompt (in ultracode effo...
针对可验证奖励强化学习(RLVR)中足够有挑战性的代码任务稀缺、现有种子扩展法限制新颖性与难度的问题,提出原子分解与重组(ADR)框架。ADR 将代码任务分解为原子元素并受控重组,从而生成真正新颖且高难度的可验证代码任务。实验表明,ADR 在原创性、难度、多样性和测试质量上均优于现有基线,并在算法编程、工具使用和数据科学等多个下游领域的 RLVR 训练中持续带来更大的代码能力提升。
Mellum 2 是一个开源的 12B 参数 MoE 大语言模型,每个 token 有 2.5B 活跃参数,专注于软件工程任务,是 Mellum 的后继版本。其架构基于 64 专家、8 激活的 MoE,并融合了分组查询注意力、滑动窗口注意力和多 token 预测头。模型在约 10.6 万亿 token 上进行三阶段预训练,并通过 YaRN 扩展至 128K 上下文窗口,之后经过监督微调与 RLVR 后训练,发布了直答式(Instruct)和带推理链(Thinking)两个变体。在多项基准测试中,其性能可与 4B-14B 范围的开源模型竞争,而计算成本仅相当于 2.5B 稠密模型。所有检查点以 Apache 2.0 许可证发布。
Endava通过应用AI工具Codex,成功构建了智能体驱动的组织模式,显著加速了软件交付流程。其核心成果体现在需求分析环节,耗时由数周大幅缩短至数小时。
Claude-Opus-4.8 刚刚发布,用户使用光线追踪渲染一个多光源多材质3D场景的全新测试集进行了实测。在 xhigh 设置下,初始去噪渲染效果不错,但发现一处本应垂直撞墙的光源移动轨迹呈水平,疑似模型空间理解能力下降。在 medium 设置下,因生成的 shader 有问题,测试直接失败无法完成。详细测试报告将后续发布。
Anthropic发布旗舰模型Claude Opus 4.8,在编程、智能体、推理等基准上全面超越上代,其代码“诚实度”提升约四倍,增强了多智能体系统的可靠性。同日,Anthropic完成H轮650亿美元融资,投后估值达9650亿美元,年化收入已超470亿美元。配套推出的Claude Code动态工作流允许在单次会话内编排数百个并行子智能体,适用于大规模代码库排查等任务。
Anthropic 同日发布三项重要进展。旗舰模型 Claude Opus 4.8 在代码与诚实度方面提升显著,代码能力与回答诚实度提升四倍。公司完成 650 亿美元 H 轮融资,估值逼近万亿美元。此外,Claude Code 推出动态工作流,支持在单次会话中调度数百个并行子智能体以处理超大规模任务。
关联讨论 9 条TechCrunch:AI(RSS)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)X:Thariq (@trq212)X:Kim (@kimmonismus)X:Claude (@claudeai)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)Anthropic 发布旗舰大语言模型 Claude Opus 4.8,作为 Opus 4.7 的全面升级版,其在编程、智能体、推理和知识工作等基准测试中均超越前代。最显著的改进是模型诚实度大幅提升,对自身有缺陷代码视而不见的概率降低约四倍。同步推出三项新功能:Claude Code 支持动态工作流,可启动并行子智能体处理复杂任务;claude.ai 提供“努力控制”功能,允许用户调整模型思考深度;API 支持任务执行中实时更新指令。早期测试者反馈模型在判断力和可靠性上改善明显,价格与 Opus 4.7 保持一致。
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 9 条TechCrunch:AI(RSS)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)X:Thariq (@trq212)X:Kim (@kimmonismus)X:Claude (@claudeai)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)Claude Code 发布了名为「动态工作流」的研究预览功能,旨在解决单个智能体无法独立完成的复杂大型任务。该能力允许 Claude 在单次会话中动态生成编排脚本,同时启动数十至数百个并行子智能体协同工作,并由主流程汇总结果。它特别适用于全代码库漏洞排查、大规模代码迁移以及需独立交叉验证的关键任务。新版还包含「ultracode」模式,可由 Claude 自行判断是否启动工作流。案例显示,Bun 工程团队利用该功能在 11 天内完成了大部分代码从 Zig 到 Rust 的迁移,测试通过率达 99.8%。需要注意的是,动态工作流消耗的 Token 量会显著增加,官方建议从任务范围明确的项目开始试用。
New in Claude Code (research preview): dynamic workflows. Claude writes an orchestration script on the fly, then spins u...
OpenClaw's latest sweep: cold agent turns 2.9x faster, warm turns 2.5x faster, tarball 59% smaller, deps down 42% from t...
文章探讨了大语言模型输出中存在的各种典型缺陷或不受欢迎的模式(即“异味”),并提供了相关示例。该内容来自 shvbsle.in,在 Hacker News 社区获得了 107 点热度。
Anthropic推出Claude Opus 4.8,在Claude Code中引入动态工作流和更便宜的快速模式,目前处于研究预览阶段。工作流最多可调用1000个子智能体执行任务。
关联讨论 9 条TechCrunch:AI(RSS)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)X:Thariq (@trq212)X:Kim (@kimmonismus)X:Claude (@claudeai)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)Claude Opus 4.8 is now available in Cursor. On CursorBench, it's able to work much more efficiently than Opus 4.7. We've...
Claude Opus 4.8 上线,价格与 4.7 相同($5/M 输入、$25/M 输出),上下文等参数一致。新特性:effort 控制向所有用户开放;模型更精确遵循指令但主动性减弱;代码瑕疵蒙混过关概率降低 4 倍;fast mode 速度 2.5 倍,价格降至之前的 1/3(输入 $10/M、输出 $50/M)。Claude Code 新增 dynamic workflows,可自动拉起数十至上百个子 Agent 并行处理并自验。Benchmark 方面,Terminal-Bench 2.1 仍未超过 GPT-5.5。此外,Anthropic 完成 650 亿美元融资,估值近万亿美元。创作能力虽比 4.7 有进步,但整体仍不如 4.6。
We've raised $65 billion in Series H funding at a $965 billion post-money valuation, led by @AltimeterCap, Dragoneer, @G...
关联讨论 14 条Artificial Intelligence News(RSS)TechCrunch:AI(RSS)Anthropic:Newsroom(网页)X:小互 (@xiaohu)Hacker News 热门(buzzing.cc 中文翻译)X:Kim (@kimmonismus)X:Anthropic (@AnthropicAI)X:阿易 AI Notes (@AYi_AInotes)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)The Verge:AI(RSS)The Decoder:AI News(RSS)X:洪明 (@hongming731)X:Testing Catalog (@testingcatalog)Claude Code 引入了动态工作流功能,该特性允许智能体在执行任务时,根据上下文动态地构建和调整工作流程。文章发布于 2026 年 5 月 28 日。
tradecore 在48小时内完成了其客户服务工具 Zendesk 的替换。原文仅提及此项迁移在极短时间内完成,未涉及更具体的替换原因、新平台选择或迁移过程的细节。
We have also partnered with @MiniMax_AI to provide *free access to agents with MiniMax-M2.7* for a limited time! This is...
xAI 的最新编码模型 Grok Build 0.1 已通过 xAI API 进入公开测试阶段。该模型专为智能体编码任务训练,支持网页开发、调试和 MCP,同时也是驱动 Grok Build CLI 的同一模型。其推理速度超过 100 tokens/秒,定价为输入 $1/m tokens,输出 $2/m tokens。除编码外,它也适用于通用智能体及工具调用场景,并可通过 OpenRouter 和 Vercel AI Gateway 获取。
关联讨论 4 条X:xAI (@xai)X:Elon Musk (@elonmusk, xAI)X:阿易 AI Notes (@AYi_AInotes)X:Testing Catalog (@testingcatalog)Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 9 条TechCrunch:AI(RSS)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)X:Thariq (@trq212)X:Kim (@kimmonismus)X:Claude (@claudeai)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)Anthropic发布Claude Opus 4.8模型。其快速模式速度提升2.5倍,同时成本降低3倍。在agentic终端编码基准测试上,性能从66.1%大幅提升至74.6%,成为GDPval-AA基准的新领导者。新推出“动态工作流”功能,可通过Claude Code将大型工程任务分解为数十至数百个并行子任务,由多个AI智能体协同处理并互相验证。官方介绍称,该版本在判断力、诚实度以及独立工作能力上均有提升,今日起以相同价格提供服务。
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 9 条TechCrunch:AI(RSS)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)X:Thariq (@trq212)X:Kim (@kimmonismus)X:Claude (@claudeai)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)Anthropic 发布 Claude Opus 4.8,价格与 Claude Opus 4.7 持平。该模型核心改进是更诚实,能更真实地判断自身进度并承认不确定性,更适合长时间独立运行。同步推出 fast mode,在同一模型上实现约 2.5 倍速度提升且价格降低三倍。重要新功能是 Claude Code 的 dynamic workflows(动态工作流),它能将大型任务拆解,并行派出大量子智能体执行与验证,适用于跨文件的大规模代码任务。官方以用其将 Bun 从 Zig 移植到 Rust 作为案例。需注意,该功能消耗的 token 远多于普通会话。
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 9 条TechCrunch:AI(RSS)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)X:Thariq (@trq212)X:Kim (@kimmonismus)X:Claude (@claudeai)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)上周 Cursor 送了我 1 万美金额度, 我以为往死里造 7 天怎么也得花到 3000 美金, 结果实际一看, 300 多美金都没花到。 7这几天我用 Claude Opus 4.7 thinking xhigh MAX 跑了几十次, ...
Claude Code 推出“动态工作流”功能,使 Claude 能端到端处理复杂任务。该功能通过动态编写脚本,在单个会话中并行运行数十到数百个子智能体来完成工作,并会在结果呈现前进行验证。它适用于跨代码库的 bug 查找、大规模迁移(如将 Bun 从 Zig 移植到 Rust)等需要多角度分析的任务。该功能现已在研究预览阶段可用,支持 Claude Code CLI、桌面端、VS Code 扩展以及 API、Amazon Bedrock、Vertex AI 等平台,面向 Max、Team 及已启用的 Enterprise 计划用户。
关联讨论 4 条Claude:Blog(网页)Claude Code:GitHub Releases(RSS)X:Claude Devs (@ClaudeDevs)X:Thariq (@trq212)Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 9 条TechCrunch:AI(RSS)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)X:Thariq (@trq212)X:Kim (@kimmonismus)X:Claude (@claudeai)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)Anthropic 为 Claude Code 新增“动态工作流”功能。面对复杂任务,Claude 能动态编写编排脚本,在单个会话中并行运行数十到数百个子智能体,并在结果呈现给用户前进行自我核查。该功能适用于传统单一智能体难以一次处理的挑战,例如整个服务的 bug 排查、涉及数百个文件的代码库迁移等场景。引用内容指出,Claude 会先制定计划,然后运行数百个并行子智能体并验证其工作。
Also new in Claude Code: dynamic workflows (research preview). For the hardest tasks, Claude makes a plan, runs hundreds...