Excited to support Step 3.7 Flash by @StepFun_ai on ZenMux from day one. 🚀 A sparse MoE vision-language model built for...
Excited to support Step 3.7 Flash by @StepFun_ai on ZenMux from day one. 🚀 A sparse MoE vision-language model built for...
Anthropic发布Claude Opus 4.8,距上代4.7发布仅42天。价格($5/M输入、$25/M输出)与参数均不变。模型在多数基准跑分有所提升,但Terminal-Bench 2.1仍是唯一未超越GPT-5.5的类别。此次更新将思考强度(effort)控制开放给所有用户。核心变化是模型变得更精确、更遵循指令,代码瑕疵概率比上代低约4倍,且在防“偷懒”测试中达到0%不良率。然而,这带来了主动性降低的副作用,模型不再主动推测用户隐含需求。此外,其内容创作能力虽优于4.7,但被认为仍不及4.6版本。同时,快速模式(fast mode)升级,速度达标准版2.5倍,价格从标准版6倍降至2倍。Claude Code还推出了可并行调用数十至上百个子Agent的动态工作流功能。
Step 3.7 Flash from @StepFun_ai is live on OpenRouter. A multimodal (image/video/text) MoE that activates just 11B of 19...
Thrilled to welcome Step 3.7 Flash landing on ModelScope, a 198B sparse MoE VLM from @StepFun_ai 🔥🤖 https://modelscope...
该推文预告了阿里云ClawTalks的一场网络研讨会。核心主题是探讨如何部署个人AI智能体,来分担日常行政任务,从而释放“复合生产力”。主讲人来自Kilo Code的开发者将分享实际工作流,包括通过智能自动化处理邮件与个人CRM、利用主动式辅助工具减少上下文切换,以及最终降低认知负荷,让用户能专注于更重要的事务。会议定于2026年6月3日。
Claude Code 近期推出实验性动态工作流(Dynamic Workflows)功能。该功能延续并发子代理(Subagent)逻辑,可启动数百个子代理,用于处理代码库调研、生成大型报告等大规模任务。官方定位是加速处理基础但工作量巨大的任务,而非直接修改代码。触发方式有两种:在提示词中使用“workflow”一词,或启动 Ultra Code 模式(该模式仅当前对话生效)。
New in Claude Code (research preview): dynamic workflows. Claude writes an orchestration script on the fly, then spins u...
New in Claude Code (research preview): dynamic workflows. Claude writes an orchestration script on the fly, then spins u...
报告显示,AI正深刻改变开发工作形态。开发者周均代码产出从约3.6K行增至8.6K行,更大规模的PR(千行以上)占比上升。AI智能体在单次会话中的工具调用数增加约30%,正在处理更复杂的任务。同时,被接受的AI代码在60分钟后的留存率从约76%提升至约81%,表明更多AI生成内容进入了实际代码库。这些趋势共同指向AI已从个人辅助工具,演进为推动开发向更大规模任务与自动化基础设施发展的核心力量。
Introducing the Cursor Developer Habits Report. We're sharing some of our findings on how software development is changi...
AI编程系统中,人类开发者的注意力是不可并行的稀缺资源。智能体可并行工作,但其结果必须由人审查、判断和决策,这一过程无法并行,被称为“编排成本”,类比于Python的GIL。盲目增加智能体数量不会提升最终质量,反而因大量上下文切换增加审查负担。成熟的AI编程能力在于合理分配注意力:按自身审查能力控制智能体数量,将深度思考时间留给最关键的架构与决策环节。
http://x.com/i/article/2059839454370828288
Anthropic在宣布H轮650亿美金融资当日发布Claude Opus 4.8。新模型基于Opus 4.7,提升了判断力、诚实度与独立工作时长,更适合编码、智能体、知识工作及Claude Code等复杂长期任务。其编码与知识工作评测成绩为SWE-Bench Pro 69.2%、GDPval-AA 1890、Terminal-Bench 2.1 74.6%。模型在诚实度上提升4倍,能更准确地自我监控与汇报进度。智能体协作质量提高,判断更稳、工具使用更经济。计算机与浏览器智能体能力也得到加强,OSWorld-Verified得分83.4%,Online-Mind2Web得分84%。同时,Claude Code推出Dynamic Workflows,从单智能体升级为包含规划、并行与验证的多步骤工作流。新模型今日起以相同价格提供服务。
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 12 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Claude Devs (@ClaudeDevs)X:Boris Cherny (@bcherny)Hacker News 热门(buzzing.cc 中文翻译)X:洪明 (@hongming731)The Decoder:AI News(RSS)X:Thariq (@trq212)X:Claude (@claudeai)MarkTechPost(RSS)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)Claude Code 推出 Dynamic Workflows 功能,将工作模式从单个 agent 执行升级为 agent 自主担任项目经理与调度层。该功能根据用户 prompt 动态生成编排脚本,在单次会话中启动数十至数百个并行 subagent,并对结果进行独立验证,从而将原本需要多轮人工规划的大型工程任务压缩为端到端自动化的长任务。它解决了上下文窗口有限、单视角易漏检、长任务易中断等问题。标杆案例是 Bun 从 Zig 迁移至约 75 万行 Rust 代码,99.8% 现有测试通过,从首次 commit 到 merge 仅用时 11 天。
Excited to share our most powerful new Claude Code feature: dynamic workflows! Mention "workflow" in a prompt and Claude...
关联讨论 4 条Claude:Blog(网页)Claude Code:GitHub Releases(RSS)X:Claude Devs (@ClaudeDevs)X:Thariq (@trq212)🎉 Meet Step 3.7 Flash from @StepFun_ai, a 198B sparse MoE vision-language model built for high-throughput agentic workl...
阶跃星辰(Step)发布了开源大模型 Step 3.7 Flash,主打智能体(Agent)工作流的效率。该模型在 ClawEval-1.1(67.1分)和 SimpleVQA Search(79.2分)评测中排名第一。其架构为 198B 参数的 MoE,约 11B 为活跃参数,支持 256K 上下文。模型具备多模态理解能力,能处理图像、文档并生成代码或调用工具执行任务。在工具使用方面,它致力于高可靠性,τ²-bench 得分超过 98%。Step 3.7 Flash 兼容 Claude Code、MCP 协议等工具链,并支持在 Mac Studio M4 Max 等设备上本地运行。模型权重以 Apache 2.0 许可开源。
关联讨论 3 条X:阶跃星辰 StepFun (@StepFun_ai)IT之家(RSS)公众号:阶跃星辰(Step)Anthropic发布旗舰模型Claude Opus 4.8,在编程、智能体、推理等基准上全面超越上代,其代码“诚实度”提升约四倍,增强了多智能体系统的可靠性。同日,Anthropic完成H轮650亿美元融资,投后估值达9650亿美元,年化收入已超470亿美元。配套推出的Claude Code动态工作流允许在单次会话内编排数百个并行子智能体,适用于大规模代码库排查等任务。
Claude Code 发布了名为「动态工作流」的研究预览功能,旨在解决单个智能体无法独立完成的复杂大型任务。该能力允许 Claude 在单次会话中动态生成编排脚本,同时启动数十至数百个并行子智能体协同工作,并由主流程汇总结果。它特别适用于全代码库漏洞排查、大规模代码迁移以及需独立交叉验证的关键任务。新版还包含「ultracode」模式,可由 Claude 自行判断是否启动工作流。案例显示,Bun 工程团队利用该功能在 11 天内完成了大部分代码从 Zig 到 Rust 的迁移,测试通过率达 99.8%。需要注意的是,动态工作流消耗的 Token 量会显著增加,官方建议从任务范围明确的项目开始试用。
New in Claude Code (research preview): dynamic workflows. Claude writes an orchestration script on the fly, then spins u...
Firecrawl推出/monitor监控功能,解决AI智能体追踪网页更新时消耗大量LLM token的问题。用户输入URL并用自然语言描述跟踪目标,功能即可按设定频率监测页面。一旦有实质变化,便通过webhook通知智能体,并仅推送变化部分的diff(清晰列出新增、删除和修改),最多可节省90%的LLM token,避免广告等噪声干扰。该功能支持通过API、CLI、MCP或dashboard初始化,调度频率可自定义。
Today we're releasing Monitoring by Firecrawl 📡 Just enter a URL, describe what you want to track, and /monitor notifie...
OpenClaw's latest sweep: cold agent turns 2.9x faster, warm turns 2.5x faster, tarball 59% smaller, deps down 42% from t...
Anthropic发布Claude Opus 4.8,在Artificial Analysis智能指数上以61.4分超越GPT-5.5(xhigh)1.2分,重新登顶。该模型在真实世界智能体任务和前沿学术推理上均有提升,在主要智能体评测GDPval-AA上以1890 Elo分取得约67%的胜率。在科学推理方面,Claude首次在Humanity's Last Exam基准上领先OpenAI和Google。其模型幻觉率维持在35.9%,显著低于竞品。上下文窗口仍为100万token,定价为输入$5、输出$25每百万token。
关联讨论 12 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Claude Devs (@ClaudeDevs)X:Boris Cherny (@bcherny)Hacker News 热门(buzzing.cc 中文翻译)X:洪明 (@hongming731)The Decoder:AI News(RSS)X:Thariq (@trq212)X:Claude (@claudeai)MarkTechPost(RSS)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)测试评估了AI金融建模智能体在构建苹果公司历史与预测财务报表这一真实分析师任务中的表现。其中,工具Primer表现突出,关键在于其生成了可审计的关联财务系统,而非逐单元格拼接的表格。Primer将Excel视为最终输出格式,先构建完整的三表模型,再将其转化为结构化记录(如收入、成本、假设、公式链接等),使AI能直接查询和验证财务逻辑。这指出专业AI智能体的价值将更多取决于其产出物能否通过审计。
http://x.com/i/article/2053566242338795520
We have also partnered with @MiniMax_AI to provide *free access to agents with MiniMax-M2.7* for a limited time! This is...
hexoai开源了SIA(自我改进AI)框架。该框架展示了AI智能体不仅能优化其外部工作流(harness),还能通过任务反馈直接更新自身的模型权重,从而在领域知识和能力上实现自主提升,而非仅依赖人类提供的提示或工具改进。论文报告显示,SIA在LawBench基准上性能提升56.6%,在GPU kernels运行上耗时减少91.9%,在单细胞RNA去噪任务中相比基线提升502%。
Superintelligence will be built on Self Improvement. Today @hexoai, we're excited to release 'SIA' - an open-source Self...
New in Claude Code (research preview): dynamic workflows. Claude writes an orchestration script on the fly, then spins u...
Anthropic发布Claude Opus 4.8模型。其快速模式速度提升2.5倍,同时成本降低3倍。在agentic终端编码基准测试上,性能从66.1%大幅提升至74.6%,成为GDPval-AA基准的新领导者。新推出“动态工作流”功能,可通过Claude Code将大型工程任务分解为数十至数百个并行子任务,由多个AI智能体协同处理并互相验证。官方介绍称,该版本在判断力、诚实度以及独立工作能力上均有提升,今日起以相同价格提供服务。
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 12 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Claude Devs (@ClaudeDevs)X:Boris Cherny (@bcherny)Hacker News 热门(buzzing.cc 中文翻译)X:洪明 (@hongming731)The Decoder:AI News(RSS)X:Thariq (@trq212)X:Claude (@claudeai)MarkTechPost(RSS)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)Anthropic 发布 Claude Opus 4.8,价格与 Claude Opus 4.7 持平。该模型核心改进是更诚实,能更真实地判断自身进度并承认不确定性,更适合长时间独立运行。同步推出 fast mode,在同一模型上实现约 2.5 倍速度提升且价格降低三倍。重要新功能是 Claude Code 的 dynamic workflows(动态工作流),它能将大型任务拆解,并行派出大量子智能体执行与验证,适用于跨文件的大规模代码任务。官方以用其将 Bun 从 Zig 移植到 Rust 作为案例。需注意,该功能消耗的 token 远多于普通会话。
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 12 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Claude Devs (@ClaudeDevs)X:Boris Cherny (@bcherny)Hacker News 热门(buzzing.cc 中文翻译)X:洪明 (@hongming731)The Decoder:AI News(RSS)X:Thariq (@trq212)X:Claude (@claudeai)MarkTechPost(RSS)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)Anthropic 为 Claude Code 新增“动态工作流”功能。面对复杂任务,Claude 能动态编写编排脚本,在单个会话中并行运行数十到数百个子智能体,并在结果呈现给用户前进行自我核查。该功能适用于传统单一智能体难以一次处理的挑战,例如整个服务的 bug 排查、涉及数百个文件的代码库迁移等场景。引用内容指出,Claude 会先制定计划,然后运行数百个并行子智能体并验证其工作。
Also new in Claude Code: dynamic workflows (research preview). For the hardest tasks, Claude makes a plan, runs hundreds...
Anthropic 正式发布了 Claude Opus 4.8 模型。该模型在人工智能分析公司的 GDPval-AA 基准(专注于智能体的现实工作任务)上,以“max”努力设置获得了 1890 分。这一成绩比前代 Opus 4.7 高出 137 分,并以 121 分的优势领先于次优模型 GPT-5.5 xhigh。在直接对比中,这意味着 Opus 4.8 对 GPT-5.5 xhigh 拥有约 67% 的胜率。Anthropic 在模型公开发布前,为人工智能分析公司提供了早期访问权限以进行评测。
关联讨论 12 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Claude Devs (@ClaudeDevs)X:Boris Cherny (@bcherny)Hacker News 热门(buzzing.cc 中文翻译)X:洪明 (@hongming731)The Decoder:AI News(RSS)X:Thariq (@trq212)X:Claude (@claudeai)MarkTechPost(RSS)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 12 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Claude Devs (@ClaudeDevs)X:Boris Cherny (@bcherny)Hacker News 热门(buzzing.cc 中文翻译)X:洪明 (@hongming731)The Decoder:AI News(RSS)X:Thariq (@trq212)X:Claude (@claudeai)MarkTechPost(RSS)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)提出了一种名为FluxMem的AI智能体记忆架构,其核心理念是将记忆视为一个持续演化的异构图拓扑。该框架通过三个并行阶段运行:初始连接形成、基于反馈的精炼,以及将反复成功的轨迹长期整合为可复用的程序性回路。执行过程中,它会修复缺失链接、剪枝干扰信息并调整抽象粒度。该方法在LoCoMo、Mind2Web和GAIA三个不同的记忆任务基准测试上均达到了SOTA水平。
Anthropic发布最佳实践指南,核心包括:控制图像分辨率以避免降采样导致坐标偏移,Claude 4.6系列推荐1280x720,Opus 4.7推荐1080p。构建API请求时,文本指令必须置于图片之前以提升准确性。每张截图消耗1000-1800 token,200k上下文窗口会较快用尽。文中指出:截图切块或画网格无益精度;开启Low thinking比不设更省token(因减少错误);而Max thinking在视觉任务中性价比低,Medium设置更优且更便宜。