Claude Code v2.1.165 版本已推送,本次更新主要包含错误修复(bug fixes)和可靠性改进(reliability improvements),旨在提升系统稳定性。
Claude Code v2.1.165 版本已推送,本次更新主要包含错误修复(bug fixes)和可靠性改进(reliability improvements),旨在提升系统稳定性。
Anthropic发布最新博客后,推特圈热议不断。Gary Marcus在其博客中直接以“无需恐慌”为题发文,暗示不必过度反应。
OpenRouter 用总价 482 美元的推理花费,让 11 款大语言模型在 30 轮实时决策的“大逃杀”挑战中正面竞争。实验结果表明,传统的静态 benchmark 排名无法反映模型在需要即时反应的智能体任务(如自主控制机器人)中的真实表现,Claude 和 Grok 系列模型在决策速度与任务成功率上表现突出,而多项高分模型的实时调度能力未达预期。
关联讨论 1 条OpenRouter:Announcements(RSS)新增 requiredMinimumVersion 和 requiredMaximumVersion 托管设置,版本超范围时拒绝启动并引导用户使用经批准版本。新增 /plugin list 命令及 --enabled/--disabled 筛选;/btw 添加 "c to copy" 快捷键,复制原始 markdown 答案到剪贴板。Hooks 方面,Stop 和 SubagentStop 可返回 additionalContext 给 Claude 反馈并保持对话。Skills 新增 \$ 转义语法,支持在命令中数字前使用字面 $。stdio MCP 服务器在 --resume 时接收与 hooks/Bash 相同的 CLAUDE_CODE_SESSION_ID。修复了 claude -p 永久挂起、$TMPDIR 被覆盖、Windows 上 session-env 目录 EEXIST 错误、后台 agent 会话在更新后自动升级等多处问题。
Ethan Mollick 在 One Useful Thing 博客中,以“共存与协同智能的终结”为题,并附带介绍了如何向 AI 推销一本书。
Anthropic研究院报告指出,AI正加速AI开发:2021–2025年间工程师人均季度代码量提升8倍,截至2026年5月超80%合并代码由Claude生成。Claude Opus 3(2024年3月)可完成约4分钟软件任务,Claude Sonnet 3.7(2025年3月)提升至1.5小时,Claude Opus 4.6(2026年3月)可处理12小时任务。SWE-bench两年内从低个位数得分饱和;CORE-Bench约20%正确率在15个月后饱和。METR测试显示Claude Mythos Preview可连续工作至少16小时。但AI自主设定目标的能力仍存显著差距,完全自主递归自我改进尚未实现。
关联讨论 12 条X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)X:卡兹克 (@Khazix0918)X:Rohan Paul (@rohanpaul_ai)X:Anthropic (@AnthropicAI)X:Emad Mostaque (@EMostaque)X:小互 (@xiaohu)公众号:数字生命卡兹克The Decoder:AI News(RSS)X:Ethan Mollick (@emollick)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Research(发表成果 · 网页)OpenRouter 在 30 场机器人冲刺对决中测试了 11 款大语言模型,共耗 482 美元推理成本。结果指向一个发现:应该重新审视模型 benchmark 的解读方式。
同一事件,精选展示《OpenRouter 翻遍 11 款 LLM 找最快的决策模型:Claude vs. Grok 领衔》Claude Code v2.1.162 发布,主要包含 Bug 修复和体验优化。claude agents --json 新增 waitingFor 字段,/effort 命令确认级别持久化,远程控制固定底部显示,/ide 菜单中 Windsurf 更名为 Devin Desktop。修复了配置文件只读导致启动黑屏、Windows 权限规则不匹配、LSP 的 workspaceSymbol 无结果、API 400 错误、MCP 超时低于 1000ms 被截断等十余项问题。
Anthropic 增长营销负责人 Austin Lau 介绍了非技术知识工作者使用 Claude Cowork 的最佳实践。Claude Cowork 是面向文档、电子表格等多步骤任务的 AI 助手,用户无需编程技能,将其指向文件夹或连接已有应用即可委托任务。与用于快速问答和头脑风暴的 Chat 以及面向开发者的 Claude Code 不同,Claude Cowork 适用于需要产出交付物、涉及多个文件或应用、可重复执行的场景。Lau 给出了判断任务是否适合的五项检查清单,并预告将于6月4日分享具体营销用例。
关联讨论 1 条Claude:Blog(网页)Anthropic 分享了内部使用 Claude Code 的 Skills(技能)功能的经验。Skills 是指令、脚本和资源的文件夹,智能体可发现并调用它们以提升准确性和效率。Anthropic 内部已有数百个活跃使用的技能,它们可归为九类,包括库和 API 参考、产品验证、数据获取与分析、业务流程与团队自动化、代码脚手架与模板、代码质量与审查等。最佳技能专注于单一类别,涵盖过多功能会混淆智能体。团队发现,投入时间优化验证类技能对 Claude 输出质量的提升最显著。
Anthropic 使用 Claude 自动化了 95% 的业务分析查询,整体准确率约 95%。其关键在于构建智能体分析栈(agentic analytics stack),通过数据基础层、维护验证流程和技能(skills)分别解决概念-实体歧义、数据过时和检索失败三大错误来源。相比编码场景,数据分析的难点在于将用户问题映射到正确的数据实体,而执行 SQL 反而是简单的。Anthropic 的数据科学团队因此得以专注于因果建模、预测和机器学习等战略工作。
关联讨论 1 条X:Claude Devs (@ClaudeDevs)Anthropic 扩展 Claude Partner Network,推出 Services Track 分级体系和 Partner Hub 门户。Services Track 设 Select、Preferred、Global Premier 三级,按认证人数、投产客户数及客户推荐信量化评定。Partner Hub 提供每日更新仪表盘和公开目录,方便合作伙伴查看进展、客户寻找供应商。该网络三月启动以来已有超 4 万家公司申请,逾 1 万顾问获认证;Accenture 训练 3 万人,Cognizant 部署约 35 万员工,Deloitte 惠及 47 万人,KPMG 覆盖 27.6 万,Infosys 构建行业智能体,PwC 先在美推广再扩至全球。
Anthropic分析了2025年3月至2026年3月间因恶意网络活动被封禁的832个账号,映射至MITRE ATT&CK框架。67.3%的账号使用AI编写恶意软件,6.5%用于横向移动。攻击者中高风险比例从上半年的33%升至下半年的56%。AI使用从初始访问转向后期活动,账户发现增长8.9%,AI辅助钓鱼下降8.6%。攻击者技能与使用技术数量无显著关联(最低技能者平均16种,最高约20种),所用平台也与风险等级不相关。更高风险攻击者将AI集中于操作密集型技术,并构建允许模型自动链式执行攻击步骤的脚手架。MITRE ATT&CK框架未收录AI自主编排攻击链等行为。
Anthropic 分析 2025 年 3 月至 2026 年 3 月间 832 个被封禁的恶意账户,映射至 MITRE ATT&CK 框架。67.3% 使用 AI 编写恶意软件,6.5% 用于横向移动。六个月间中高风险攻击者占比从 33% 升至 56%。AI 用于账户发现增长 8.9%,AI 辅助钓鱼下降 8.6%。传统基于技术数量或平台(Claude Code、API、聊天界面)的威胁评估失效,而 MITRE ATT&CK 框架尚未收录此类智能体编排行为。
同一事件,精选展示《AI驱动的网络威胁映射:LLM ATT&CK Navigator的洞察》Claude Code v2.1.161 发布了多项功能改进与问题修复。功能方面,现在可将 OTEL_RESOURCE_ATTRIBUTES 的值作为指标数据点的标签,支持按团队或代码库等维度查看使用情况;claude agents 命令在分发任务时会显示“已完成/总数”;/mcp 改进了连接器列表的展示;并行工具调用时,单个 Bash 命令的失败不再取消同批次的其他调用;全屏模式在 Linux 上优化了剪贴板支持。本次更新还修复了包括管理策略阻止第三方会话、后台子智能体输出损坏以及终端渲染性能在内的多个问题。
Claude Code 新增动态工作流功能,允许模型在运行时即兴创建和协调多智能体框架来处理复杂任务。该功能通过执行特定的 JavaScript 文件来生成和协调拥有独立上下文窗口的子代理,可解决单一上下文窗口中长时间执行任务可能出现的智能惰性等问题。工作流适用于研究、安全分析、代码审查等场景,通常消耗更多 token,更适合高价值复杂任务,其最佳实践仍在发展中。
同一事件,精选展示《在Claude Code中引入动态工作流》在Code w/ Claude SF 2026活动上,Claude Code工程团队分享了将智能体编程设为默认工作方式后带来的流程与结构变革。核心变化包括:规划转向即时(JIT)模式,强调快速原型与反馈;上下文收集变为“先问Claude”;代码审查中Claude处理风格与测试,人工专注于法律、安全等专业判断。新范式下,工程瓶颈从编写代码转向验证、审查与安全维护。
关联讨论 2 条公众号:数字生命卡兹克X:邵猛 (@shao__meng)知名人工智能批评者Gary Marcus在其关于可信赖AI的专栏中,探讨了人工智能发展面临的根本性挑战。文章开篇即指向问题的核心,指出相关数学理论的局限性与人类心理的复杂性,是导致AI系统最终可能出现问题的根源。
Anthropic分析了832个因违反政策被封禁的恶意账户(2025年3月至2026年3月),将其活动映射到MITRE ATT&CK框架的全部14种战术和482种子技术。风险评分显示,中等及以上风险行为者比例从上半年的33%跃升至下半年的56%,增长集中在横向移动、凭证窃取、webshell等高危技术。Agentic scaffolding使攻击链实现自主编排——2025年11月一次间谍活动风险评分达100,所用技术数量却与中等风险者相当。MITRE ATT&CK框架尚未覆盖这种自主攻击。该报告与Verizon合作,已纳入2026年数据泄露调查报告;Anthropic据此更新了Claude的检测分类器以拦截高风险行为。
Anthropic正将其Project Glasswing计划扩展至约150个新组织,此前首批约50个合作伙伴。新伙伴分布于十五个多国家,覆盖电力、水务、医疗、通信和硬件等关键基础设施行业。这些合作伙伴的共同点在于,其代码库若遭成功攻击,后果可能极其严重,影响或超1亿人。项目旨在利用Claude Mythos Preview等前沿模型扫描漏洞并协助修复,以应对AI驱动的网络安全挑战。同时,Anthropic推出了基于Claude Opus 4.8等公开模型的Claude Security产品,用于扫描代码并建议补丁。
同一事件,精选展示《Project Glasswing:初步更新》Anthropic可解释性团队介绍了其Circuits研究的新进展。为区分那些激活模式相似但因果效应不同的模型特征,团队提出一种新方法。该方法通过分析特征的下游连接来预测其实际影响,并使用基于共激活统计的TWERA(虚拟权重)对连接进行加权排序。实验表明,借助下游连接信息能更准确地判断哪个特征会引导特定输出。此方法为识别模型内部真正的因果组件提供了新途径。
Claude Code v2.1.160版本主要增强安全性和稳定性。新版本在向shell启动文件和.git/config等文件写入内容前增加提示,防止意外命令执行;acceptEdits模式在写入.npmrc等构建配置文件前也会提示。此次更新修复了多个问题,包括Windows/WSL剪贴板、会话恢复、后台会话连接等,并优化了自动模式延迟和后台清理流程。此外移除了JetBrains插件建议,将动态工作流触发词从workflow重命名为ultracode。
Anthropic, PBC 今日保密向美国证券交易委员会提交了 S-1 表格草案,计划进行普通股的首次公开发行。这使其在 SEC 完成审核后拥有上市的选择权。IPO 的具体发行股数和价格尚未确定,将取决于市场条件等因素。公司近期刚完成由 Altimeter Capital 等领投的 650 亿美元 H 轮融资,估值达 9650 亿美元,并发布了 Claude Opus 4.8 模型。
同一事件,精选展示《Anthropic 完成 650 亿美元 H 轮融资,估值达 9650 亿美元》当模型智能的微小提升能直接转化为实际价值时,开源与闭源模型正沿着不同的增长路径发展。闭源模型通过在特定场景下提供更高的边际智能来创造价值,而开源模型则在其他维度寻找增长点,两者形成了差异化的竞争格局。
v2.1.159 版本更新包含内部基础设施改进,未引入任何面向用户的功能变更。此次更新预计不会影响现有功能或用户接口。
Anthropic CEO Dario Amodei 发表博客指出,AI 以指数级速度发展——四年内模型从勉强写出一行连贯代码到编写主流 AI 公司的大部分代码,而政策制定周期却极其缓慢。Claude Mythos Preview 证明了前沿模型对网络安全构成真实威胁,可能冲击金融、关键基础设施和国家安全。Amodei 认为生物风险与 AI 自主风险即将接踵而至,呼吁全球重新审视监管、宏观经济、科学创新、国家权力和地缘政治五大领域。Anthropic 同日发布了前沿模型测试立法提案和就业替代政策框架,并承诺提供实质性资金支持。
同一事件,精选展示《Anthropic CEO Dario Amodei 发文呼吁缩小AI政策差距》Claude Code 发布 v2.1.158 更新,将 Auto mode 的可用范围扩展至 Bedrock、Vertex 和 Foundry 平台,支持 Claude Opus 4.7 和 Opus 4.8 模型。用户可通过设置环境变量 CLAUDE_CODE_ENABLE_AUTO_MODE=1 来启用该功能。
此版本主要改进了插件系统,现可自动加载 .claude/skills 目录中的插件,并通过 claude plugin init 创建;/plugin 命令增加了自动补全。claude agents 现在会应用 settings.json 中的 agent 字段,并支持 --agent 参数覆盖。更新修复了多个具体问题,包括处理不可用图片导致的崩溃、在 tmux 中的剪贴板复制失效(2.1.153 回归)、后台会话恢复后日期不正确等。此外,优化了长对话及恢复对话的性能,并改进了在 VS Code、Cursor 和 Windsurf 等 IDE 中的体验。
v2.1.156 版本修复了一个问题,该问题在使用 Claude Opus 4.8 模型时,会导致 thinking blocks(思考过程块)被意外修改,从而引发 API 调用错误。
Claude Code 更新至 v2.1.154 版本,正式引入 Opus 4.8 模型。新功能包括“动态工作流”,可通过 /workflows 指令让 Claude 在后台编排数十到数百个 AI 智能体协同处理复杂任务。Opus 4.8 的快速模式现已可用,成本降低为 2 倍标准费率可实现 2.5 倍速度提升。其他更新有:精简系统提示词成为默认设置(除 Haiku、Sonnet 及 Opus 4.7 及更早版本外),优化多选题决策逻辑,简化 /simplify 命令。此次更新修复了包括后台会话管理、终端渲染在内的多个 bug,并增强了自动模式对数据外泄的检测能力。
Anthropic 宣布完成由 Altimeter Capital 等领投的 650 亿美元 H 轮融资,投后估值达 9650 亿美元。公司表示其旗舰模型 Claude 的企业部署持续增长,年化收入已突破 470 亿美元。此轮融资将用于推进 AI 安全与可解释性研究、扩展算力以满足 Claude 的需求,并规模化产品与合作伙伴关系。Anthropic 近期已显著扩大计算容量,并宣布 Claude 已登陆 AWS、Google Cloud 和 Microsoft Azure 三大云平台。
关联讨论 13 条Artificial Intelligence News(RSS)TechCrunch:AI(RSS)X:小互 (@xiaohu)Hacker News 热门(buzzing.cc 中文翻译)X:Kim (@kimmonismus)X:Anthropic (@AnthropicAI)X:阿易 AI Notes (@AYi_AInotes)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)The Verge:AI(RSS)The Decoder:AI News(RSS)X:Testing Catalog (@testingcatalog)X:洪明 (@hongming731)Claude Code 推出“动态工作流”功能,使 Claude 能端到端处理复杂任务。该功能通过动态编写脚本,在单个会话中并行运行数十到数百个子智能体来完成工作,并会在结果呈现前进行验证。它适用于跨代码库的 bug 查找、大规模迁移(如将 Bun 从 Zig 移植到 Rust)等需要多角度分析的任务。该功能现已在研究预览阶段可用,支持 Claude Code CLI、桌面端、VS Code 扩展以及 API、Amazon Bedrock、Vertex AI 等平台,面向 Max、Team 及已启用的 Enterprise 计划用户。
关联讨论 3 条X:邵猛 (@shao__meng)X:Claude Devs (@ClaudeDevs)X:Thariq (@trq212)Anthropic 发布了新一代模型 Claude Opus 4.8,作为 Opus 4.7 的升级版本,其在编码、智能体技能、推理和实用知识工作等各项基准测试中均取得进步。Claude Opus 4.8 现已可用,价格与前代相同。同步推出的新功能包括:用户可控制任务投入程度、Claude Code 新增“动态工作流”特性,以及 Opus 4.8 的 2.5 倍速模式价格降低为以往的三分之一。早期测试者反馈其在智能体任务中的判断力更可靠、工具调用更高效。该模型在 Online-Mind2Web 测评中得分 84%,超越了 Opus 4.7 和 GPT-5.5。此外,其诚实度与对齐表现也得到提升,代码错误漏检率降低了约 75%。
关联讨论 16 条TechCrunch:AI(RSS)X:Claude Devs (@ClaudeDevs)X:Boris Cherny (@bcherny)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)X:洪明 (@hongming731)The Decoder:AI News(RSS)X:OpenRouter (@OpenRouter)X:Thariq (@trq212)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Rohan Paul (@rohanpaul_ai)MarkTechPost(RSS)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)X:宝玉 (@dotey)Anthropic 在米兰开设其欧洲第六家办公室,旨在与意大利企业及开发者社区合作,负责任地构建和扩展 Claude,并参与关于 AI 的对话。本地团队已与多家金融、生命科学、能源及汽车行业的公司展开合作。案例包括与 JAKALA 合作将 Claude 部署至超 3,000 席位,释放约 70% 高级团队时间;Satispay 借此将 18 个月路线图压缩至 7 个月;Bending Spoons 的大部分代码变更已与 Claude Code 共同完成。Anthropic 承诺支持意大利企业、研究及文化,通过安全的 AI 转型促进发展。
Claude Code 发布 v2.1.153 版本。主要新增 skipLfs 选项以跳过 Git LFS 下载;优化了 claude agents 的自动补全建议和 PR 列显示格式。本次更新修复了大量问题,包括:MCP 服务器的连接与重连、子代理的配置策略与严格模式行为、后台会话的管理与权限提示(如恢复、输入响应、临时文件处理),以及跨 macOS/Windows/VSCode 平台的稳定性。此外,还修复了 Windows 更新回滚、内存占用、会话恢复等多个具体问题。/model 命令现在会将选择设为新会话的默认模型。
一项针对1260名定量社会科学家的调查显示,虽然81%的受访者用过AI聊天机器人,但仅有20%将Claude Code、Codex等编码智能体常规应用于工作。采用率存在显著差异:以男性名字命名的研究者使用率是女性研究者的两倍;顶尖大学研究者可能性高出40%。用户产出更多工作论文和基金申请,但这可能反映早期采用者自身差异。研究者对AI助力撰写可发表论文更乐观,但对重塑整个社会科学领域持保留态度。这是一项初步调查,更深入研究仍在进行中。
本文分享了使用 Claude Opus 构建威胁模型、发现代码漏洞并进行验证、分类和修复的最佳实践。其核心流程是一个六步循环:威胁建模、沙箱隔离、漏洞发现、验证、分类和修复。作者指出,漏洞发现现在易于并行化,瓶颈已转移到后续的验证与处理阶段。以他们对开源软件的扫描为例,截至2026年5月22日已披露1,596个漏洞,其中97个已修补。指南建议结合代码库文档和专家访谈来构建准确的威胁模型,以降低误报,提升发现的可利用性。
同一事件,精选展示《合作伙伴如何运用Opus强化网络安全》Anthropic 发布了针对企业部署自主 AI 智能体的安全框架,指出前沿大语言模型正将漏洞利用周期从数月压缩至数小时。部署智能体面临双重风险:基础设施易受 AI 加速攻击,且智能体自身具备自主决策与执行能力。文章提出一个三层零信任架构(基础、高级、优化级)及八阶段实施流程,并概述了提示注入、工具投毒、记忆投毒等特有威胁。
AI代码审查平台CodeRabbit发现,AI生成的代码常能通过编译与测试,却不符合开发者真实意图,根源在于开发者隐含假设AI理解上下文。为此,团队基于Claude构建了一个智能体编排系统,置于编码请求与智能体之间。该系统在代码生成前协调多个Claude模型进行结构化规划,输出可审查的产品需求文档,使需求显式化。系统每周助力审查超过200万个PR。
Claude Code 发布 v2.1.152 版本更新。核心改进包括:/code-review --fix 现在会将审查建议直接应用于工作目录;技能与斜杠命令支持通过 frontmatter 的 disallowed-tools 移除模型工具;新增 /reload-skills 命令可不重启会话重新扫描技能目录;SessionStart 钩子现可返回 reloadSkills: true 重新扫描技能,并可通过 hookSpecificOutput.sessionTitle 设置会话标题;新增 MessageDisplay 钩子事件以变换或隐藏助手消息。其他更新涉及插件市场管理、主模型不可用时自动切换至 --fallback-model、会话用量统计优化等。同时修复了终端样式退化、沙箱警告显示、思考摘要、MCP 服务器去重、远程会话连接及多种会话卡顿问题。