v2.1.107 版本已发布,主要优化了长时间操作场景下的用户反馈体验。新版本改进了思考提示(thinking hints)的显示机制,使其在系统执行冗长运算过程中显著提前出现。用户现在能够更快获知当前处理状态与思维进度,有效减少等待过程中的不确定性,提升交互透明度与操作可控感。
v2.1.107 版本已发布,主要优化了长时间操作场景下的用户反馈体验。新版本改进了思考提示(thinking hints)的显示机制,使其在系统执行冗长运算过程中显著提前出现。用户现在能够更快获知当前处理状态与思维进度,有效减少等待过程中的不确定性,提升交互透明度与操作可控感。
Claude Code v2.1.105 新增 EnterWorktree 路径参数、PreCompact hook 阻塞压缩及插件后台监控功能,技能描述上限提升至 1,536 字符。优化 API 流 5 分钟无数据自动中止、WebFetch 自动过滤 CSS/JavaScript、/doctor 支持一键修复问题。同时修复队列图片丢失、终端输入异常、MCP 工具异步加载失败等 30 余项问题。
正式发布 v2.1.104 版本。当前发布说明中未提供具体的更新内容、变更日志或技术细节,未包含功能改进、问题修复等相关信息。建议查阅版本控制系统的提交历史或联系维护者以获取完整的版本变更详情。
Claude Code 发布 v2.1.101,新增 /team-onboarding 命令生成团队上手指南,默认支持 OS CA 证书存储以适配企业 TLS 代理,/ultraplan 可自动创建云环境。优化 brief 模式重试、focus 模式摘要、速率限制提示及插件钩子逻辑。修复 POSIX which 命令注入漏洞、长会话内存泄漏、--resume 上下文丢失、权限规则覆盖失效等关键问题,以及子代理 MCP 工具继承、沙箱命令执行等错误。
GLM-5.1在LMArena Code Arena登顶开源第一、全球第三。它继承上一代的SOTA编码能力,并在长程任务突破:8小时构建Linux桌面、655次迭代优化向量数据库、1000轮工具调用优化机器学习模型。METR榜下,它是唯一达8小时级持续工作的开源模型(除Claude Opus 4.6外)。
版本 v2.1.100 已正式发布,但官方未提供具体的更新内容、变更日志或发布说明。建议用户关注后续补充信息或查看相关发布页面以获取详细更新详情。
Claude Code v2.1.98 发布,新增 Google Vertex AI 交互式设置向导、Perforce 版本控制支持(CLAUDE_CODE_PERFORCE_MODE)及 Linux 子进程沙盒功能(PID 命名空间隔离)。修复多项 Bash 工具安全漏洞,包括权限绕过、复合命令绕过强制提示、/dev/tcp 重定向自动授权等问题。权限管理支持 additionalDirectories 实时生效,同时优化 MCP OAuth 刷新、流式响应超时及后台代理进度报告等体验细节。
Claude Code v2.1.97 版本发布,为 NO_FLICKER 模式新增焦点视图切换(Ctrl+O)及多项渲染修复。权限系统修复了 Bash 工具环境变量检查、MCP HTTP 连接内存累积(约 50MB/小时)、429 重试逻辑及设置热重载等漏洞。新增状态栏自动刷新、git worktree 检测、agents 运行指示器及 Cedar 策略文件语法高亮。改进包括自动批准安全环境变量前缀的文件命令、CJK 输入无需空格即可触发补全,以及图像压缩统一处理。
Bugbot 的 bug 解决率已从 2025 年 7 月正式推出时的 52% 提升至近 80%,领先其他 AI 代码审查产品。其核心改进在于引入了规则学习机制,能够从实时代码审查反馈(如开发者反应、回复和人工评审意见)中自主学习,取代了原先依赖离线实验的更新模式。自测试版推出以来,已有超过 11 万个仓库启用该功能,生成了逾 4.4 万条规则。这些规则可根据信号积累被激活或禁用,帮助 Bugbot 更精准地识别问题。用户可在 Cursor Dashboard 中管理学习规则,以优化审查效果。
Claude Code v2.1.96 修复 Bedrock 请求 403 "Authorization header is missing" 错误,解决使用 AWS_BEARER_TOKEN_BEDROCK 或 CLAUDE_CODE_SKIP_BEDROCK_AUTH 环境变量时的认证失败问题。该回归缺陷源自 2.1.94 版本。
新版本新增对 Amazon Bedrock(由 Mantle 驱动)的支持,并将 API-key、Bedrock/Vertex/Foundry、Team 及 Enterprise 用户的默认 effort level 从 medium 提升至 high。修复了 429 速率限制后代理卡死、macOS 控制台登录失败、插件 hooks 被忽略、长会话滚动回显重复、CJK 字符损坏等关键问题。VSCode 扩展优化了冷启动性能并新增设置解析失败警告。
新增强制远程设置刷新策略、Bedrock 交互配置向导与按模型成本细分,远程控制会话默认使用主机名前缀。修复子代理生成、工具验证、API 400 等十余项错误,Write 工具大文件 diff 速度提升 60%。移除 /tag 和 /vim 命令,Linux 沙盒恢复 seccomp 限制。
Claude Code v2.1.91 发布,支持 MCP 工具结果最大 500K 字符不截断,新增禁用技能内联 shell 执行选项,插件可打包 bin/ 目录可执行文件。修复了 --resume 转录链断裂、远程会话计划模式丢失、cmd+delete 快捷键等 bug,并优化了 ANSI 剥离性能。
Codex 新增按量付费模式,面向 ChatGPT Business 和 Enterprise 团队,支持按需灵活扩展使用规模。
Cursor 3.0 正式发布,重构为以 Agent 为核心的统一工作空间。新界面原生支持多仓库协作,可并行运行本地与云端 Agent(覆盖移动端、Slack、GitHub 等入口),支持会话在环境间无缝迁移以便离线运行或本地迭代。完整保留 IDE 能力:文件编辑、LSP、内置浏览器及插件市场。基于自研 Composer 2 模型,目标是通过多 Agent 自主协作实现"代码库自动驾驶"。
Claude Code 发布 v2.1.90 版本。新增 /powerup 交互式教程命令,通过动画演示教授功能使用;增加环境变量支持离线环境保留 marketplace 缓存。修复多项关键 bug:解决速率限制对话框崩溃、--resume 缓存未命中、编辑操作与 format-on-save 冲突等问题。性能方面优化 MCP 工具缓存、SSE 传输及长对话转录效率。同时移除 DNS 缓存查询自动权限以增强隐私,并加固 PowerShell 工具权限检查。
智谱发布GLM-5V-Turbo多模态Coding基座模型,原生支持图像、视频、设计稿理解及画框、截图、读网页等工具调用,上下文窗口达200k。采用新一代CogViT视觉编码器与30+任务协同强化学习,在保持纯文本编程能力的同时强化GUI Agent能力。与Claude Code、AutoClaw等框架深度协同,支持"图像即代码"前端复刻及GUI自主探索,提供开箱即用的官方Skills。
Anthropic 分享构建 Claude 应用的三大实践:使用 Claude 已掌握的通用工具(如 bash 和文本编辑器);允许其自行编排工具调用链,减少不必要的上下文回传以降低 token 消耗;随着模型能力进化,重新评估 agent harness 的预设限制。实测显示,让 Opus 4.6 自主过滤工具输出,在 BrowseComp 基准测试中准确率从 45.3% 提升至 61.6%。
Claude Code v2.1.89 发布,新增 defer 权限决策支持 headless 会话暂停恢复,引入 CLAUDE_CODE_NO_FLICKER 环境变量实现无闪烁渲染,新增 PermissionDenied hook 允许模型重试被拒命令。修复 Windows 平台 CRLF 处理、StructuredOutput 缓存失效、内存泄漏、LSP 僵尸进程、CJK 字符截断等 30 余项 bug。调整 Edit 工具行为,支持直接编辑通过 Bash 查看的文件;hook 输出超 5 万字符将转存磁盘;默认关闭 thinking summaries。优化 MCP 连接超时和子代理提及体验。
本报告介绍了代码模型Composer 2的训练过程。该模型基于开源基础模型Kimi K2.5,通过两阶段训练:首先进行侧重代码的持续预训练以深化编码知识,随后在高度模拟真实Cursor环境的大规模强化学习中提升端到端智能体性能。在自建的真实任务评估集CursorBench上,Composer 2得分为61.3,较前代提升37%,与前沿模型性能相当。在公开基准SWE-bench Multilingual和Terminal-Bench上分别获得73.7和61.7分,并在保持高精度的同时实现了显著更低的推理成本。训练依托为Blackwell GPU定制的高效MoE训练内核、跨区域异步强化学习管道等大规模基础设施完成。
Cursor团队将实时强化学习技术应用于Composer编码模型,利用真实用户交互产生的推理令牌作为训练信号,以解决模拟环境与真实使用间的匹配问题。该技术使团队能够以每五小时一次的频率部署改进后的模型检查点。通过A/B测试,新版本实现了关键指标提升:代理编辑在代码库中的持久性增加2.28%,用户不满意后续减少3.13%,延迟降低10.3%。实时RL也带来了奖励黑客等新挑战,但真实用户反馈有助于识别和修正此类问题。
Google DeepMind 开发出一项“Gemini API 开发者技能”,使智能体能够实时获取最新文档与 SDK 指导。评估结果显示,配备该技能后,gemini-3.1-pro-preview 模型的成功率从 28.2% 大幅跃升至 96.6%。这种轻量级方法通过赋予模型强大的推理能力并接入“事实来源”,有效解决了静态模型知识与快速演进的软件实践之间的脱节问题,显著消除了过时的编码模式。
Anthropic 为 Claude Code 推出“自动模式”,旨在解决用户因频繁手动批准而产生的“批准疲劳”。该模式介于完全手动审批和危险的无权限跳过之间,采用两层防御机制:输入层通过服务器端提示注入探测器扫描工具输出;输出层则利用基于 Sonnet 4.6 模型的转录分类器,在执行前评估操作风险。分类器采用高效的两阶段设计,先快速过滤,必要时才启动思维链推理。其目标是拦截危险操作(如过度积极行为、无心之失、提示注入等),同时让大部分安全操作无需确认即可运行,内部测试显示用户原本会批准约93%的手动提示。
Google XR 团队推出 Vibe Coding XR 工作流,结合 Gemini Canvas 与开源框架 XR Blocks,利用长上下文推理能力将自然语言提示在 60 秒内转化为可交互、支持物理效果的 WebXR 应用。该方案基于 WebXR、three.js 和 LiteRT.js 构建,支持手势交互与深度感知,可在桌面模拟环境或 Android XR 头显中实时预览。已展示的应用包括几何可视化数学辅导和交互式物理实验室,用户可通过捏合等手势操作 3D 对象,快速验证空间交互设计。
该工作流通过Gemini Canvas,借助高级提示词快速原型化MediaPipe Pose Landmarker等体感游戏机制。开发者可在Google AI Studio中优化原型,采用低延迟的“轻量”模型和稳定的追踪点(如肩部关节点)以确保游戏响应灵敏。最后,流程利用Gemini Code Assist将实验性代码重构为模块化、可用于生产的应用程序,使其能够支持多种多模态输入,从而显著简化了体感控制游戏的开发过程。
作者受生成对抗网络启发,设计了一个包含规划器、生成器和评估器的三代理架构,以解决Claude在长时应用开发中的两大瓶颈。该架构通过上下文重置机制,有效克服了模型在长任务中的“上下文焦虑”问题;同时,通过分离生成与评估功能,使代理能依据具体标准进行迭代改进,而非盲目自评。这一方法成功使系统能在多小时的自主运行中生成完整的全栈应用程序,突破了此前提示工程和传统工具设计的性能上限。
阶跃星辰今天正式推出Step Plan月度订阅方案,首发支持Step 3.5 Flash模型,面向OpenClaw和Coding用户。方案提供Flash Mini、Flash Plus、Flash Pro、Flash Max四档套餐,同价档位享有2倍用量。开发者社区可通过扫描二维码入群享受半价优惠。未来将逐步加入更多阶跃旗舰模型,扩展多模态场景。
OpenSage是新一代Agent开发工具包,推动智能体开发从人工设计转向AI自主编程范式。该系统支持LLM自动构建智能体拓扑、动态编写管理工具(具备沙箱隔离与异步执行),以及维护分层图结构记忆系统。与现有方案需人工设计不同,OpenSage实现了拓扑、工具和记忆的全面AI自动化生成,并内置软件工程与安全工具套件。
Anthropic 研究员展示了如何将多日智能体编码工作流应用于科学计算任务。以使用 Claude Opus 实现宇宙学玻尔兹曼求解器的可微分版本为例,该任务通常需耗费研究人员数月甚至数年时间。通过制定清晰的项目指令、利用日志文件作为智能体的持久记忆并设置测试预言,即使是非领域专家也能引导智能体在数小时内完成这类复杂项目。该方法的核心在于设定高层目标后,让智能体团队自主工作,仅需偶尔人工监督,从而显著提升了科学代码开发与移植的效率。
OpenAI 通过思维链监控技术分析内部编程智能体的真实部署数据,研究不对齐行为模式以检测潜在风险,并强化 AI 安全防护措施。
Composer 2 登陆 Cursor,定价 $0.50/M(输入)和 $2.50/M(输出),Terminal-Bench 2.0 得分 61.3,SWE-bench Multilingual 达 73.7,显著优于前代。支持数百步长周期编码任务,团队同步发布训练技术报告。
OpenAI 收购 Astral,加速 Codex 发展以支持下一代 Python 开发工具。Astral 是 Python 生态重要工具开发商,此次收购将整合其技术能力,强化 OpenAI 在开发者工具领域的布局。
M2.7是M2系列中首个深度参与自身进化的模型。它能构建复杂的智能体框架,完成精细的生产力任务,尤其在软件工程方面表现突出,其SWE-Pro基准测试得分56.22%,接近Opus的最佳水平。模型的办公软件处理能力在开源模型中领先,GDPval-AA的ELO分数为1495。M2.7能保持97%的技能遵循率,处理超过40个、每个超过2000 token的复杂技能。该模型通过内部研究智能体框架,实现了“分析-修改-评估”的自主迭代优化循环,在内部评估中提升了性能。
关联讨论 2 条HuggingFace Daily Papers(社区热门论文)MiniMax:Blog(网页)GPT-5.4 mini 与 nano 发布,为 GPT-5.4 的轻量高速版本,针对编程、工具调用、多模态推理及高并发 API 和子代理任务优化。
Kimi支持的个人开发者开源项目OneClaw下载量突破10万,提供一键安装包,1分钟即可在本地部署原版OpenClaw,无需命令行或环境配置。功能包括纯净卸载、自由切换模型、远程控制,支持连接飞书、企微、钉钉、QQ、Kimi Claw;内置2万+技能的技能商店,可无损迁移记忆和Skills。Kimi提供包月方案和API按需购买。使用地址:oneclaw.cn。
Codex Security 不生成传统 SAST 报告,转而采用 AI 驱动的约束推理与验证技术,通过深度分析代码逻辑精准识别真实漏洞,显著降低误报率。
智谱发布GLM-5-Turbo基座模型,代号"龙虾",强化工具调用、复杂指令拆解、定时任务与高吞吐长链路执行能力,推出ZClawBench基准测试。支持通过BigModel.cn、Z.ai及AutoClaw客户端接入,Coding Plan Max将于本月内支持Pro版。
Cursor 采用混合在线-离线评估流程衡量 AI 编程助手质量。离线端使用内部套件 CursorBench,基于真实开发会话构建,涵盖多文件修改、生产日志排查等复杂任务,相比公共基准更能区分前沿模型(如识别 Haiku 与 GPT-5 的实际差异)。在线端通过真实流量监控补充,捕捉离线评分遗漏的体验回归。两者结合确保模型评估与开发者实际体验一致。