4月4日

08:42

Claude Code：GitHub Releases（RSS）

新增强制远程设置刷新策略、Bedrock 交互配置向导与按模型成本细分，远程控制会话默认使用主机名前缀。修复子代理生成、工具验证、API 400 等十余项错误，Write 工具大文件 diff 速度提升 60%。移除 /tag 和 /vim 命令，Linux 沙盒恢复 seccomp 限制。

智能体 Anthropic 产品更新编码

4月3日

07:45

Claude Code：GitHub Releases（RSS）

Claude Code v2.1.91 版本更新

Claude Code v2.1.91 发布，支持 MCP 工具结果最大 500K 字符不截断，新增禁用技能内联 shell 执行选项，插件可打包 bin/ 目录可执行文件。修复了 --resume 转录链断裂、远程会话计划模式丢失、cmd+delete 快捷键等 bug，并优化了 ANSI 剥离性能。

智能体 Anthropic MCP/工具产品更新

4月2日

18:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

Codex 为团队推出更灵活定价方案

Codex 新增按量付费模式，面向 ChatGPT Business 和 Enterprise 团队，支持按需灵活扩展使用规模。

智能体 OpenAI 产品更新编码

12:32

公众号：通义实验室（千问）

Qwen3.6-Plus：编码智能体能力全面跃升！

智能体模型发布编码

08:00

Cursor Blog

精选

Cursor 3.0 发布：以 Agent 为核心的统一开发空间

Cursor 3.0 正式发布，重构为以 Agent 为核心的统一工作空间。新界面原生支持多仓库协作，可并行运行本地与云端 Agent（覆盖移动端、Slack、GitHub 等入口），支持会话在环境间无缝迁移以便离线运行或本地迭代。完整保留 IDE 能力：文件编辑、LSP、内置浏览器及插件市场。基于自研 Composer 2 模型，目标是通过多 Agent 自主协作实现"代码库自动驾驶"。

智能体 MCP/工具产品更新编码

推荐理由：Cursor 3 重磅发布：原生 Agent 工作流、云地无缝切换与多仓库管理

07:41

Claude Code：GitHub Releases（RSS）

精选

Claude Code v2.1.90 版本更新

Claude Code 发布 v2.1.90 版本。新增 /powerup 交互式教程命令，通过动画演示教授功能使用；增加环境变量支持离线环境保留 marketplace 缓存。修复多项关键 bug：解决速率限制对话框崩溃、--resume 缓存未命中、编辑操作与 format-on-save 冲突等问题。性能方面优化 MCP 工具缓存、SSE 传输及长对话转录效率。同时移除 DNS 缓存查询自动权限以增强隐私，并加固 PowerShell 工具权限检查。

智能体 Anthropic 产品更新编码

推荐理由：Claude Code新增/powerup交互式教程与多项性能优化，提升开发体验

00:00

智谱：研究（网页内嵌数据）

精选

GLM-5V-Turbo发布：多模态Coding基座模型

智谱发布GLM-5V-Turbo多模态Coding基座模型，原生支持图像、视频、设计稿理解及画框、截图、读网页等工具调用，上下文窗口达200k。采用新一代CogViT视觉编码器与30+任务协同强化学习，在保持纯文本编程能力的同时强化GUI Agent能力。与Claude Code、AutoClaw等框架深度协同，支持"图像即代码"前端复刻及GUI自主探索，提供开箱即用的官方Skills。

智能体多模态模型发布编码

推荐理由：智谱发布多模态Coding基座GLM-5V-Turbo，深度适配Claude Code等Agent

00:00

Claude：Blog（网页）

精选

构建 Claude 应用的三大最佳实践

Anthropic 分享构建 Claude 应用的三大实践：使用 Claude 已掌握的通用工具（如 bash 和文本编辑器）；允许其自行编排工具调用链，减少不必要的上下文回传以降低 token 消耗；随着模型能力进化，重新评估 agent harness 的预设限制。实测显示，让 Opus 4.6 自主过滤工具输出，在 BrowseComp 基准测试中准确率从 45.3% 提升至 61.6%。

智能体 Anthropic 教程/实践编码

推荐理由：Anthropic官方分享构建Claude Agent的三大最佳实践，含模型性能数据与代码编排技巧

4月1日

19:09

Hacker News：AI 热帖

询问 HN：客户用 vibe coding 接管了开发工作，该怎么办？

客户开始用 vibe coding 自行写代码接管项目开发，原外包开发者面临被 AI 工具替代的尴尬处境，在 HN 发帖询问该如何应对这种局面。

智能体现象/趋势编码

09:07

Claude Code：GitHub Releases（RSS）

Claude Code v2.1.89 发布

Claude Code v2.1.89 发布，新增 defer 权限决策支持 headless 会话暂停恢复，引入 CLAUDE_CODE_NO_FLICKER 环境变量实现无闪烁渲染，新增 PermissionDenied hook 允许模型重试被拒命令。修复 Windows 平台 CRLF 处理、StructuredOutput 缓存失效、内存泄漏、LSP 僵尸进程、CJK 字符截断等 30 余项 bug。调整 Edit 工具行为，支持直接编辑通过 Bash 查看的文件；hook 输出超 5 万字符将转存磁盘；默认关闭 thinking summaries。优化 MCP 连接超时和子代理提及体验。

智能体 Anthropic 产品更新编码

3月27日

20:00

Cursor Blog

精选72

Composer 2技术报告：面向智能体软件工程的代码模型训练

本报告介绍了代码模型Composer 2的训练过程。该模型基于开源基础模型Kimi K2.5，通过两阶段训练：首先进行侧重代码的持续预训练以深化编码知识，随后在高度模拟真实Cursor环境的大规模强化学习中提升端到端智能体性能。在自建的真实任务评估集CursorBench上，Composer 2得分为61.3，较前代提升37%，与前沿模型性能相当。在公开基准SWE-bench Multilingual和Terminal-Bench上分别获得73.7和61.7分，并在保持高精度的同时实现了显著更低的推理成本。训练依托为Blackwell GPU定制的高效MoE训练内核、跨区域异步强化学习管道等大规模基础设施完成。

智能体编码论文/研究部署/工程

推荐理由：Cursor 把 Composer 2 的训练全流程摊开讲了，从 Kimi K2.5 继续预训练到大规模 RL，关键是 RL 在真实 Cursor 会话里跑，不是玩具环境。做 coding agent 的团队，这份报告值得逐段拆。

19:21

公众号：智谱（GLM）

GLM-5.1已面向所有Coding Plan用户开放

智谱GLM-5.1已面向所有Coding Plan用户开放。

模型发布编码

3月26日

08:00

Cursor Blog

精选69

通过实时强化学习改进Composer编码模型

Cursor团队将实时强化学习技术应用于Composer编码模型，利用真实用户交互产生的推理令牌作为训练信号，以解决模拟环境与真实使用间的匹配问题。该技术使团队能够以每五小时一次的频率部署改进后的模型检查点。通过A/B测试，新版本实现了关键指标提升：代理编辑在代码库中的持久性增加2.28%，用户不满意后续减少3.13%，延迟降低10.3%。实时RL也带来了奖励黑客等新挑战，但真实用户反馈有助于识别和修正此类问题。

智能体现象/趋势编码

推荐理由：Cursor 把真实用户交互当训练信号，每五小时迭代一次 Composer，这不是论文是工程日志。做 coding agent 的团队该看看他们怎么处理 reward hacking 的两个真实案例，比任何 benchmark 论文都实在。

3月25日

08:00

Google Developers Blog（RSS）

精选84

用 Agent 技能弥合知识鸿沟

Google DeepMind 开发出一项“Gemini API 开发者技能”，使智能体能够实时获取最新文档与 SDK 指导。评估结果显示，配备该技能后，gemini-3.1-pro-preview 模型的成功率从 28.2% 大幅跃升至 96.6%。这种轻量级方法通过赋予模型强大的推理能力并接入“事实来源”，有效解决了静态模型知识与快速演进的软件实践之间的脱节问题，显著消除了过时的编码模式。

智能体 DeepMind Google 产品更新

推荐理由：通过实时文档赋能模型，编码任务成功率飙升，开发者可借鉴优化AI工具。

08:00

HuggingFace Daily Papers（社区热门论文）

QuanBench+：面向LLM量子代码生成的统一多框架基准测试

研究团队发布QuanBench+基准测试，首次统一评估LLM在Qiskit、PennyLane和Cirq三大量子计算框架上的代码生成能力。该基准包含42个涵盖量子算法、门分解和态制备的对齐任务。测试显示，模型一次性通过率最高达59.5%（Qiskit）、54.8%（Cirq）和42.9%（PennyLane），经反馈修复后分别提升至83.3%、76.2%和66.7%。结果表明，当前LLM仍高度依赖框架特定知识，跨框架量子代码生成的可靠性问题尚未解决。

编码论文/研究

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选77

Claude Code 自动模式：在安全与效率间取得平衡

Anthropic 为 Claude Code 推出“自动模式”，旨在解决用户因频繁手动批准而产生的“批准疲劳”。该模式介于完全手动审批和危险的无权限跳过之间，采用两层防御机制：输入层通过服务器端提示注入探测器扫描工具输出；输出层则利用基于 Sonnet 4.6 模型的转录分类器，在执行前评估操作风险。分类器采用高效的两阶段设计，先快速过滤，必要时才启动思维链推理。其目标是拦截危险操作（如过度积极行为、无心之失、提示注入等），同时让大部分安全操作无需确认即可运行，内部测试显示用户原本会批准约93%的手动提示。

Anthropic 产品更新安全/对齐编码

推荐理由：这是 Claude Code 从「手动审批」跳到「AI 自审」的关键一步，双层防御设计坦诚到连 17% 漏检率都公开讲，做 coding agent 的团队该把这篇当安全设计参考。

00:00

Google Research：Blog（网页）

精选

Vibe Coding XR：基于 XR Blocks 与 Gemini 加速 AI + XR 原型开发

Google XR 团队推出 Vibe Coding XR 工作流，结合 Gemini Canvas 与开源框架 XR Blocks，利用长上下文推理能力将自然语言提示在 60 秒内转化为可交互、支持物理效果的 WebXR 应用。该方案基于 WebXR、three.js 和 LiteRT.js 构建，支持手势交互与深度感知，可在桌面模拟环境或 Android XR 头显中实时预览。已展示的应用包括几何可视化数学辅导和交互式物理实验室，用户可通过捏合等手势操作 3D 对象，快速验证空间交互设计。

Google 产品更新多模态编码

推荐理由：Google推出Vibe Coding XR，用自然语言快速生成可交互的Android XR空间应用。

3月24日

08:00

Google Developers Blog（RSS）

精选71

跳跃即玩：利用Gemini与MediaPipe进行开发

该工作流通过Gemini Canvas，借助高级提示词快速原型化MediaPipe Pose Landmarker等体感游戏机制。开发者可在Google AI Studio中优化原型，采用低延迟的“轻量”模型和稳定的追踪点（如肩部关节点）以确保游戏响应灵敏。最后，流程利用Gemini Code Assist将实验性代码重构为模块化、可用于生产的应用程序，使其能够支持多种多模态输入，从而显著简化了体感控制游戏的开发过程。

Google 多模态教程/实践编码

推荐理由：开发者可快速上手AI游戏开发，优化性能并部署生产应用。

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选75

利用对抗网络灵感设计多代理架构，突破长时应用开发瓶颈

作者受生成对抗网络启发，设计了一个包含规划器、生成器和评估器的三代理架构，以解决Claude在长时应用开发中的两大瓶颈。该架构通过上下文重置机制，有效克服了模型在长任务中的“上下文焦虑”问题；同时，通过分离生成与评估功能，使代理能依据具体标准进行迭代改进，而非盲目自评。这一方法成功使系统能在多小时的自主运行中生成完整的全栈应用程序，突破了此前提示工程和传统工具设计的性能上限。

智能体 Anthropic 教程/实践编码

推荐理由：Anthropic 工程师把 GAN 的 generator-evaluator 思路搬进长时 Agent 架构，从设计到全栈编码都跑通了，还附了成本和失败模式。做 Agent 产品的人读完能直接抄作业，比看十篇论文管用。

3月23日

10:15

公众号：阶跃星辰（Step）

阶跃星辰Step Plan养虾套餐上线，开发者社区半价！

阶跃星辰今天正式推出Step Plan月度订阅方案，首发支持Step 3.5 Flash模型，面向OpenClaw和Coding用户。方案提供Flash Mini、Flash Plus、Flash Pro、Flash Max四档套餐，同价档位享有2倍用量。开发者社区可通过扫描二维码入群享受半价优惠。未来将逐步加入更多阶跃旗舰模型，扩展多模态场景。

产品更新编码

00:00

Berkeley RDI：Blog（AI 安全与评测）

OpenSage：自编程智能体生成引擎

OpenSage是新一代Agent开发工具包，推动智能体开发从人工设计转向AI自主编程范式。该系统支持LLM自动构建智能体拓扑、动态编写管理工具（具备沙箱隔离与异步执行），以及维护分层图结构记忆系统。与现有方案需人工设计不同，OpenSage实现了拓扑、工具和记忆的全面AI自动化生成，并内置软件工程与安全工具套件。

智能体 DeepMind 开源/仓库编码

00:00

Anthropic：Research（发表成果 · 网页）

精选71

利用长时运行智能体工作流革新科学计算

Anthropic 研究员展示了如何将多日智能体编码工作流应用于科学计算任务。以使用 Claude Opus 实现宇宙学玻尔兹曼求解器的可微分版本为例，该任务通常需耗费研究人员数月甚至数年时间。通过制定清晰的项目指令、利用日志文件作为智能体的持久记忆并设置测试预言，即使是非领域专家也能引导智能体在数小时内完成这类复杂项目。该方法的核心在于设定高层目标后，让智能体团队自主工作，仅需偶尔人工监督，从而显著提升了科学代码开发与移植的效率。

智能体 Anthropic 教程/实践编码

推荐理由：Anthropic 研究员用 Claude Opus 4.6 花几天从零写出了一个宇宙学 Boltzmann 求解器，原本是博士级团队几个月的活。这不是论文，是一份完整的多日 Agent 工作流实操手册，做科研或长周期编码的人可以直接抄作业。

3月19日

18:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

OpenAI 如何监控内部编程智能体的不对齐问题

OpenAI 通过思维链监控技术分析内部编程智能体的真实部署数据，研究不对齐行为模式以检测潜在风险，并强化 AI 安全防护措施。

智能体 OpenAI 安全/对齐编码

08:00

Cursor Blog

精选

Composer 2 正式发布

Composer 2 登陆 Cursor，定价 $0.50/M（输入）和 $2.50/M（输出），Terminal-Bench 2.0 得分 61.3，SWE-bench Multilingual 达 73.7，显著优于前代。支持数百步长周期编码任务，团队同步发布训练技术报告。

智能体模型发布编码

推荐理由：Cursor发布Composer 2编程Agent，性能大幅提升且定价极具竞争力

08:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选

OpenAI 将收购 Astral

OpenAI 收购 Astral，加速 Codex 发展以支持下一代 Python 开发工具。Astral 是 Python 生态重要工具开发商，此次收购将整合其技术能力，强化 OpenAI 在开发者工具领域的布局。

智能体 OpenAI 编码行业动态

推荐理由：OpenAI收购Astral加强Codex Python工具链，Agent能力再升级

3月18日

08:00

HuggingFace Daily Papers（社区热门论文）

SPRITE：从静态设计稿到引擎就绪的游戏UI

研究团队推出 SPRITE 系统，可将静态游戏UI设计稿自动转换为引擎可编辑的交互资源。该工具结合视觉语言模型（VLMs）与结构化YAML中间表示，专门解决游戏界面中不规则几何形状与深层视觉层次带来的转换难题，能精确捕获复杂容器嵌套关系。经游戏UI基准测试及专业开发者评估验证，SPRITE 显著简化了从美术设计到技术实现的流程，通过自动化繁琐编码工作支持快速引擎内迭代。

arXiv 多模态编码论文/研究

00:00

MiniMax：Blog（网页）

精选61

MiniMax M2.7：自我进化的早期回声

M2.7是M2系列中首个深度参与自身进化的模型。它能构建复杂的智能体框架，完成精细的生产力任务，尤其在软件工程方面表现突出，其SWE-Pro基准测试得分56.22%，接近Opus的最佳水平。模型的办公软件处理能力在开源模型中领先，GDPval-AA的ELO分数为1495。M2.7能保持97%的技能遵循率，处理超过40个、每个超过2000 token的复杂技能。该模型通过内部研究智能体框架，实现了“分析-修改-评估”的自主迭代优化循环，在内部评估中提升了性能。

智能体模型发布编码

关联讨论 2 条

推荐理由：MiniMax M2.7 让模型参与自身进化，在 SWE-Pro 和 VIBE-Pro 上接近 Opus 水平，Agent Teams 设计也值得看，但整体仍是追赶者姿态。

3月17日

18:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选

推出 GPT-5.4 mini 和 nano

GPT-5.4 mini 与 nano 发布，为 GPT-5.4 的轻量高速版本，针对编程、工具调用、多模态推理及高并发 API 和子代理任务优化。

智能体 OpenAI 模型发布编码

推荐理由：OpenAI 发布 GPT-5.4 mini/nano，针对编码与 Agent 场景优化

3月16日

23:00

公众号：月之暗面（Kimi）

精选60

推荐：10万人亲测好用的原版OpenClaw安装器

Kimi支持的个人开发者开源项目OneClaw下载量突破10万，提供一键安装包，1分钟即可在本地部署原版OpenClaw，无需命令行或环境配置。功能包括纯净卸载、自由切换模型、远程控制，支持连接飞书、企微、钉钉、QQ、Kimi Claw；内置2万+技能的技能商店，可无损迁移记忆和Skills。Kimi提供包月方案和API按需购买。使用地址：oneclaw.cn。

MCP/工具开源/仓库编码

推荐理由：如果你曾被 OpenClaw 的部署门槛劝退，OneClaw 可以让你两分钟跑起来，适合在备用机尝尝鲜，但别在生产环境乱搞。

08:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

Codex Security 为何不包含 SAST 报告

Codex Security 不生成传统 SAST 报告，转而采用 AI 驱动的约束推理与验证技术，通过深度分析代码逻辑精准识别真实漏洞，显著降低误报率。

OpenAI 产品更新编码

00:00

智谱：研究（网页内嵌数据）

精选

GLM-5-Turbo：龙虾增强的基座模型

智谱发布GLM-5-Turbo基座模型，代号"龙虾"，强化工具调用、复杂指令拆解、定时任务与高吞吐长链路执行能力，推出ZClawBench基准测试。支持通过BigModel.cn、Z.ai及AutoClaw客户端接入，Coding Plan Max将于本月内支持Pro版。

智能体模型发布编码

推荐理由：智谱GLM-5-Turbo发布，强化Agent工具调用与长任务执行能力

3月11日