3月3日

08:06

公众号：MiniMax（稀宇科技）

MaxClaw 上线 120 小时：四次扩容体验优化、移动端上线、支持 Coding Plan

MaxClaw 上线 120 小时内完成四次扩容和体验优化，同时推出移动端版本，并新增对 Coding Plan 的支持。

智能体产品更新编码

3月2日

20:00

Cursor Blog

精选

PlanetScale 借助 Bugbot 保障生产环境可靠性

PlanetScale 引入 Bugbot 作为 AI 代码审查代理，应对 AI 代码生成普及后审查环节成为瓶颈的问题。Bugbot 能发现人类难以察觉的深层逻辑缺陷，如状态同步间隙和异步控制器交互问题，而非仅检查语法错误。目前 80% 的 Bugbot 评论在合并前被工程师处理，每月审查超 2000 个 PR，节省相当于两名全职工程师的审查工作量，显著降低生产环境宕机风险。

智能体产品更新编码

推荐理由：Cursor Bugbot 企业落地数据：Agent 审查解决 80% 问题，揭示 AI 编程时代代码审查成新瓶颈

2月28日

20:39

公众号：月之暗面（Kimi）

Kimi Code Plan正式升级：持续享受3倍额度

Kimi Code Plan正式升级，所有订阅用户自今天起继续免费享受3倍Token额度，无限速、无购买限制，可使用Kimi K2.5多模态模型进行编程。该计划按Token计费，日均Token消耗量和稳定服务用户数已翻倍增长。访问kimi.com/code即可使用。

产品更新编码

2月27日

03:35

Cursor Blog

精选

AI 软件开发的第三个时代

AI 编程进入第三时代：从 Tab 补全到同步 Agent，再到可独立运行数小时的云 Agent。Cursor 内部数据显示，Agent 用户已反超 Tab 用户 2 倍，35% 的 PR 由云 Agent 自主创建。开发者角色从逐行编码转向构建"软件工厂"——定义问题、配置工具并审查产物。Cursor 昨日正式发布 cloud agents，支持并行任务与独立 VM 运行。

智能体产品更新编码

推荐理由：Cursor 定义 AI 编程第三时代：云端 Agent 已占其内部 35% PR，用户量反超 Tab 两倍

2月26日

18:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

Pacific Northwest National Laboratory 与 OpenAI 合作加速联邦许可审批

OpenAI 与 Pacific Northwest National Laboratory 联合发布 DraftNEPABench 基准测试，评估 AI 编程助手加速联邦许可流程的效能。数据显示，AI 有望将 NEPA 文件起草时间缩短最多 15%，推动基础设施审查现代化。

智能体 OpenAI 编码评测/基准

14:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选

OpenAI Codex 与 Figma 推出无缝代码转设计体验

OpenAI 与 Figma 推出全新 Codex 集成，打通代码与设计的双向链路。开发团队可直接在代码实现与 Figma 画布间无缝切换，加速迭代和交付流程。

智能体 OpenAI 产品更新编码

推荐理由：OpenAI Codex 集成 Figma，打通代码与设计工作流

2月25日

18:02

Hacker News：AI 热帖

精选

LLM Skirmish：AI代理可玩的实时战略游戏基准测试

LLM Skirmish 是一个让大语言模型通过编写代码进行1v1实时战略游戏对战的基准测试。基于Screeps开源API，每场锦标赛包含五轮，LLM可根据对战日志调整策略以测试上下文学习能力。结果显示，Claude Opus 4.5以85%胜率排名第一，GPT 5.2次之。Gemini 3 Pro表现异常：首轮胜率70%，后四轮骤降至15%，疑似因上下文腐烂。成本方面，Claude Opus 4.5每轮$4.12最贵，GPT 5.2性价比高出1.7倍。

智能体 Anthropic OpenAI 编码

推荐理由：LLM实时战略游戏对战基准，Claude大幅领先且展现独特上下文学习能力

2月22日

00:00

智谱：研究（网页内嵌数据）

精选

GLM-5技术报告

GLM-5参数规模达7440亿，训练Token 28.5万亿。核心创新包括DSA稀疏注意力机制降低算力开销，异步RL基础设施与异步Agent RL算法提升长周期交互与自主决策能力。全面原生适配华为昇腾、寒武纪等七大国产芯片平台，通过W4A8混合精度量化与定制融合算子实现高效部署。模型支持复杂软件工程、终端操作、PPT生成等长程Agent任务，提供交错思考、保留思考等多种推理模式。

智能体模型发布编码部署/工程

推荐理由：智谱发布744B参数GLM-5，全面适配七大国产芯片平台，Agent与编码能力突出

2月14日

00:00

字节 Seed：Research Feed（网页内嵌数据）

精选

Seed2.0 正式发布

Seed2.0系列正式发布，推出Pro、Lite、Mini三款通用Agent模型及专用Code模型，针对复杂多模态任务与长链路Agent场景优化。模型在视觉理解、数学推理与长上下文处理方面达SOTA水平，SuperGPQA分数超越GPT-5.2，并在ICPC、IMO、CMO测试中获金牌。支持科学研究级任务，token成本较顶尖模型降低约一个数量级。目前已上线豆包App、TRAE及火山引擎API。

智能体多模态模型发布编码

推荐理由：字节 Seed2.0 正式发布，Agent 与多模态能力全面升级，已接入豆包和 TRAE

2月13日

20:00

Cursor Blog

Box 选择 Cursor，看重企业级质量、安全性与可控性

Box 因原生数据隐私与代理质量控制选择 Cursor 作为核心 IDE 与 AI 编程平台。目前 85% 以上工程师日常使用，推动产品路线图交付效率提升 30-50%。通过自定义规则与命令扩展，Box 将 React 迁移速度提升 80%，设计系统迁移提速 90%，同时确保企业级安全与代码质量。配合导师计划，六周内 Cursor 使用量增加 75%，800 余名开发者已实现 AI 辅助开发。

智能体产品更新编码

08:00

Hugging Face：Blog（RSS）

Codex 与 Claude 为所有人提供定制化内核

Codex 和 Claude 宣布推出面向所有用户的定制化内核服务。这一举措旨在通过开源工具降低高级AI模型的访问门槛，使开发者能够根据特定需求调整和优化模型性能。新服务预计将支持更广泛的个性化应用开发，同时公布的相关基准测试显示，定制后模型在特定任务上的效率可提升高达30%。这标志着AI技术民主化进程又迈出关键一步。

智能体教程/实践编码

2月12日

00:00

MiniMax：Blog（网页）

精选67

MiniMax 发布 MiniMax M2.5 模型，专为现实世界生产力打造

MiniMax 最新发布的大语言模型 M2.5，通过在数十万个复杂现实环境中进行强化学习训练，在编码、智能体工具调用、搜索和办公工作等多项任务上达到 SOTA。模型推理效率高，完成 SWE-Bench Verified 评估的速度比前代 M2.1 快 37%，与 Claude Opus 4.6 相当。定价方面，以 100 tokens/秒运行时每小时成本仅 1 美元。M2.5 在超过 10 种编程语言和 20 多万个真实环境中训练，具备从系统设计到测试的全流程能力。

智能体搜索模型发布编码

推荐理由：MiniMax M2.5 把 SWE-bench 拉到 80.2%，成本只有 Claude Opus 4.6 的十分之一，速度还翻倍，对做 agent 的团队来说是个高性价比选择。

00:00

智谱：研究（网页内嵌数据）

精选

GLM-5开源：从代码到工程，Agentic Engineering时代最好的开源模型

GLM-5 开源，参数规模达 744B（激活 40B），预训练数据 28.5T，集成 DeepSeek Sparse Attention 降低部署成本。Coding 能力对齐 Claude Opus 4.5，Agent 能力支持 SOTA 级长程任务执行，兼容国产芯片。同步推出 OpenClaw、AutoGLM、Z Code 及 Excel 插件等工具链，覆盖端到端开发、办公自动化等场景。

智能体模型发布编码

推荐理由：智谱开源744B参数GLM-5，主打Agentic Engineering与编码能力，支持国产芯片推理

2月11日

14:11

Steve Yegge：Medium（RSS）

精选75

AI 吸血鬼

AI（如 Claude Code）确实能带来 10 倍生产力提升，但创造的价值大部分被公司捕获，员工可能过度劳累却收获甚微。微软内部已自发大量采用 Claude Code。这种效率加速迫使工作节奏不断加快，导致许多早期采用者（包括作者自己）出现严重的“午睡攻击”和日常疲劳。公司作为资本机器难以放缓脚步，形成一种让从业者无论是否使用 AI 都被持续“抽血”的困境。

Anthropic 大佬观点编码

推荐理由：Steve Yegge 提出的 'AI 吸血鬼' 概念精准捕捉了 AI 生产力带来的过劳危机，并给出了对抗资本压榨的实用公式，每个在 AI 浪潮中奔命的开发者都该停下看看。

2月10日

15:55

公众号：月之暗面（Kimi）

Kimi K2.5 已入驻阿里、腾讯、字节 AI 编程工具

Kimi K2.5 是月之暗面迄今最智能且最全能的模型，在 Agent、代码、图像、视频及通用智能任务上取得开源 SOTA 表现。原生多模态架构同时支持视觉与文本输入、思考与非思考模式、对话与 Agent 任务。发布后在 OpenRouter 上周调用量达 1.3 万亿 tokens，超越 Gemini 3、Claude Sonnet 4.5，成为全球开发者调用量最大的模型。

产品更新开源生态编码

2月5日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选78

用并行Claude智能体团队从零构建C编译器

研究人员采用“智能体团队”方法，让多个Claude实例在无人工干预下并行协作开发代码。为进行压力测试，团队指派16个智能体从零编写一个能编译Linux内核的Rust版C编译器。项目消耗近2000次会话和约2万美元，最终产出10万行代码的编译器，可成功在x86、ARM和RISC-V架构上构建Linux 6.9内核。研究重点在于设计支持长时间自主运行的智能体团队框架，包括如何编写测试以保持智能体不偏离方向，以及如何通过基于文本文件的锁机制协调多智能体并行任务分配。

智能体 Anthropic 大佬观点编码

推荐理由：Anthropic 研究员用 16 个 Claude 并行写了个能编译 Linux 内核的 C 编译器，2000 次会话花了两万刀。真正值钱的不是编译器本身，而是他总结的 agent 团队协作方法论，做多 agent 系统的人该逐段拆。

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选74

量化智能体编码评估中的基础设施干扰

研究发现，在SWE-bench等智能体编码基准测试中，基础设施配置差异对模型评分的影响，可能超过排行榜上顶尖模型之间的微小分差。内部实验显示，在Terminal-Bench 2.0上，最严格与最宽松的资源设置间成功率相差6%。严格限制资源会导致近6%的任务因容器意外终止而失败，而宽松配置下此类错误率可降至0.5%。当资源余量超过基准规格3倍时，智能体甚至能借助额外资源成功完成原本无法解决的任务。这表明评估环境不仅影响测试稳定性，更会改变基准测试实际衡量的能力维度。

Anthropic 编码论文/研究评测/基准

推荐理由：Anthropic 用自家数据证明，agentic coding benchmark 的排行榜差距可能只是硬件配置差异而非模型能力差距，3 个百分点以内的领先都该打问号。做模型选型的人别再迷信那几个百分点了。

2月3日