MaxClaw 上线 120 小时内完成四次扩容和体验优化,同时推出移动端版本,并新增对 Coding Plan 的支持。
MaxClaw 上线 120 小时内完成四次扩容和体验优化,同时推出移动端版本,并新增对 Coding Plan 的支持。
PlanetScale 引入 Bugbot 作为 AI 代码审查代理,应对 AI 代码生成普及后审查环节成为瓶颈的问题。Bugbot 能发现人类难以察觉的深层逻辑缺陷,如状态同步间隙和异步控制器交互问题,而非仅检查语法错误。目前 80% 的 Bugbot 评论在合并前被工程师处理,每月审查超 2000 个 PR,节省相当于两名全职工程师的审查工作量,显著降低生产环境宕机风险。
Kimi Code Plan正式升级,所有订阅用户自今天起继续免费享受3倍Token额度,无限速、无购买限制,可使用Kimi K2.5多模态模型进行编程。该计划按Token计费,日均Token消耗量和稳定服务用户数已翻倍增长。访问kimi.com/code即可使用。
AI 编程进入第三时代:从 Tab 补全到同步 Agent,再到可独立运行数小时的云 Agent。Cursor 内部数据显示,Agent 用户已反超 Tab 用户 2 倍,35% 的 PR 由云 Agent 自主创建。开发者角色从逐行编码转向构建"软件工厂"——定义问题、配置工具并审查产物。Cursor 昨日正式发布 cloud agents,支持并行任务与独立 VM 运行。
OpenAI 与 Pacific Northwest National Laboratory 联合发布 DraftNEPABench 基准测试,评估 AI 编程助手加速联邦许可流程的效能。数据显示,AI 有望将 NEPA 文件起草时间缩短最多 15%,推动基础设施审查现代化。
OpenAI 与 Figma 推出全新 Codex 集成,打通代码与设计的双向链路。开发团队可直接在代码实现与 Figma 画布间无缝切换,加速迭代和交付流程。
LLM Skirmish 是一个让大语言模型通过编写代码进行1v1实时战略游戏对战的基准测试。基于Screeps开源API,每场锦标赛包含五轮,LLM可根据对战日志调整策略以测试上下文学习能力。结果显示,Claude Opus 4.5以85%胜率排名第一,GPT 5.2次之。Gemini 3 Pro表现异常:首轮胜率70%,后四轮骤降至15%,疑似因上下文腐烂。成本方面,Claude Opus 4.5每轮$4.12最贵,GPT 5.2性价比高出1.7倍。
GLM-5参数规模达7440亿,训练Token 28.5万亿。核心创新包括DSA稀疏注意力机制降低算力开销,异步RL基础设施与异步Agent RL算法提升长周期交互与自主决策能力。全面原生适配华为昇腾、寒武纪等七大国产芯片平台,通过W4A8混合精度量化与定制融合算子实现高效部署。模型支持复杂软件工程、终端操作、PPT生成等长程Agent任务,提供交错思考、保留思考等多种推理模式。
Seed2.0系列正式发布,推出Pro、Lite、Mini三款通用Agent模型及专用Code模型,针对复杂多模态任务与长链路Agent场景优化。模型在视觉理解、数学推理与长上下文处理方面达SOTA水平,SuperGPQA分数超越GPT-5.2,并在ICPC、IMO、CMO测试中获金牌。支持科学研究级任务,token成本较顶尖模型降低约一个数量级。目前已上线豆包App、TRAE及火山引擎API。
Box 因原生数据隐私与代理质量控制选择 Cursor 作为核心 IDE 与 AI 编程平台。目前 85% 以上工程师日常使用,推动产品路线图交付效率提升 30-50%。通过自定义规则与命令扩展,Box 将 React 迁移速度提升 80%,设计系统迁移提速 90%,同时确保企业级安全与代码质量。配合导师计划,六周内 Cursor 使用量增加 75%,800 余名开发者已实现 AI 辅助开发。
Codex 和 Claude 宣布推出面向所有用户的定制化内核服务。这一举措旨在通过开源工具降低高级AI模型的访问门槛,使开发者能够根据特定需求调整和优化模型性能。新服务预计将支持更广泛的个性化应用开发,同时公布的相关基准测试显示,定制后模型在特定任务上的效率可提升高达30%。这标志着AI技术民主化进程又迈出关键一步。
MiniMax 最新发布的大语言模型 M2.5,通过在数十万个复杂现实环境中进行强化学习训练,在编码、智能体工具调用、搜索和办公工作等多项任务上达到 SOTA。模型推理效率高,完成 SWE-Bench Verified 评估的速度比前代 M2.1 快 37%,与 Claude Opus 4.6 相当。定价方面,以 100 tokens/秒运行时每小时成本仅 1 美元。M2.5 在超过 10 种编程语言和 20 多万个真实环境中训练,具备从系统设计到测试的全流程能力。
GLM-5 开源,参数规模达 744B(激活 40B),预训练数据 28.5T,集成 DeepSeek Sparse Attention 降低部署成本。Coding 能力对齐 Claude Opus 4.5,Agent 能力支持 SOTA 级长程任务执行,兼容国产芯片。同步推出 OpenClaw、AutoGLM、Z Code 及 Excel 插件等工具链,覆盖端到端开发、办公自动化等场景。
AI(如 Claude Code)确实能带来 10 倍生产力提升,但创造的价值大部分被公司捕获,员工可能过度劳累却收获甚微。微软内部已自发大量采用 Claude Code。这种效率加速迫使工作节奏不断加快,导致许多早期采用者(包括作者自己)出现严重的“午睡攻击”和日常疲劳。公司作为资本机器难以放缓脚步,形成一种让从业者无论是否使用 AI 都被持续“抽血”的困境。
Kimi K2.5 是月之暗面迄今最智能且最全能的模型,在 Agent、代码、图像、视频及通用智能任务上取得开源 SOTA 表现。原生多模态架构同时支持视觉与文本输入、思考与非思考模式、对话与 Agent 任务。发布后在 OpenRouter 上周调用量达 1.3 万亿 tokens,超越 Gemini 3、Claude Sonnet 4.5,成为全球开发者调用量最大的模型。
研究人员采用“智能体团队”方法,让多个Claude实例在无人工干预下并行协作开发代码。为进行压力测试,团队指派16个智能体从零编写一个能编译Linux内核的Rust版C编译器。项目消耗近2000次会话和约2万美元,最终产出10万行代码的编译器,可成功在x86、ARM和RISC-V架构上构建Linux 6.9内核。研究重点在于设计支持长时间自主运行的智能体团队框架,包括如何编写测试以保持智能体不偏离方向,以及如何通过基于文本文件的锁机制协调多智能体并行任务分配。
研究发现,在SWE-bench等智能体编码基准测试中,基础设施配置差异对模型评分的影响,可能超过排行榜上顶尖模型之间的微小分差。内部实验显示,在Terminal-Bench 2.0上,最严格与最宽松的资源设置间成功率相差6%。严格限制资源会导致近6%的任务因容器意外终止而失败,而宽松配置下此类错误率可降至0.5%。当资源余量超过基准规格3倍时,智能体甚至能借助额外资源成功完成原本无法解决的任务。这表明评估环境不仅影响测试稳定性,更会改变基准测试实际衡量的能力维度。
Qwen Studio 提供全栈功能,涵盖聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索集成、工具调用及 Artifacts 等模块。
Kimi Code 已接入最强编程模型、原生多模态模型 Kimi K2.5。即日起至 2026 年 2 月 28 日,新老用户可享最高平时 3 倍的使用额度,无限速和购买限制。同时取消基于请求次数的计费,全面切换为基于 Token 计费,所有用户配额已重置。额度按实际输入输出长度扣减,简单提问消耗极少 Token,复杂任务获得更充足空间。用户可访问 kimi.com/code 开始使用并了解 Kimi Code Plan 会员权益。
研究团队成功利用Claude模型自动生成高性能CUDA内核代码,并将其应用于训练开源大语言模型。这一方法显著提升了模型在特定硬件上的计算效率,是推动AI民主化的重要步骤。通过开源工具与科学,团队致力于降低先进AI技术的开发门槛,让更广泛的社区能够参与并受益于人工智能的创新发展。
Mistral AI 发布了终端原生编码智能体 Mistral Vibe 2.0,由 Devstral 2 模型驱动。其主要升级包括:可构建自定义子代理、在执行操作前提供多选项澄清、通过斜杠命令加载技能,以及配置自定义工作流程。Mistral Vibe 2.0 目前可通过 Le Chat Pro 和 Team 计划使用,支持按使用量付费或自带 API 密钥。同时,Devstral 2 模型已转向付费 API 访问。
Salesforce 在全球数千名工程师中推广 Cursor 后,开发速度实现两位数增长(超 30%),代码质量同步提升。内部数据显示,团队周期时间、缺陷数量和吞吐量均显著改善,某团队遗留代码覆盖率时间更缩短 85%。工程师采用路径分化:初级开发者借其理解复杂代码库,资深工程师则从自动化繁琐任务起步,逐步扩展至高频使用。公司认为 AI 编程工具对软件开发生命周期的改造才刚刚开始。
Novita AI 发布基于 SGLang 的 GLM4-MoE 生产级优化方案,通过共享专家融合、Qknorm 融合与异步传输三项核心技术,在 H200 集群 TP8/FP8 配置下实现首 token 延迟(TTFT)降低 65%、每 token 输出时间(TPOT)提升 22%。针对 Agentic Coding 场景,团队提出无需额外训练草稿模型的 Suffix Decoding 技术,利用历史输出模式重复率进一步加速推理。
Anthropic旗下的AI编程代理Claude Code每月订阅费高达200美元,且其基于令牌的速率限制引发开发者不满。与此同时,Block公司推出的开源AI代理Goose提供了近乎相同的功能,可在本地机器上完全免费运行,无需订阅费或云端依赖,并能离线工作、保障数据隐私。该项目在GitHub上已获得超过2.6万颗星,成为Claude Code的热门替代选择。
作者临近57岁生日,回顾了近期在AI领域的活跃动态。人工智能领域正吸引大量资本涌入,作者因其文章和项目收到了众多风险投资人的接触,并因Gas Town相关加密货币$GAS产生了约30万美元的交易费收入,但他强调需专注于软件开发而非被资本或社区分散精力。文章还讨论了利用20余个AI智能体进行高端编程对工作与休息节奏带来的影响,表现为频繁的深度小睡需求。
腾讯CodyBuddy编程助手集成Kimi K2 Thinking模型,该助手已有90%腾讯工程师使用。
为 SolidWorks 开发的 AI 插件,支持自然语言生成三维模型、自动草图绘制和智能特征识别。提供安装包与演示视频,可直接集成到现有机械设计工作流中。
Agent-of-empires(AoE)是一款支持 Linux 与 macOS 的 AI 编码代理会话管理器,兼容 Claude Code、OpenCode 等 9 种主流 AI 工具。该工具基于 tmux 实现会话持久化,支持在多分支代码库上并行运行多个代理,提供 Docker 沙盒隔离、Git worktrees 管理及实时状态检测,并可通过 Web 仪表板或 Cloudflare 隧道从手机远程访问,解决多代理协作时的状态追踪与工作环境隔离问题。
Claude Code 集成 Opus 4.5 模型实现关键突破,编程智能体跨越重要能力阈值。此次升级标志着编码代理在自主性和工程处理能力上达到新水平,可应对更复杂的开发任务。Opus 4.5 显著提升了代码生成、调试及复杂问题解决的表现,使 AI 辅助编程从基础工具向高效协作伙伴转变,为开发者带来质的不同的使用体验与效率提升。
关联讨论 3 条Nathan Lambert:Interconnects(RSS)X:Kim (@kimmonismus)Gary Marcus:The Road to AI We Can Trust(RSS)合适的工具能让 AI 完成令人印象深刻的任务。Claude Code 体现了这一理念,展示了配备恰当工具后 AI 所能达到的成就,指向 AI 辅助开发的未来方向。
开源AI公司Nous Research近日发布了编程模型NousCoder-14B。该模型基于Qwen3-14B,在LiveCodeBench v6评测中准确率达67.87%,较基础模型提升7.08个百分点。其最大特点是完全开源,不仅公开模型权重,还发布了完整的强化学习环境、基准测试套件和训练框架,使研究者能够复现其工作。模型仅用4天时间在48块NVIDIA B200 GPU上完成训练,性能可匹配或超越部分大型专有系统。此次发布正值Anthropic的Claude Code引发广泛讨论之际,凸显了AI编程助手领域的激烈竞争。
Claude Code 创造者 Boris Cherny 公开的个人工作流引发广泛讨论。其核心是并行运行多个AI代理:在终端同时运行5个Claude,浏览器中运行5-10个,通过系统通知进行管理,将编码转变为类似指挥《星际争霸》的实时战略。他坚持使用最重、最慢的Opus 4.5模型,认为其更高智能度能减少人工干预,最终效率更高。团队还通过共享的CLAUDE.md文件将AI错误转化为永久规则,使代码库能自我修正。
MiniMax 发布 M2.1 模型,是对 M2 的更新。其核心升级在于系统提升了在 Rust、Java、Golang 等多语言编程任务上的性能,并达到行业领先水平。同时,模型显著增强了原生 Android 与 iOS 开发能力,以及在 Web/App 场景下的设计理解与美学表达。M2.1 优化了复合指令约束以更好地支持办公场景,响应更简洁高效。该模型在 Claude Code、Cline 等各类编程工具与 AI 智能体框架中表现出色。在衡量全栈开发能力的 VIBE 新基准上,取得了平均 88.6 分的成绩。
GLM-4.7 发布,编程能力显著提升。SWE-bench 达 73.8%(+5.8%),Terminal Bench 2.0 达 41%(+16.5%),支持 Claude Code 等主流智能体框架。新增交错式思考、保留式思考和轮级思考功能,可控制推理过程以降低延迟或提高准确性。同步改进 UI 生成、工具调用和数学推理能力,可通过 API 或本地部署使用。
OpenRouter 推出 Response Healing 新功能,可在 JSON 响应到达应用程序之前自动修复大语言模型输出的畸形 JSON,从而将 JSON 缺陷减少 80% 以上。
Mistral AI 发布新一代代码模型家族 Devstral 2,包含 Devstral 2 (123B) 和 Devstral Small 2 (24B) 两个开源版本。Devstral 2 采用修改的 MIT 许可证,在 SWE-bench Verified 上达到 72.2%,成本效益比 Claude Sonnet 高达 7 倍。Devstral Small 2 (24B) 采用 Apache 2.0 许可证,可部署在消费级硬件上。两者均支持 256K 上下文窗口。同步发布由 Devstral 驱动的开源命令行工具 Mistral Vibe CLI,用于在终端实现代码的自动化探索与修改。
Anthropic与Material调研500余位技术领导者显示,57%企业已将AI智能体用于多阶段工作流,16%实现跨职能部署。编码是核心场景,90%用于开发辅助,86%用于生产代码,平均节省近六成时间。80%受访者称投资已产生可衡量回报,如Thomson Reuters将法律检索从数小时缩短至分钟级。2026年81%企业计划处理更复杂用例,但面临系统集成、数据质量和变革管理三大挑战。
研究团队训练并部署了一个专为高精度和实际应用优化的AI代码审查智能体。该智能体旨在对自主生成的代码进行有效监督,使代码审查能力能够与自动化代码生成的规模同步扩展。通过优化智能体的精确度,该方法致力于解决大规模代码生成中的质量控制难题,为AI辅助软件开发提供了可落地的规模化监督方案。
SGLang 最新版本原生集成 NVIDIA Model Optimizer,支持通过直接 API 调用实现模型量化与部署。新功能将原本复杂的多步骤流程简化为量化、导出、部署三步,支持 NVFP4、MXFP4、FP8 等低精度格式。与原始 FP8 基线相比,优化后的模型在 Blackwell 架构上可实现高达 2 倍的每 GPU 吞吐量提升,显著降低延迟与内存占用。
LLM 生成界面常因"分布收敛"而陷入 Inter 字体配紫色渐变的同质化设计。Anthropic 建议通过 Skills 功能解决:将排版、动画、配色等设计规范存入独立 Markdown 文件,Claude 可在构建页面时动态加载,无需永久占用系统提示词。这种按需加载机制既保持上下文窗口精简以维持模型性能,又能让 AI 生成摆脱默认审美、更具品牌辨识度的定制化界面。