12月2日

00:00

LMSYS：Blog（Chatbot Arena 团队）

加速 SGLang 推理：原生集成 NVIDIA Model Optimizer 实现无缝量化与部署（12月2日更新）

SGLang 最新版本原生集成 NVIDIA Model Optimizer，支持通过直接 API 调用实现模型量化与部署。新功能将原本复杂的多步骤流程简化为量化、导出、部署三步，支持 NVFP4、MXFP4、FP8 等低精度格式。与原始 FP8 基线相比，优化后的模型在 Blackwell 架构上可实现高达 2 倍的每 GPU 吞吐量提升，显著降低延迟与内存占用。

开源/仓库编码部署/工程

11月12日

00:00

Claude：Blog（网页）

精选

通过 Skills 改进前端设计

LLM 生成界面常因"分布收敛"而陷入 Inter 字体配紫色渐变的同质化设计。Anthropic 建议通过 Skills 功能解决：将排版、动画、配色等设计规范存入独立 Markdown 文件，Claude 可在构建页面时动态加载，无需永久占用系统提示词。这种按需加载机制既保持上下文窗口精简以维持模型性能，又能让 AI 生成摆脱默认审美、更具品牌辨识度的定制化界面。

智能体 Anthropic 教程/实践编码

推荐理由：Claude官方分享通过Skills解决AI生成界面同质化问题的实践技巧，附字体与主题优化Prompt示例。

10月27日

00:00

MiniMax：Blog（网页）

同事件精选62

MiniMax M2与AI智能体：简中见巧

MiniMax正式开源并发布了专为AI智能体（Agent）和代码场景设计的大语言模型MiniMax M2。该模型API定价极具竞争力，仅为Claude Sonnet价格的约8%，且推理速度更快。在关键的智能体能力方面，其工具调用和深度搜索表现接近顶尖模型，编程能力在国内处于领先地位。MiniMax M2旨在解决性能、价格与速度的“不可能三角”，为构建更普及的AI智能体应用提供基础，体现了其“智能平权”的愿景。

智能体开源/仓库模型发布编码

同一事件，精选展示《MiniMax M2.7：自我进化的早期回声》

推荐理由：MiniMax M2 把 Agent 模型的价格打到了 Claude 的 8%，速度还翻倍，开源权重直接可用，做 Agent 的开发者值得上手试试。

10月24日

07:05

Google DeepMind：Blog（RSS）

精选

CodeMender 发布：面向代码安全的 AI 智能体

CodeMender 是一款面向代码安全的 AI 智能体，利用先进 AI 技术自动修复关键软件漏洞。

智能体 DeepMind 产品更新编码

推荐理由：DeepMind 发布代码安全 AI Agent CodeMender，可自动修复关键软件漏洞

10月20日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选73

超越权限提示：让Claude Code更安全、更自主

Claude Code引入沙盒化技术，通过文件系统与网络双重隔离来增强安全性，并大幅减少权限提示。内部测试显示，该技术将权限提示安全地降低了84%。新推出的沙盒运行时（作为开源研究预览版）允许开发者自定义目录和网络访问权限，使Claude能在限定范围内自主运行命令。同时，网页版Claude Code在云端隔离沙盒中运行，即使遭遇提示注入或代码入侵，也能有效保护Git密钥等敏感凭证不被泄露，从而提升开发安全性与效率。

Anthropic 产品更新安全/对齐编码

推荐理由：Claude Code 的沙箱方案把安全和自主性这对矛盾解开了，权限提示减少 84% 不是数字游戏，是真把 agent 从「每步都要你点确认」变成「在笼子里自己跑」，做 coding agent 的团队该认真看看这套 OS 级隔离思路。

00:00

Claude：Blog（网页）

精选

Claude Code 发布网页版

Anthropic 推出网页版 Claude Code，以研究预览形式向 Pro、Max 及企业用户开放。用户可直接在浏览器中分配编码任务，无需本地终端，支持并行处理多个 GitHub 仓库的开发工作，并自动创建 PR 和变更摘要。该服务基于云端隔离沙盒运行，具备网络和文件系统限制，同时登陆 iOS 应用支持移动编码。云会话与现有 Claude Code 使用共享速率限制。

智能体 Anthropic 产品更新编码

关联讨论 3 条

推荐理由：Claude Code搬进浏览器，零门槛并行编程提PR，手机端也能随时跑任务

10月10日

15:36

蚂蚁 inclusionAI：GitHub 新仓库

SWE-CARE：一个用于评估代码审查全面性的基准

针对现有代码审查基准和方法在全面性上的不足，研究团队推出了SWE-CARE基准。该基准包含一个用Python构建、覆盖代码审查全过程的仓库级数据集，数据被分为九种类型且每个实例均包含仓库特征。基于此，团队设计了一个评估框架，用以衡量大型语言模型在全面代码审查任务上的性能。项目提供了完整的评估流程脚本，支持使用GPT-4o等模型，并可生成详细的性能评估与分析报告。

编码论文/研究评测/基准

8月28日

08:00

xAI：News（网页）

精选

xAI发布轻量级编程模型Grok Code Fast 1

xAI发布轻量级编程模型Grok Code Fast 1，采用全新架构，基于真实PR数据训练，精通grep、终端和文件编辑等工具。推理速度达190 tokens/秒，定价输入$0.20/百万tokens、输出$1.50/百万tokens，SWE-Bench-Verified得分70.8%。目前已在GitHub Copilot、Cursor、Cline等平台限时免费开放。

智能体 xAI 模型发布编码

推荐理由：xAI发布专为Agentic Coding优化的极速编程模型，已集成Cursor、Copilot等主流工具，价格极具竞争力

8月7日

08:00

OpenRouter：Announcements（RSS）

同事件精选68

GPT-5 已在 OpenRouter 上线

GPT-5 现已登陆 OpenRouter 平台，具备长上下文能力，专为复杂推理和代码工作流设计。

OpenAI 推理模型发布编码

同一事件，精选展示《GPT-5 现已上线》

推荐理由：GPT-5 是 AI 史上的分水岭，长上下文和推理能力直接催生了一整代 agent 工具，哪怕过了快一年回头看，仍然值得搞清楚它改变了什么。

08:00

OpenRouter：Announcements（RSS）

精选68

GPT-5 现已上线

OpenRouter 平台已发布 GPT-5，该模型支持长上下文，专为复杂推理与代码工作流构建。

OpenAI 推理模型发布编码

关联讨论 1 条

推荐理由：这是 GPT-5 首次以大上下文和推理能力亮相，1M token 上下文让 code agent 直接从 demo 变成可用，现在看虽是旧闻，但节点意义不减。

08:00

OpenRouter：Announcements（RSS）

精选66

GPT-5 现已上线

GPT-5 已在 OpenRouter 平台正式推出。该模型具备长上下文处理能力，专门针对复杂推理任务与代码工作流进行了优化。此次发布标志着新一代大语言模型开始接入开放路由网络，为开发者与用户提供更强大的多步骤逻辑处理和编程辅助功能。

产品更新推理编码

推荐理由：OpenRouter 上架 GPT-5 本身不算新闻，但对用 OpenRouter 做多模型路由的开发者来说，这是终于能切到最新旗舰的信号，值得第一时间跑一遍自己的 benchmark。

7月31日

00:00

LMSYS：Blog（Chatbot Arena 团队）

精选

智谱发布 GLM-4.5 系列模型并原生支持 SGLang

智谱发布旗舰模型 GLM-4.5（355B/32B 激活）与 GLM-4.5-Air（106B/12B 激活），含 FP8 量化版本，即日起原生支持 SGLang 框架。采用 MoE 架构与 128k 上下文，在 12 项基准测试中分列第 3 与第 6。GLM-4.5 在 BrowseComp 网页浏览任务中以 26.4% 准确率超越 Claude 4 Opus，工具调用成功率达 90.6%，编程与数学推理能力突出。

智能体推理模型发布编码

推荐理由：国产大模型Agent与编码能力跻身第一梯队，为开发者提供Claude/GPT之外的高性价比替代方案

7月30日

00:00

Mistral AI：News（网页）

发布 Codestral 25.08 及 Mistral 完整企业编程方案栈

Mistral AI 发布了 Codestral 25.08 及其完整的企业编码解决方案栈。该方案旨在通过一个集成的系统，解决企业在采用 AI 编程工具时遇到的核心障碍，如部署限制、定制化不足和架构分散。新版 Codestral 25.08 的性能有所提升，其代码接受完成率提高30%，保留代码增加10%，失控生成减少50%。方案中的 Codestral Embed 是专为代码设计的嵌入向量模型，在代码检索基准测试中性能优于其他模型。整个解决方案支持部署在云端、VPC 或本地环境。

开源生态模型发布编码

7月14日

08:00

OpenRouter：Announcements（RSS）

使用OpenRouter在Cursor中调用模型：试试月之暗面的Kimi K2

OpenRouter的灵活模型路由现已集成到Cursor，用户可在Cursor中直接调用Moonshot AI的Kimi K2模型进行编码操作。

教程/实践编码

08:00

OpenRouter：Announcements（RSS）

精选56

OpenRouter 模型现可在 Cursor 中使用：试试月之暗面 Kimi K2

OpenRouter 宣布其灵活模型路由支持在 Cursor 中运行月之暗面的 Kimi K2。用户可直接在 Cursor 中调用 OpenRouter 路由的模型，无需额外配置。

MCP/工具教程/实践编码

关联讨论 1 条

推荐理由：一篇将 OpenRouter 模型接入 Cursor 的实操指南，虽然已过时三百多天，但对想免配置用 Kimi K2 的 Cursor 用户仍有参考价值。

08:00

OpenRouter：Announcements（RSS）

在 Cursor 中使用 OpenRouter 模型：以 Moonshot AI 的 Kimi K2 为例

用户现可通过 OpenRouter 灵活的路由服务，在 Cursor IDE 中直接调用 Moonshot AI 最新推出的 Kimi K2 模型。这一集成简化了开发流程，无需复杂配置即可在编码环境中访问高性能大语言模型。OpenRouter 作为统一接口，支持用户便捷切换包括 GPT、Claude、LLaMA 及 Kimi 在内的多种模型，显著提升了 AI 辅助编程工具的可用性和选择自由度。

MCP/工具产品更新编码

7月11日

00:00

Moonshot AI：Kimi Blog

精选

Kimi 发布 K2 模型

Kimi K2 采用混合专家（MoE）架构，拥有 320 亿激活参数和 1 万亿总参数，在非推理模型的前沿知识、数学和编程任务上达到 SOTA 性能。

推理模型发布编码

关联讨论 1 条

推荐理由：月之暗面发布 Kimi K2，万亿参数 MoE 架构，多基准 SOTA

7月10日