12月22日

08:00

xAI：News（网页）

精选

xAI 被美国战争部（DOW）选中，为其 GenAI.Mil 套件提供 Frontier AI 系统。基于 Grok 模型的解决方案将覆盖 DOW 旗下 300 万军事和文职人员，支持 Impact Level 5（IL5）级别的企业 AI 和关键任务用例，可嵌入从五角大楼到战术边缘的日常工作流，并支持机密作战工作负载。DOW 用户还可独家获取 X 平台实时全球洞察。

智能体 xAI 行业动态部署/工程

关联讨论 1 条

推荐理由：xAI获美国国防部大单，Grok将覆盖300万军事人员并提供实时情报支持

00:00

智谱：研究（网页内嵌数据）

精选

GLM-4.7：更强的 Coding

GLM-4.7 发布，编程能力显著提升。SWE-bench 达 73.8%（+5.8%），Terminal Bench 2.0 达 41%（+16.5%），支持 Claude Code 等主流智能体框架。新增交错式思考、保留式思考和轮级思考功能，可控制推理过程以降低延迟或提高准确性。同步改进 UI 生成、工具调用和数学推理能力，可通过 API 或本地部署使用。

智能体模型发布编码

推荐理由：智谱发布GLM-4.7，编程Agent能力大幅提升，支持Claude Code等主流框架和Vibe Coding。

12月18日

09:00

公众号：蚂蚁百灵（Ling）

AEnvironment - 面向 Agentic RL 时代的环境系统，开箱即用，万物互联

AEnvironment 是专为 Agentic RL 打造的基础设施，将环境搭建从写脚本转变为调用服务，实现开箱即用和万物互联。

智能体开源/仓库部署/工程

08:00

OpenRouter：Announcements（RSS）

精选61

Response Healing：将 JSON 缺陷减少 80% 以上

OpenRouter 推出新功能 Response Healing，可在 LLM 生成的畸形 JSON 响应抵达用户应用前自动修复。该功能旨在将 JSON 格式错误减少超过 80%，直接提升 API 响应的结构完整性与可靠性，减少下游应用的处理负担。

智能体产品更新部署/工程

推荐理由：做 Agent 的人最怕 JSON 解析炸掉整个 pipeline，OpenRouter 这个 Response Healing 相当于在网关层加了自动纠错，接入成本几乎为零，值得试试。

12月17日

08:01

公众号：小米 MiMo

小米 MiMo-V2-Flash 开源：高效推理、代码与 Agent 基座模型

小米开源了 MiMo-V2-Flash 模型，定位为高效推理、代码与 Agent 基座模型，其 Agent 综合能力在全球开源模型中排名第二。

智能体开源生态模型发布

08:00

xAI：News（网页）

精选

xAI 发布 Grok Voice Agent API

xAI 开放 Grok Voice Agent API，基于自研语音栈（VAD、tokenizer、音频模型），Big Bench Audio 基准排名第一，首音频延迟低于 1 秒（比竞品快近 5 倍），定价 $0.05/分钟。支持数十种语言自动切换、实时搜索 X 和网页、调用自定义工具，已深度集成特斯拉车机。提供 Ara、Eve 等多种自然声线，支持 [whisper] 等听觉标签，兼容 OpenAI Realtime API 规范。

智能体 xAI 产品更新语音

推荐理由：xAI发布Grok语音Agent API，延迟低于1秒且定价仅为OpenAI一半，已集成至Tesla车载系统

12月16日

16:55

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/AEnvironment

inclusionAI 发布了 AEnvironment，这是一个用于智能体 AI 开发的标准化环境基础设施。该平台旨在为 AI 智能体的构建、测试和部署提供统一、可复现的环境，解决开发过程中因环境差异导致的兼容性与一致性问题。它通过预配置的标准化设置，简化了开发流程，提升了协作效率与系统可靠性。

智能体开源/仓库部署/工程

00:01

Hugging Face：Blog（RSS）

精选83

CUGA 登陆 Hugging Face：普及可配置的通用 AI 智能体

开源可配置通用智能体 CUGA 现已集成至 Hugging Face Spaces，便于开发者便捷实验。该智能体在复杂任务基准测试中表现卓越，在包含 457 个 API、750 个真实任务的 AppWorld 基准排名第一，在 WebArena 基准也位居前列。其核心提供可配置的推理模式以平衡性能与成本，支持计算机使用与多工具无缝集成，并能与 Langflow 结合进行低代码工作流设计。采用 Apache 2.0 许可的 CUGA 支持多种开源模型，在高性能推理平台（如 Groq）上运行能显著提升效率。

智能体 Hugging Face MCP/工具开源/仓库

推荐理由：开源AI代理框架性能领先，集成Hugging Face和Langflow，开发者可快速构建复杂任务。

12月11日

09:00

公众号：蚂蚁百灵（Ling）

AReaL v0.5.0：强化学习框架的架构革新，执一驭万，智体同协

AReaL v0.5.0 是由蚂蚁百灵（Ling）发布的强化学习运行时服务框架，专为智能体与推理设计。

智能体产品更新推理

12月9日

00:00

Claude：Blog（网页）

精选

Anthropic调研：2026年企业AI智能体应用趋势

Anthropic与Material调研500余位技术领导者显示，57%企业已将AI智能体用于多阶段工作流，16%实现跨职能部署。编码是核心场景，90%用于开发辅助，86%用于生产代码，平均节省近六成时间。80%受访者称投资已产生可衡量回报，如Thomson Reuters将法律检索从数小时缩短至分钟级。2026年81%企业计划处理更复杂用例，但面临系统集成、数据质量和变革管理三大挑战。

智能体 Anthropic 现象/趋势编码

推荐理由：Anthropic发布企业AI Agent深度调研，揭示2026年应用趋势与头部企业实战案例

12月8日

00:00

智谱：研究（网页内嵌数据）

精选

GLM-4.6V：支持原生工具调用的开源多模态模型

智谱开源GLM-4.6V系列多模态模型，含106B-A12B基础版与9B轻量版Flash，支持128k tokens上下文。首次原生集成Function Call能力，支持图像、截图直接作为工具参数，并能理解工具返回的视觉内容。具备复杂文档理解、视觉网页搜索、前端代码生成及交互式编辑能力，适用于构建多模态Agent。已上架GitHub、Hugging Face及魔搭社区。

智能体 MCP/工具多模态模型发布

推荐理由：智谱开源 GLM-4.6V，原生支持工具调用的多模态 Agent 底座

00:00

智谱：研究（网页内嵌数据）

AutoGLM：每台手机，都可以成为 AI 手机

智谱发布全球首个手机Agent AutoGLM，创新采用ComputerRL、MobileRL与AgentRL技术架构，在Device Use基准测试中超越ChatGPT Agent等达到SOTA水平。支持通过自然语言指令完成点外卖、订酒店、办公等全场景任务，具备屏幕理解、自主规划与云端异步运行能力，可在专属云设备上"自动驾驶"手机而不占用本地资源。项目已开源并提供美团、微博、B站等实机操作案例。

智能体产品更新端侧

12月4日

08:00

Hugging Face：Blog（RSS）

DeepMath：一个基于 smolagents 的轻量级数学推理智能体

研究团队发布了 DeepMath，一个轻量级的数学推理智能体。该智能体基于 smolagents 框架构建，旨在提升模型解决复杂数学问题的能力。DeepMath 的设计强调轻量化，力求在保持高效推理性能的同时降低计算资源消耗。其发布是团队通过开源与开放科学推动人工智能技术发展与普及的举措之一。

智能体 Hugging Face 开源/仓库推理

12月3日

21:45

蚂蚁 inclusionAI：GitHub 新仓库

精选63

蚂蚁集团开源AState：面向强化学习的高性能状态管理系统

蚂蚁集团开源了AState，这是一个专为强化学习设计的高性能通用状态数据管理系统。它旨在解决RL训练与推理中的I/O效率低下、权重同步性能不足及状态恢复不鲁棒等核心挑战。系统采用三层架构：提供张量原生接口的API层、支持多种部署模式的服务层以及具备高效可扩展传输能力的基础层。其关键特性包括统一的张量级API、高性能权重同步和拓扑感知设计。在万亿参数规模下，AState能在约6秒内完成权重同步，远低于业界常见的分钟级延迟，目前已作为ASystem的关键组件在蚂蚁内部生产环境部署。

智能体开源/仓库部署/工程

推荐理由：蚂蚁把万亿参数 RL 训练的权重同步从分钟级压到 6 秒，这套 AState 系统是真刀真枪的工程解法，做大规模 RL infra 的团队值得拆一拆它的 RDMA P2P 架构。

12月2日

03:00

OpenAI：Alignment 研究博客（RSS）

精选60

大规模验证代码的实用方法

研究团队训练并部署了一个专为高精度和实际应用优化的AI代码审查智能体。该智能体旨在对自主生成的代码进行有效监督，使代码审查能力能够与自动化代码生成的规模同步扩展。通过优化智能体的精确度，该方法致力于解决大规模代码生成中的质量控制难题，为AI辅助软件开发提供了可落地的规模化监督方案。

智能体 OpenAI 安全/对齐编码

推荐理由：OpenAI 把对齐研究落到了代码审查这个具体场景，不是空谈 alignment 理论，而是训了个高精度 review agent 来给 AI 写的代码做质检。做 coding agent 的团队该看看，这可能是未来安全合规的标配。

12月1日

18:52

公众号：DeepSeek（深度求索）

同事件精选66

DeepSeek V3.2 正式版：强化 Agent 能力，融入思考推理

智能体 DeepSeek 推理模型发布

同一事件，精选展示《DeepSeek-V3 正式发布》

推荐理由：半年前的这版更新，把 Agent 和思考推理揉进了开源模型，回头看算是 DeepSeek 在智能体能力上的关键一刀，做 Agent 开发的至今绕不开它。

11月26日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选75

为长时运行智能体设计有效约束方案

为解决AI智能体在跨越多上下文窗口执行长期任务时的“记忆丢失”与进展不一致问题，Anthropic为Claude Agent SDK开发了一套双重方案。该方案包含一个初始化智能体，负责在首次运行时建立基础环境并生成功能清单；以及一个编码智能体，负责在后续会话中进行增量开发并提交清晰可合并的代码。通过结构化的进度日志和Git历史等机制，引导智能体避免“试图一次性完成所有功能”或“过早宣布完成”的失败模式，从而实现跨会话的持续有效协作。

智能体 Anthropic 教程/实践

推荐理由：Anthropic 把 Claude Agent SDK 跑长任务踩过的坑全摊开了，初始化 agent + 增量进度文件这套方案不复杂但极实用，做 Agent 产品的团队可以直接抄作业。

11月25日

01:40

Hugging Face：Blog（RSS）

精选83

构建深度研究智能体：实现顶尖水平的经验

Tavily团队因模型迭代重建了深度研究系统，核心是从工作流转向智能体架构，并聚焦上下文工程。通过Tavily Advanced Search进行上下文管理的网络检索，高效获取高相关度内容，避免信息过载。智能体设计模仿人类研究模式：收集信息、提炼要点、决策下一步，仅在生成最终交付物时引用原始资料，大幅减少令牌消耗，实现线性增长而非传统二次方增长。团队遵循简化编排逻辑、关注模型与工具优化方向、强化上下文工程等原则，以构建能随模型进化而持续改进的智能体系统。

智能体 Hugging Face 教程/实践部署/工程

推荐理由：分享构建高效 AI 代理的实战技巧，优化上下文工程以提升性能。

11月24日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选77

Claude开发者平台推出高级工具使用功能，提升AI代理效率

Anthropic在Claude开发者平台发布三项新功能，以解决传统工具调用消耗大量上下文、易出错的问题。工具搜索工具允许按需加载工具，内部测试中将上下文消耗从约7.7万令牌降至8700令牌，降幅达85%，并将准确率从49%提升至74%。程序化工具调用支持在代码环境中调用工具，减少对上下文窗口的影响，例如Claude for Excel可借此处理数千行数据。工具使用示例则提供了展示工具有效使用方法的通用标准。这些功能共同提升了AI代理处理大规模工具库的能力。

智能体 Anthropic MCP/工具产品更新

推荐理由：做 Agent 的人都卡在工具一多上下文就爆、调用就错这两个坑上，Anthropic 这三个功能直接把工具管理从「全塞进去」变成「按需加载+代码编排+示例纠错」，是目前最工程化的解法。

11月19日

08:00

xAI：News（网页）

精选

Grok 与沙特阿拉伯达成全国性部署合作

xAI 与沙特阿拉伯及 PIF 旗下 HUMAIN 签署框架协议，将在沙特建设超大规模 GPU 数据中心，并全国范围内部署 Grok 至 HUMAIN ONE 平台，为政府和企业提供实时智能与自主工作流。这是 Grok 首次在国家层面全面落地。

智能体 xAI 行业动态部署/工程

推荐理由：xAI与沙特达成国家级合作，将全国部署Grok并建设超大规模AI算力基础设施

08:00

xAI：News（网页）

精选

xAI发布Grok 4.1 Fast与Agent Tools API

xAI发布Grok 4.1 Fast模型及Agent Tools API。Grok 4.1 Fast支持200万token上下文，在τ²-bench Telecom基准测试中获100%得分且成本仅105美元，函数调用准确率72%。Agent Tools API集成实时X数据、网页搜索与代码执行功能。该模型在深度研究基准测试中超越GPT-5等竞品，成本更低且幻觉率较上代降低一半。

智能体 MCP/工具 xAI 模型发布

关联讨论 1 条

推荐理由：xAI 发布 Grok 4.1 Fast 及 Agent Tools API，支持 2M 上下文与原生工具调用，剑指企业级 Agent 应用。

00:55

Ethan Mollick：One Useful Thing（RSS）

精选

从 GPT-3 到 Gemini 3 的三年

GPT-3 发布至 Gemini 3 的三年间，大模型技术完成从聊天机器人（chatbots）到智能体（agents）的范式跃迁。

智能体 Google OpenAI 大佬观点

推荐理由：Ethan Mollick 深度回顾 AI 三年演进，剖析从聊天机器人到 Agent 的变革趋势

11月13日

22:52

Google DeepMind：Blog（RSS）

精选

SIMA 2：在虚拟3D世界中与你共玩、推理和学习的智能体

Google 推出 SIMA 2，基于 Gemini 的 AI 智能体，支持在交互式环境中思考、理解并执行动作，可在虚拟3D世界中进行游戏、推理和协同学习。

智能体 DeepMind Google 产品更新

推荐理由：DeepMind发布SIMA 2，可在3D虚拟世界中交互推理的通用AI Agent

04:59

Qwen：Blog Retrieval（API）

Qwen DeepResearch：当灵感自成其理

Qwen Studio 集成聊天机器人、图像与视频理解、图像生成、文档处理、网络搜索、工具调用及 Artifacts 功能，提供多模态 AI 一站式解决方案。

智能体产品更新搜索

11月12日

00:00

Claude：Blog（网页）

精选

通过 Skills 改进前端设计

LLM 生成界面常因"分布收敛"而陷入 Inter 字体配紫色渐变的同质化设计。Anthropic 建议通过 Skills 功能解决：将排版、动画、配色等设计规范存入独立 Markdown 文件，Claude 可在构建页面时动态加载，无需永久占用系统提示词。这种按需加载机制既保持上下文窗口精简以维持模型性能，又能让 AI 生成摆脱默认审美、更具品牌辨识度的定制化界面。

智能体 Anthropic 教程/实践编码

推荐理由：Claude官方分享通过Skills解决AI生成界面同质化问题的实践技巧，附字体与主题优化Prompt示例。

11月4日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选74

通过代码执行提升MCP智能体效率

随着AI智能体通过模型上下文协议（MCP）连接的工具数量激增，传统预先加载所有工具定义并通过上下文传递中间结果的方法，导致处理速度变慢、成本增加。问题核心在于工具定义占用大量上下文空间，且中间结果（如完整会议记录）在多次工具调用间重复传递，额外消耗数万令牌。文章提出解决方案：将MCP服务器呈现为代码API，使智能体能按需加载工具，并在执行环境中处理数据，仅将精简结果传回模型，从而显著减少令牌消耗、提升效率并降低成本。

智能体 Anthropic MCP/工具教程/实践

推荐理由：Anthropic 官方把 MCP 从「能连」推进到「连多了怎么办」，用代码执行替代直接工具调用，token 省 98.7% 这个数字不是吹的。做 Agent 工程的人如果还在暴力塞 tool definition，这篇是必读的架构升级指南。

00:00

LMSYS：Blog（Chatbot Arena 团队）

MiniMax M2 发布：从高效注意力回退全注意力的工业部署反思

MiniMax发布新一代旗舰模型M2，采用230B总参数、10B激活参数的MoE架构，已在SGLang平台提供首日支持。团队从M1的Lightning Attention回退至Full Attention，指出高效注意力机制虽能降低理论计算复杂度，但在实际工业部署中面临多重挑战：标准基准无法暴露多跳推理等深层能力缺陷，与前缀缓存、推测解码等系统兼容性不足，且受内存带宽限制难以兑现理论效率。MiniMax认为，开放场景部署中模型质量优先于计算效率。

智能体论文/研究部署/工程

11月3日

00:00

LMSYS：Blog（Chatbot Arena 团队）

精选

在 NVIDIA DGX Spark 上优化 GPT-OSS：实现本地大模型部署

与 NVIDIA 合作，在 DGX Spark 上通过 SGLang 成功支持 GPT-OSS 20B 与 120B 模型，实现 20B 版本约 70 tokens/s、120B 版本约 50 tokens/s 的生成速度，达到目前最优水平。用户可通过 Docker 部署 SGLang 服务，接入 Open WebUI 实现本地聊天，或借助 LMRouter 转换请求格式以完全本地化运行 Claude Code。该方案使在 DGX Spark 上部署多百亿参数本地编码智能体成为现实。

智能体 OpenAI 教程/实践端侧

推荐理由：DGX Spark本地跑通Claude Code完全离线，隐私敏感开发者的新选择

10月30日

18:03

Hugging Face：Blog（RSS）

精选83

Aligning to What？ Rethinking Agent Generalization in MiniMax M2

MiniMax 在 Hugging Face 发布博客，探讨其 M2 智能体模型的泛化能力。文章核心在于重新思考智能体应“对齐”到什么标准或目标，以提升其在未见任务和环境中的通用性能。这涉及对模型训练范式和评估指标的反思，旨在突破当前智能体在特定任务上过拟合、难以泛化的局限。

智能体 Hugging Face 论文/研究

推荐理由：Agent 泛化是 AI 实用化关键，这篇重新思考可能带来新突破。

00:00

MiniMax：Blog（网页）

精选

MiniMax发布新一代语音模型Speech 2.6

MiniMax发布语音模型Speech 2.6，端到端延迟降至250毫秒内，支持实时对话。新增多语言特殊格式解析能力，可自动朗读URL、邮箱、电话、日期及金额，无需预处理。推出Fluent LoRA功能，即使源录音带口音也能保留音色并生成流畅语音，支持40余种语言。已被LiveKit、Vapi等平台及智能硬件采用。

智能体模型发布语音

推荐理由：MiniMax发布Speech 2.6语音模型，支持Voice Agent场景，实现超低延迟与Fluent LoRA语音克隆优化。

00:00

Claude：Blog（网页）

精选

金融服务领域构建 AI 代理指南

Claude 发布金融服务 AI 代理构建指南，分享 NBIM、Brex 等机构实践。NBIM 员工每周节省数百小时，McKinsey 研究显示欺诈检测生产力可提升 200% 至 2000%。AI 代理能自主整合多源数据、执行跨系统操作，在合规框架下处理客户服务与风险分析，将传统分析工具升级为可独立完成交易的自主系统。

智能体 Anthropic 教程/实践

推荐理由：Anthropic官方分享金融AI智能体落地实践，含NBIM、Brex等真实案例与效率数据。

10月28日

00:00

MiniMax：Blog（网页）

精选

MiniMax 发布 Hailuo 2.3 / 2.3 Fast 视频模型

MiniMax 推出 Hailuo 2.3 视频生成模型，在物理动作流畅度、艺术风格化（支持动漫、水墨、游戏 CG）及角色微表情方面显著提升，维持 Hailuo 02 原价，Fast 版本批量创作成本降低 50%。Hailuo Video Agent 同步升级为 Media Agent，支持多模态一键视频生成与分步自定义创作，已全平台上线并开放免费试用。

智能体模型发布视频

关联讨论 1 条

推荐理由：MiniMax 发布 Hailuo 2.3 视频模型及 Media Agent，支持多模态一键生成

10月27日

00:00

MiniMax：Blog（网页）

同事件精选62

MiniMax M2与AI智能体：简中见巧

MiniMax正式开源并发布了专为AI智能体（Agent）和代码场景设计的大语言模型MiniMax M2。该模型API定价极具竞争力，仅为Claude Sonnet价格的约8%，且推理速度更快。在关键的智能体能力方面，其工具调用和深度搜索表现接近顶尖模型，编程能力在国内处于领先地位。MiniMax M2旨在解决性能、价格与速度的“不可能三角”，为构建更普及的AI智能体应用提供基础，体现了其“智能平权”的愿景。

智能体开源/仓库模型发布编码

同一事件，精选展示《MiniMax M2.7：自我进化的早期回声》

推荐理由：MiniMax M2 把 Agent 模型的价格打到了 Claude 的 8%，速度还翻倍，开源权重直接可用，做 Agent 的开发者值得上手试试。

10月24日

07:05

Google DeepMind：Blog（RSS）

精选

CodeMender 发布：面向代码安全的 AI 智能体

CodeMender 是一款面向代码安全的 AI 智能体，利用先进 AI 技术自动修复关键软件漏洞。

智能体 DeepMind 产品更新编码

推荐理由：DeepMind 发布代码安全 AI Agent CodeMender，可自动修复关键软件漏洞

02:40

Google DeepMind：Blog（RSS）

精选

Gemini 2.5 Computer Use 模型发布

Gemini 2.5 Computer Use 模型基于 Gemini 2.5 Pro 构建，专门用于驱动能与用户界面交互的 agent，现已通过 API 以预览版形式提供。

智能体 DeepMind Google 多模态

推荐理由：Google 发布 Gemini 2.5 Computer Use 模型，支持 Agent 自主操作图形界面

00:00

Mistral AI：News（网页）

介绍 Mistral AI Studio

企业AI团队常将原型卡在生产环节，主要瓶颈在于缺乏一套系统来跟踪模型输出变化、复现结果、监控真实使用数据、运行领域特定评估、私有增量微调模型以及满足安全合规的部署。Mistral AI Studio 作为生产级AI平台，基于 Mistral 运营大规模系统的经验而构建，为团队提供构建、评估和运行AI所需的基础设施。其核心功能包括：用于数据驱动闭环的可观测性、基于 Temporal 的有状态智能体运行时，以及用于模型和提示词版本管理的 AI 注册表。

智能体产品更新部署/工程

10月20日

00:00

Claude：Blog（网页）

精选

Claude Code 发布网页版

Anthropic 推出网页版 Claude Code，以研究预览形式向 Pro、Max 及企业用户开放。用户可直接在浏览器中分配编码任务，无需本地终端，支持并行处理多个 GitHub 仓库的开发工作，并自动创建 PR 和变更摘要。该服务基于云端隔离沙盒运行，具备网络和文件系统限制，同时登陆 iOS 应用支持移动编码。云会话与现有 Claude Code 使用共享速率限制。

智能体 Anthropic 产品更新编码

关联讨论 3 条

推荐理由：Claude Code搬进浏览器，零门槛并行编程提PR，手机端也能随时跑任务

10月16日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选73

为智能体配备现实世界技能：Agent Skills 开放标准

Anthropic 推出了“Agent Skills”开放标准，旨在为通用智能体（如Claude）提供可组合、可扩展且可移植的领域专业知识。一个Skill是一个包含指令、脚本和资源的文件夹，其核心SKILL.md文件采用渐进式披露设计，智能体可根据任务动态加载所需信息，从而最小化上下文占用。例如，PDF技能赋予了Claude直接操作PDF表单的新能力。该框架允许用户通过封装和共享程序性知识来定制智能体，无需为每个用例构建碎片化的定制代理。

智能体 Anthropic MCP/工具产品更新

推荐理由：Agent Skills 把「给 Agent 喂知识」从手写 prompt 变成了可复用的文件夹协议，做 Claude Code 或 Agent 产品的人现在就该动手试，这比 MCP 更轻量也更贴近日常开发。

10月8日

00:00

Berkeley RDI：Blog（AI 安全与评测）

CyberGym：大规模评估AI Agent真实网络安全能力

研究团队发布网络安全基准测试CyberGym，涵盖1,507个真实漏洞，规模达现有基准7.5倍。测试显示顶级AI Agent单次攻击成功率约30%，30次尝试可达67%，且已自主发现35个零日漏洞及17个补丁缺陷。Claude-Sonnet-4.5单次成功率28.9%，Claude-Sonnet-4达17.9%。测试时扩展策略可将GPT-5成功率从7.7%提升至22%，不同Agent能力互补，联合成功率近翻倍。

智能体 Anthropic 安全/对齐评测/基准

10月1日

08:00

OpenRouter：Announcements（RSS）

精选58

OpenRouter 推出每月100万免费BYOK请求

OpenRouter 向每位客户每月提供100万次“Bring Your Own Key”（BYOK）请求，完全免费。

智能体产品更新部署/工程

推荐理由：这个公告虽然旧了，但 OpenRouter 的 BYOK 免费额度至今仍在，对想低成本折腾模型的个人开发者来说，每月 100 万次请求比很多付费计划都香。