2月15日

23:39

公众号：MiniMax（稀宇科技）

MiniMax M2.5-HighSpeed 上线：100 TPS，3 倍速推理

MiniMax 推出 M2.5-highspeed 模型，支持 100 TPS 极速推理，速度达到同类产品的 3 倍。Coding Plan 与 API 同步上线，Coding Plan 提供 Plus、Max、Ultra 三档套餐，邀请好友可享 9 折优惠。此前 M2.5 发布 48 小时内已有 50 余款国内外产品接入。

智能体推理模型发布

2月14日

22:06

公众号：MiniMax（稀宇科技）

训练加速40倍、打破"不可能三角"：MiniMax Agent RL 架构解密

MiniMax 解密其 Agent RL 架构，该架构实现了 40 倍训练加速，并打破了训练效率、模型性能与推理能力之间的“不可能三角”。

智能体数据/训练论文/研究

10:00

公众号：智谱（GLM）

金山办公接入GLM-5：WPS灵犀开启AI原生办公"最后一公里"

金山办公将智谱GLM-5模型接入WPS灵犀，旨在打通AI原生办公的“最后一公里”。

智能体产品更新

00:00

MiniMax：Blog（网页）

Forge：可扩展的智能体强化学习框架与算法

Forge是MiniMax开发的内部强化学习框架，旨在解决智能体强化学习中系统吞吐量、训练稳定性和智能体灵活性之间的核心矛盾。它通过灵活的系统架构、针对长程智能体优化的算法、尊重训练分布的异步调度以及激进的训练/推理优化，实现了突破。在MiniMax M2.5模型开发期间，Forge处理了超过十万个不同的真实世界智能体框架与环境，支持达200k的上下文长度，并实现了每日百万级样本的吞吐量。结合CISPO算法与复合奖励设计，Forge提升了模型在真实任务中的能力，支撑了M2.5的开发。

智能体推理论文/研究部署/工程

00:00

字节 Seed：Research Feed（网页内嵌数据）

精选

Seed2.0 正式发布

Seed2.0系列正式发布，推出Pro、Lite、Mini三款通用Agent模型及专用Code模型，针对复杂多模态任务与长链路Agent场景优化。模型在视觉理解、数学推理与长上下文处理方面达SOTA水平，SuperGPQA分数超越GPT-5.2，并在ICPC、IMO、CMO测试中获金牌。支持科学研究级任务，token成本较顶尖模型降低约一个数量级。目前已上线豆包App、TRAE及火山引擎API。

智能体多模态模型发布编码

推荐理由：字节 Seed2.0 正式发布，Agent 与多模态能力全面升级，已接入豆包和 TRAE

2月13日

20:00

Cursor Blog

Box 选择 Cursor，看重企业级质量、安全性与可控性

Box 因原生数据隐私与代理质量控制选择 Cursor 作为核心 IDE 与 AI 编程平台。目前 85% 以上工程师日常使用，推动产品路线图交付效率提升 30-50%。通过自定义规则与命令扩展，Box 将 React 迁移速度提升 80%，设计系统迁移提速 90%，同时确保企业级安全与代码质量。配合导师计划，六周内 Cursor 使用量增加 75%，800 余名开发者已实现 AI 辅助开发。

智能体产品更新编码

08:00

Hugging Face：Blog（RSS）

Codex 与 Claude 为所有人提供定制化内核

Codex 和 Claude 宣布推出面向所有用户的定制化内核服务。这一举措旨在通过开源工具降低高级AI模型的访问门槛，使开发者能够根据特定需求调整和优化模型性能。新服务预计将支持更广泛的个性化应用开发，同时公布的相关基准测试显示，定制后模型在特定任务上的效率可提升高达30%。这标志着AI技术民主化进程又迈出关键一步。

智能体教程/实践编码

2月12日

08:00

Hugging Face：Blog（RSS）

精选83

实践中的OpenEnv：在真实环境中评估工具使用智能体

Meta与Hugging Face联合推出开源评估框架OpenEnv，旨在标准化智能体与真实系统的交互。Turing公司贡献了生产级“Calendar Gym”环境，用于在权限控制、时间推理等现实约束下研究工具使用智能体。该框架采用类似Gymnasium的API，通过标准接口连接真实工具，将评估重点从受控演示转向真实世界可靠性。日历系统因涉及多用户、多步骤工作流等复杂性，成为评估智能体实际能力的强大测试平台。

智能体 Hugging Face MCP/工具 Meta

推荐理由：提供生产级基准测试，帮助开发者评估和改进 AI 代理在复杂环境中的表现。

00:00

MiniMax：Blog（网页）

精选67

MiniMax 发布 MiniMax M2.5 模型，专为现实世界生产力打造

MiniMax 最新发布的大语言模型 M2.5，通过在数十万个复杂现实环境中进行强化学习训练，在编码、智能体工具调用、搜索和办公工作等多项任务上达到 SOTA。模型推理效率高，完成 SWE-Bench Verified 评估的速度比前代 M2.1 快 37%，与 Claude Opus 4.6 相当。定价方面，以 100 tokens/秒运行时每小时成本仅 1 美元。M2.5 在超过 10 种编程语言和 20 多万个真实环境中训练，具备从系统设计到测试的全流程能力。

智能体搜索模型发布编码

推荐理由：MiniMax M2.5 把 SWE-bench 拉到 80.2%，成本只有 Claude Opus 4.6 的十分之一，速度还翻倍，对做 agent 的团队来说是个高性价比选择。

00:00

智谱：研究（网页内嵌数据）

精选

GLM-5开源：从代码到工程，Agentic Engineering时代最好的开源模型

GLM-5 开源，参数规模达 744B（激活 40B），预训练数据 28.5T，集成 DeepSeek Sparse Attention 降低部署成本。Coding 能力对齐 Claude Opus 4.5，Agent 能力支持 SOTA 级长程任务执行，兼容国产芯片。同步推出 OpenClaw、AutoGLM、Z Code 及 Excel 插件等工具链，覆盖端到端开发、办公自动化等场景。

智能体模型发布编码

推荐理由：智谱开源744B参数GLM-5，主打Agentic Engineering与编码能力，支持国产芯片推理

2月10日

20:09

公众号：小红书技术（dots.llm）

懂剪辑，更懂叙事：FireRed-OpenStoryline--首个开源具备导演思维的视频剪辑Agent

FireRed-OpenStoryline 今日正式开源，成为首个具备导演思维的视频剪辑Agent，将大模型能力从文本、图像拓展至视频剪辑领域。

智能体多模态开源/仓库视频

2月9日

00:00

Moonshot AI：Kimi Blog

精选

Agent Swarm多代理协作系统

Kimi推出Agent Swarm系统，支持100个子代理并行工作，可执行超1500次工具调用，任务完成速度比顺序执行快4.5倍。该系统突破单模型上下文限制，采用自我组织架构，用户下达指令后自动"招聘"CEO、研究员等角色并动态分配工作流，无需人工编写脚本。适用于大规模信息搜集、长文档生成及多视角辩论等场景，通过结构性分歧避免AI群体思维。

智能体产品更新

关联讨论 1 条

推荐理由：Kimi发布Agent Swarm，支持100个AI子代理并行协作，可自动分解复杂研究任务

2月5日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选78

用并行Claude智能体团队从零构建C编译器

研究人员采用“智能体团队”方法，让多个Claude实例在无人工干预下并行协作开发代码。为进行压力测试，团队指派16个智能体从零编写一个能编译Linux内核的Rust版C编译器。项目消耗近2000次会话和约2万美元，最终产出10万行代码的编译器，可成功在x86、ARM和RISC-V架构上构建Linux 6.9内核。研究重点在于设计支持长时间自主运行的智能体团队框架，包括如何编写测试以保持智能体不偏离方向，以及如何通过基于文本文件的锁机制协调多智能体并行任务分配。

智能体 Anthropic 大佬观点编码

推荐理由：Anthropic 研究员用 16 个 Claude 并行写了个能编译 Linux 内核的 C 编译器，2000 次会话花了两万刀。真正值钱的不是编译器本身，而是他总结的 agent 团队协作方法论，做多 agent 系统的人该逐段拆。

2月3日

04:00

Qwen：Blog Retrieval（API）

Qwen3-Coder-Next：推进小型混合模型在智能体编程中的应用

Qwen Studio 提供全栈功能，涵盖聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索集成、工具调用及 Artifacts 等模块。

智能体模型发布编码

2月2日

21:55

公众号：MiniMax（稀宇科技）

MiniMax Agent "卧底" Moltbook 聊天记录曝光

MiniMax Agent 以卧底身份潜入 Moltbook，相关聊天记录被曝光。

智能体产品更新

1月30日

08:04

公众号：月之暗面（Kimi）

不只PPT，Kimi K2.5 Agent可以帮你做Excel、Word和PDF了

智能体产品更新多模态

1月29日

20:00

公众号：蚂蚁百灵（Ling）

Clawdbot 换上百灵大脑：自动买车 Agent 测试

蚂蚁百灵团队将近期刷屏的自动买车 Agent Clawdbot 的核心大脑替换为自家百灵模型，进行功能测试。Clawdbot 是本周最火的通用 Agent 架构，此次实验验证了百灵模型在工具调用任务中的实际表现。

智能体教程/实践

15:35

Steve Yegge：Medium（RSS）

Software Survival 3.0

作者基于对AI指数级发展的预测，于2025年末构建了Gas Town项目，以验证软件编排（orchestration）的早期形态。文章指出，在未来AI能编写几乎所有软件的“Software 3.0”时代，选择压力将遵循一条核心法则：节省认知资源的软件更可能生存。由于推理（Inference）消耗Token，而Token、能源与成本相互关联且受限，因此最小化认知支出（可量化为Token消耗）成为关键。作者主张，系统应优先使用能完成任务的最小模型，并通过编排将任务分配给合适的模型层，以节约能源与成本。

智能体大佬观点开源生态

08:00

Hugging Face：Blog（RSS）

发布 Daggr：以编程方式链接应用，以可视化方式进行检查

Meta AI 团队发布了开源工具 Daggr，旨在通过编程方式链接不同的 AI 应用，并支持对工作流进行可视化检查与调试。该工具允许开发者将多个模型（如 GPT、Claude、LLaMA）和数据处理步骤串联成自动化流程，同时提供直观的图形界面来监控数据流转和状态变化。此举是其通过开源与开放科学推进人工智能民主化进程的一部分。

智能体 Hugging Face 产品更新部署/工程

1月28日

00:55

Ethan Mollick：One Useful Thing（RSS）

精选

管理是 AI 的超能力

智能体（agents）时代，管理能力将成为人类 thriving 的核心超能力。在 AI 主导的未来，懂得如何管理比单纯的技术能力更能决定成败。

智能体大佬观点

推荐理由：沃顿教授 Ethan Mollick 深度解析 Agent 时代的管理变革与机遇

1月27日

19:11

公众号：月之暗面（Kimi）

精选61

Kimi 发布并开源 K2.5 模型，带来全新视觉理解、代码和 Agent 集群能力

智能体多模态开源/仓库模型发布

推荐理由：Kimi K2.5把视觉理解和Agent集群能力打包开源，国内模型里比较早做这个组合的，虽然参数规模争议不小，但对想搭多模态Agent的团队是个可用的起点。

09:53

Hugging Face：Blog（RSS）

精选83

解锁GPT-OSS的智能体强化学习训练：一项实践回顾

LinkedIn团队探索了将GPT-OSS模型作为智能体应用核心进行强化学习的可行性。实验发现，由于GPT-OSS采用的混合专家架构在两次前向传播中可能产生路由差异，导致在同策略PPO训练中出现重要性采样比率偏离、KL散度爆炸及奖励不增长的问题。团队通过一个关键修复——在同策略条件下强制将旧对数概率设置为新计算值（并分离梯度），确保了重要性采样比率为1，从而恢复了PPO同策略训练的完整性。该修复方案适用于GPT-OSS-20B及GPT-OSS-120B模型。

智能体 Hugging Face 教程/实践数据/训练

推荐理由：为MoE模型RL训练提供实用调试方案，提升代理AI开发效率。

00:00

MiniMax：Blog（网页）

MiniMax-M2-her 技术解析：专为角色扮演打造的 AI 智能体

MiniMax 基于产品 Talkie/Xingye 三年的观察，推出了专为角色扮演场景优化的模型 MiniMax-M2-her。团队发现，深度角色扮演的核心是“叙事精度”和“情感连接”。该模型旨在解决三大挑战：保留每个角色与世界观的“灵魂”、维持故事随时间推进的叙事活力、以及解读用户的隐式意图。其目标是提供高保真的世界体验，能主动推动故事发展以赋予张力，并动态适应用户的长期习惯，实现直觉性的偏好对齐。

智能体模型发布评测/基准

00:00

Mistral AI：News（网页）

Mistral Vibe 2.0终端智能体发布

Mistral AI 发布了终端原生编码智能体 Mistral Vibe 2.0，由 Devstral 2 模型驱动。其主要升级包括：可构建自定义子代理、在执行操作前提供多选项澄清、通过斜杠命令加载技能，以及配置自定义工作流程。Mistral Vibe 2.0 目前可通过 Le Chat Pro 和 Team 计划使用，支持按使用量付费或自带 API 密钥。同时，Devstral 2 模型已转向付费 API 访问。

智能体产品更新编码

1月22日

01:05

Nathan Lambert：Interconnects（RSS）

精选

精通 Agents

AI Agents 的能力正逼近关键临界点，其性能飞跃已超出传统工作模式的承载范围。这要求从业者必须重新界定工作范畴、重构项目管理流程并革新任务执行策略。从需求规划到交付标准，现有方法论面临全面调整，组织与个人亟需掌握与智能体协作的新范式，以适应这一技术变革带来的深层影响。

智能体 Hugging Face 大佬观点

推荐理由：Agent工具迫使开发者重构工作流，资深研究者分享进阶路径

1月21日

20:00

Cursor Blog

Salesforce 采用 Cursor 加速开发超 30%，代码质量显著提升

Salesforce 在全球数千名工程师中推广 Cursor 后，开发速度实现两位数增长（超 30%），代码质量同步提升。内部数据显示，团队周期时间、缺陷数量和吞吐量均显著改善，某团队遗留代码覆盖率时间更缩短 85%。工程师采用路径分化：初级开发者借其理解复杂代码库，资深工程师则从自动化繁琐任务起步，逐步扩展至高频使用。公司认为 AI 编程工具对软件开发生命周期的改造才刚刚开始。

智能体产品更新编码

14:25

Hugging Face：Blog（RSS）

精选70

AssetOpsBench：弥合AI智能体基准测试与工业现实的差距

IBM Research在Hugging Face发布AssetOpsBench，这是一个工业资产运维的AI智能体基准测试框架。它基于真实场景构建，包含多行业数据集和超1000个运维事件，通过多阶段指标测试智能体的诊断、决策等能力，注重动态适应性、多模态处理和安全推理，以推动AI智能体走向实际工业应用。

智能体评测/基准

推荐理由：首个面向工业资产运维场景的 Agent 基准，填补学术评测与真实落地的鸿沟

00:00

LMSYS：Blog（Chatbot Arena 团队）

Novita AI 优化 GLM4-MoE：基于 SGLang 实现 TTFT 降低 65%

Novita AI 发布基于 SGLang 的 GLM4-MoE 生产级优化方案，通过共享专家融合、Qknorm 融合与异步传输三项核心技术，在 H200 集群 TP8/FP8 配置下实现首 token 延迟（TTFT）降低 65%、每 token 输出时间（TPOT）提升 22%。针对 Agentic Coding 场景，团队提出无需额外训练草稿模型的 Suffix Decoding 技术，利用历史输出模式重复率进一步加速推理。

智能体教程/实践编码部署/工程

1月20日

08:00

Hugging Face：Blog（RSS）

精选73

Overworld发布实时交互式视频扩散模型Waypoint-1

Overworld推出实时交互式视频扩散模型Waypoint-1，用户可通过文本、鼠标和键盘实时控制生成可步入的虚拟世界。该模型基于帧因果校正流变换器架构，在1万小时游戏视频及对应控制数据上训练，从一开始就专注于交互体验，支持零延迟的自由操控。其配套的高性能推理库WorldEngine在消费级硬件上可实现流畅运行，例如Waypoint-1-Small在RTX 5090上能以30 FPS（4步去噪）或60 FPS（2步去噪）生成画面。模型采用扩散强制预训练和自我强制后训练来确保生成长序列的稳定性。

智能体 Hugging Face 模型发布视频

推荐理由：零延迟交互式视频生成，游戏和创意应用开发者的福音。

1月19日

13:26

Steve Yegge：Medium（RSS）

史蒂夫的生日博客

作者临近57岁生日，回顾了近期在AI领域的活跃动态。人工智能领域正吸引大量资本涌入，作者因其文章和项目收到了众多风险投资人的接触，并因Gas Town相关加密货币$GAS产生了约30万美元的交易费收入，但他强调需专注于软件开发而非被资本或社区分散精力。文章还讨论了利用20余个AI智能体进行高端编程对工作与休息节奏带来的影响，表现为频繁的深度小睡需求。

智能体 GitHub 大佬观点现象/趋势

1月10日

01:42

Nathan Lambert：Interconnects（RSS）

精选

Claude Code 与众不同

Claude Code 集成 Opus 4.5 模型实现关键突破，编程智能体跨越重要能力阈值。此次升级标志着编码代理在自主性和工程处理能力上达到新水平，可应对更复杂的开发任务。Opus 4.5 显著提升了代码生成、调试及复杂问题解决的表现，使 AI 辅助编程从基础工具向高效协作伙伴转变，为开发者带来质的不同的使用体验与效率提升。

智能体 Anthropic 大佬观点编码

关联讨论 3 条

推荐理由：编码 Agent 跨越关键门槛，Claude Code 能力跃升将重塑开发者工作流

1月9日

08:00

OpenRouter：Announcements（RSS）

OpenRouter 1月发布：优先快速LLM、探索提供商、自定义自动路由、SDK技能加载与性能大提升

OpenRouter 1月发布聚焦优先选择快速大语言模型、探索提供商、自定义自动路由、在SDK中加载技能，以及大幅性能改进。

智能体产品更新部署/工程

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选75

揭秘AI智能体评估：构建可靠系统的关键

有效的评估能帮助团队更自信地发布AI智能体，避免陷入仅在生产环境被动发现问题、修复可能引发新问题的循环。智能体因其多轮操作的自主性与灵活性，评估更为复杂。一个完整的评估结构包含任务、评分器、记录、结果、评估框架与评估套件等核心组件。缺乏系统评估将导致团队无法区分真实的质量倒退与随机波动。建立评估体系能帮助团队在智能体规模化过程中持续监控质量、自动测试变更并量化改进效果，其价值在智能体整个生命周期内持续累积。

智能体 Anthropic 教程/实践评测/基准

推荐理由：Anthropic 把内部踩过的坑全摊开了，从 eval 设计到 grader 选型到 transcript 审读，是目前最完整的 Agent 评估工程指南，做 Agent 产品的团队可以直接当手册用。

1月8日

07:00

Ethan Mollick：One Useful Thing（RSS）

Claude Code 及其未来展望

合适的工具能让 AI 完成令人印象深刻的任务。Claude Code 体现了这一理念，展示了配备恰当工具后 AI 所能达到的成就，指向 AI 辅助开发的未来方向。

智能体 Anthropic 大佬观点编码

1月6日

08:00

xAI：News（网页）

xAI 完成 200 亿美元 E 轮融资

xAI 完成 200 亿美元 E 轮融资，投资方包括 NVIDIA、Cisco 等。目前拥有约 6 亿月活用户，运营超 100 万 H100 GPU 等效算力的 Colossus 超算，正在训练 Grok 5。资金将用于基础设施建设和 AI 产品开发。

智能体 xAI 多模态行业动态

1月5日

08:00

Hugging Face：Blog（RSS）

NVIDIA 借助 DGX Spark 与 Reachy Mini 将智能体带入现实

NVIDIA 推出 DGX Spark 平台与 Reachy Mini 机器人，旨在通过开源框架降低智能体开发门槛。该组合将大语言模型与物理执行器结合，使 AI 智能体能完成复杂任务。DGX Spark 提供分布式训练基础设施，Reachy Mini 则提供高精度七自由度机械臂硬件，共同推动具身智能发展。

智能体产品更新具身智能

1月1日

00:00

Dario Amodei：Blog（网页）

精选

技术的青春期

Dario Amodei 将当前 AI 发展阶段定义为「技术的青春期」，认为人类即将获得难以想象的力量，但社会和政治系统是否具备驾驭成熟度仍存疑。文章强调需避免「末日论」式恐慌，以务实、基于事实的方式讨论风险，同时承认 AI 发展速度和风险的不确定性。作者主张通过企业自愿行动与精准政府监管相结合，在避免过度干预的前提下应对潜在危险，为可能到来的更强有力行动储备证据和方案。

智能体 Anthropic 大佬观点安全/对齐

关联讨论 1 条

推荐理由：Anthropic CEO 长文剖析 AI 文明风险与治理路径，值得深读。

12月30日

08:00

xAI：News（网页）

精选

xAI推出Grok Business与Enterprise企业版

xAI发布Grok Business和Grok Enterprise企业版。Business版定价30美元/座位/月，支持自助开通，提供团队管理、统一账单及Google Drive集成（保留原文件权限），并承诺用户数据永不用于模型训练。Enterprise版面向大型组织，提供Custom SSO、Directory Sync及高级审计控制；可选的Enterprise Vault插件提供独立数据平面与客户自管加密密钥(CMEK)，实现应用级加密隔离。平台支持实时使用监控、安全对话共享及Projects功能。

智能体 xAI 产品更新部署/工程

推荐理由：xAI 推出 Grok 企业版，主打隐私保护与 Agent 能力，月费 30 美元起

12月25日

16:15

公众号：月之暗面（Kimi）

AlphaEngine Agent模型升级至Kimi K2 Thinking，7万金融投研人已在使用

金融投研工具AlphaEngine完成Agent模型升级，接入Kimi K2 Thinking。该工具目前已有7万金融投研人在使用。

智能体产品更新推理

12月24日

00:00

字节 Seed：Research Feed（网页内嵌数据）

Seed Prover 1.5：全新 Agentic 架构，更强数学推理表现

字节跳动 Seed 团队发布形式化数学推理模型 Seed Prover 1.5，采用 Agentic 架构支持 Mathlib 搜索、Python 执行与增量引理验证，并引入 Sketch Model 将复杂证明拆解为子引理并行攻克。基于大规模 Agentic RL 训练，该模型在 16.5 小时内完成 IMO 2025 前 5 题获 35/42 分（金牌线），9 小时内解决 Putnam 2025 的 11/12 题，在 Putnam 历史集、Fate-H 和 Fate-X 上分别达 88%、80% 和 33% 通过率，刷新多项 SOTA。

智能体推理模型发布