1月21日

00:00

Mistral AI：News（网页）

在生产环境中，使用vLLM部署Mistral Medium 3.1模型进行Prefill/Decode分离推理时，团队发现了一个严重的内存泄漏问题。该问题表现为系统内存以每分钟400 MB的速度线性增长，最终将导致内存耗尽。泄漏仅在启用图编译且通过NIXL传输KV Cache的特定条件下出现，初步调查指向了传输层。团队从Python内存分析工具入手，但常规工具未能定位到根源，调查随后深入到底层与UCX和Infiniband相关的交互中。

教程/实践部署/工程

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选72

设计抗AI技术评估的实践

Anthropic性能优化团队负责人Tristan Hume分享了设计抗AI技术评估的经验。自2024年初，团队使用带回家测试评估候选人优化模拟加速器代码的能力，超1000人参与，成功招聘数十名工程师。但随着Claude模型快速迭代，Opus 4已超越多数人类申请者，Opus 4.5甚至匹配顶尖候选人，导致在时间限制下难以区分人类与AI输出。为此，作者三次重设计测试，探索抗AI评估要素，详述原始设计、模型破解方式及非常规对策。最终，团队将原始测试作为公开挑战发布，因无时间限制时人类表现仍优于Claude。

Anthropic 大佬观点现象/趋势

推荐理由：Anthropic 性能优化负责人亲手写了三版面试题被自家模型逐一击穿的全过程，这种坦诚的工程复盘比任何 AI 能力排行榜都更真实地告诉你，模型到底强到了什么程度。

1月19日

22:00

VentureBeat：AI（RSS）

Claude Code月费高达200美元，开源替代Goose完全免费

Anthropic旗下的AI编程代理Claude Code每月订阅费高达200美元，且其基于令牌的速率限制引发开发者不满。与此同时，Block公司推出的开源AI代理Goose提供了近乎相同的功能，可在本地机器上完全免费运行，无需订阅费或云端依赖，并能离线工作、保障数据隐私。该项目在GitHub上已获得超过2.6万颗星，成为Claude Code的热门替代选择。

智能体 Anthropic GitHub 开源/仓库

13:26

Steve Yegge：Medium（RSS）

史蒂夫的生日博客

作者临近57岁生日，回顾了近期在AI领域的活跃动态。人工智能领域正吸引大量资本涌入，作者因其文章和项目收到了众多风险投资人的接触，并因Gas Town相关加密货币$GAS产生了约30万美元的交易费收入，但他强调需专注于软件开发而非被资本或社区分散精力。文章还讨论了利用20余个AI智能体进行高端编程对工作与休息节奏带来的影响，表现为频繁的深度小睡需求。

智能体 GitHub 大佬观点现象/趋势

1月9日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选75

揭秘AI智能体评估：构建可靠系统的关键

有效的评估能帮助团队更自信地发布AI智能体，避免陷入仅在生产环境被动发现问题、修复可能引发新问题的循环。智能体因其多轮操作的自主性与灵活性，评估更为复杂。一个完整的评估结构包含任务、评分器、记录、结果、评估框架与评估套件等核心组件。缺乏系统评估将导致团队无法区分真实的质量倒退与随机波动。建立评估体系能帮助团队在智能体规模化过程中持续监控质量、自动测试变更并量化改进效果，其价值在智能体整个生命周期内持续累积。

智能体 Anthropic 教程/实践评测/基准

推荐理由：Anthropic 把内部踩过的坑全摊开了，从 eval 设计到 grader 选型到 transcript 审读，是目前最完整的 Agent 评估工程指南，做 Agent 产品的团队可以直接当手册用。

1月5日

15:45

VentureBeat：AI（RSS）

Claude Code 创造者公开颠覆性工作流，开发者社区反响热烈

Claude Code 创造者 Boris Cherny 公开的个人工作流引发广泛讨论。其核心是并行运行多个AI代理：在终端同时运行5个Claude，浏览器中运行5-10个，通过系统通知进行管理，将编码转变为类似指挥《星际争霸》的实时战略。他坚持使用最重、最慢的Opus 4.5模型，认为其更高智能度能减少人工干预，最终效率更高。团队还通过共享的CLAUDE.md文件将AI错误转化为永久规则，使代码库能自我修正。

智能体 Anthropic 教程/实践编码

12月31日

11:50

公众号：豆包（字节）

豆包发布年度回顾

豆包（字节跳动）发布年度回顾，以99个用户与AI助手的真实互动瞬间，记录每个人在2025年的故事。

其他

12月30日

17:22

公众号：豆包（字节）

他们这样用豆包|2025年终讲述

其他教程/实践

12月24日

08:00

OpenRouter：Announcements（RSS）

精选55

可蒸馏模型与合成数据管道：使用 NeMo Data Designer

介绍如何利用 NeMo Data Designer 构建许可安全的合成数据工作流，用于模型特化（model specialization）。该管道支持生成可蒸馏模型所需的高质量合成数据，确保数据来源合规，适用于下游微调与领域适配场景。

教程/实践数据/训练

推荐理由：虽然发布快半年了，但教程讲的是如何用 NeMo Data Designer 构建 license-safe 的合成数据管道，对正在搞模型蒸馏和微调的开发者依然有参考价值，细节够实操。