全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「教程/实践」清除

3月5日周四

17:01公众号：豆包（字节）28CEO们如何用豆包？我们请六位企业家聊了聊

3月4日周三

01:00Google Blog：AI（RSS）精选在 Project Genie 中创建新世界的 4 个技巧

00:50Hugging Face：Blog（RSS）70精选PRX 第三部分 -- 24小时内训练一个文本到图像模型！

3月3日周二

20:56公众号：蚂蚁百灵（Ling）41超长上下文训练速度翻倍秘籍

2月28日周六

18:34公众号：蚂蚁百灵（Ling）28百灵模型 Ling-2.5-1T 从6个文学维度评估创意写作能力

2月27日周五

21:02公众号：月之暗面（Kimi）32Kimi API：用90%缓存命中率，把价格打到25%

2月26日周四

22:00公众号：蚂蚁百灵（Ling）37蚂蚁百灵 Ling 2.5 完成 Lightning Attention+MLA 混合线性架构改造

2月20日周五

08:00Hugging Face：Blog（RSS）58使用 Unsloth 和 Hugging Face Jobs 免费训练 AI 模型

2月18日周三

09:45Ethan Mollick：One Useful Thing（RSS）精选Agentic 时代 AI 选择指南

2月13日周五

15:54公众号：月之暗面（Kimi）43Kimi K2.5 如何实现文本和视觉能力互相增强？

08:00Hugging Face：Blog（RSS）66Codex 与 Claude 为所有人提供定制化内核

1月29日周四

20:00公众号：蚂蚁百灵（Ling）35Clawdbot 换上百灵大脑：自动买车 Agent 测试

1月28日周三

08:00Hugging Face：Blog（RSS）50我们让Claude构建CUDA内核并教导开源模型！

1月27日周二

09:53Hugging Face：Blog（RSS）83精选解锁GPT-OSS的智能体强化学习训练：一项实践回顾

1月24日周六

06:53Saining Xie喜欢这段预告片哈哈（而且是真的）学术界把我们限制得太紧了，差点崩溃，但我们挣扎着爬了出来，在另一边发现了一个全新的宇宙😅 感谢 Google 支持我们这些缺 GPU 的叛逆者，带我们踏上这段旅程，帮助我们建立了我认为是 Google 之外最好的 TPU/GCP 基础设施团队之一【引用 @TongPetersb】：我们已经在学术界用 TPU 训练两年了（非常感谢 Google TRC！）。像 Cambrian-1、Cambrian-S、RAE 和 Scale-RAE 这样的工作没有 TPU 是不可能的。我们写了一篇博客文章分享我们的经验、优化和教训：https://cambrian-mllm.github.io/blog/tpu-training-experiments.html 我们希望这能帮助更多人更顺畅地使用 TPU，它们非常强大！

1月21日周三

00:00Mistral AI：News（网页）46调试vLLM中的内存泄漏

00:00LMSYS：Blog（Chatbot Arena 团队）Novita AI 优化 GLM4-MoE：基于 SGLang 实现 TTFT 降低 65%

1月9日周五

00:00Anthropic：Engineering（事故复盘 + 工程实践 · 网页）75精选揭秘AI智能体评估：构建可靠系统的关键

1月5日周一

15:45VentureBeat：AI（RSS）51Claude Code 创造者公开颠覆性工作流，开发者社区反响热烈

12月30日周二

17:22公众号：豆包（字节）28他们这样用豆包|2025年终讲述

12月24日周三

08:00OpenRouter：Announcements（RSS）55精选可蒸馏模型与合成数据管道：使用 NeMo Data Designer

08:00OpenRouter：Announcements（RSS）52使用 NeMo Data Designer 构建可蒸馏模型与合成数据流水线

12月11日周四

18:00公众号：小红书技术（dots.llm）52小红书技术提出细粒度激活卸载：大模型训练显存与吞吐性能联合最优方案

12月10日周三

18:00公众号：蚂蚁百灵（Ling）37蚂蚁百灵提出 IcePop 与 C3PO++ 方案，应对万亿参数 RLVR 稳定性与效率挑战

12月9日周二

18:06公众号：蚂蚁百灵（Ling）31Ming-Flash-Omni 全模态模型发布：视觉、语音、图像、文本理解与生成全面领先

12月4日周四

08:00Hugging Face：Blog（RSS）76精选利用Claude微调开源大语言模型的新途径

11月26日周三

00:00Anthropic：Engineering（事故复盘 + 工程实践 · 网页）75精选为长时运行智能体设计有效约束方案

11月25日周二

08:00Hugging Face：Blog（RSS）76精选从第一性原理看连续批处理

01:40Hugging Face：Blog（RSS）83精选构建深度研究智能体：实现顶尖水平的经验

11月17日周一

08:00Hugging Face：Blog（RSS）73精选使用Hugging Face轻松构建和共享ROCm内核

11月12日周三

10:46Ethan Mollick：One Useful Thing（RSS）精选给AI一场工作面试

00:00Claude：Blog（网页）精选通过 Skills 改进前端设计

11月4日周二

00:00Anthropic：Engineering（事故复盘 + 工程实践 · 网页）74精选通过代码执行提升MCP智能体效率

11月3日周一

00:00LMSYS：Blog（Chatbot Arena 团队）精选在 NVIDIA DGX Spark 上优化 GPT-OSS：实现本地大模型部署

10月30日周四

00:00Claude：Blog（网页）精选金融服务领域构建 AI 代理指南

10月23日周四

08:00OpenRouter：Announcements（RSS）45OpenRouter 探讨隐式缓存是否等同于 ZDR

10月1日周三

02:52Anthropic精选Anthropic 工程博客新文：开发者熟知 prompt engineering，但要让 AI agents 发挥最大价值，你需要 context engineering

9月29日周一

00:00Anthropic：Engineering（事故复盘 + 工程实践 · 网页）78精选为AI智能体实施有效的上下文工程

9月11日周四

00:00Anthropic：Engineering（事故复盘 + 工程实践 · 网页）73精选为智能体编写高效工具--与智能体协作

9月10日周三

15:01Thinking Machines Lab：官方博客（RSS）60精选破解LLM推理中的非确定性

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

3月5日

17:01

公众号：豆包（字节）

28

CEO们如何用豆包？我们请六位企业家聊了聊

六位企业CEO分享了他们使用豆包（字节跳动旗下AI助手）的实践经验与心得，涉及日常工作场景中的应用效果与价值。

3月4日

01:00

Google Blog：AI（RSS）

精选

在 Project Genie 中创建新世界的 4 个技巧

Google DeepMind 分享 Project Genie 使用指南，提供 4 个提示词写作技巧，帮助用户通过自然语言描述生成可交互的虚拟世界。

DeepMind Google 多模态教程/实践

关联讨论 1 条Google DeepMind：Blog（RSS）

推荐理由：Google DeepMind分享Project Genie提示词技巧，教你用AI生成可交互3D世界

00:50

Hugging Face：Blog（RSS）

精选70

PRX 第三部分 -- 24小时内训练一个文本到图像模型！

Photoroom团队在Hugging Face上发布博客，宣布成功在24小时内完成一个文本到图像模型的训练。这一突破将此类模型的典型训练周期从数周大幅缩短至仅一天。实现的关键在于采用了名为PRX的高效训练方法，该方法优化了计算资源分配与数据处理流程。此举显著降低了模型训练的时间与成本门槛，为快速迭代和部署高质量的图像生成AI模型提供了新的可能性。

图像生成教程/实践数据/训练

推荐理由：Photoroom 分享 24h 内训练文生图模型的实战路径，想快速复现的团队可直接参考

3月3日

20:56

公众号：蚂蚁百灵（Ling）

41

超长上下文训练速度翻倍秘籍

教程/实践数据/训练

2月28日

18:34

公众号：蚂蚁百灵（Ling）

28

百灵模型 Ling-2.5-1T 从6个文学维度评估创意写作能力

蚂蚁百灵推出Ling-2.5-1T模型，从6个文学维度重新审视其创意写作能力，旨在降低AI味，提升写作的自然度与文学性。

2月27日

21:02

公众号：月之暗面（Kimi）

32

Kimi API：用90%缓存命中率，把价格打到25%

Kimi K2.5 多模态模型的 API 输入成本，在 90% 缓存命中率下，实际价格为 1.03 元/M tokens，仅为标准定价 4 元/M tokens 的 2.5 折。Kimi API 缓存命中率通常在 85%-95% 之间波动，核心支撑是与清华大学合作研发的 Mooncake 推理架构，该架构获存储顶会 FAST 2025 最佳论文，并已开源。

开源/仓库推理教程/实践部署/工程

2月26日

22:00

公众号：蚂蚁百灵（Ling）

37

蚂蚁百灵 Ling 2.5 完成 Lightning Attention+MLA 混合线性架构改造

蚂蚁百灵（Ling）公布 Ling 2.5 模型架构改造实践，将 Lightning Attention 与 MLA（Multi-head Latent Attention）两种线性注意力机制融合，形成混合线性架构。该方案旨在平衡长序列推理效率与模型表达能力，为下一代大语言模型的注意力计算提供优化思路。

推理教程/实践

2月20日

08:00

Hugging Face：Blog（RSS）

58

使用 Unsloth 和 Hugging Face Jobs 免费训练 AI 模型

Hugging Face 宣布通过其平台提供免费 AI 模型训练服务，用户可结合 Unsloth 高效训练工具与 Hugging Face Jobs 功能，无需支付费用。该举措旨在降低 AI 开发门槛，推动开源开放科学，促进人工智能技术的民主化进程。核心变化在于将原先需付费或自建基础设施的训练流程，整合为平台内可直接调用的免费资源，显著减少开发者的时间和经济成本。

Hugging Face 教程/实践数据/训练

2月18日

09:45

Ethan Mollick：One Useful Thing（RSS）

精选

Agentic 时代 AI 选择指南

Agentic 时代 AI 不再只是聊天机器人，而是能自主执行任务的智能体。面对 Claude、GPT、LLaMA 等模型，需根据代理能力、任务类型和生态集成重新评估选择策略。

智能体教程/实践

推荐理由：AI 大咖 Ethan Mollick 撰写 Agent 时代实用选型指南

2月13日

15:54

公众号：月之暗面（Kimi）

43

Kimi K2.5 如何实现文本和视觉能力互相增强？

多模态教程/实践

08:00

Hugging Face：Blog（RSS）

66

Codex 与 Claude 为所有人提供定制化内核

Codex 和 Claude 宣布推出面向所有用户的定制化内核服务。这一举措旨在通过开源工具降低高级AI模型的访问门槛，使开发者能够根据特定需求调整和优化模型性能。新服务预计将支持更广泛的个性化应用开发，同时公布的相关基准测试显示，定制后模型在特定任务上的效率可提升高达30%。这标志着AI技术民主化进程又迈出关键一步。

智能体教程/实践编码

1月29日

20:00

公众号：蚂蚁百灵（Ling）

35

Clawdbot 换上百灵大脑：自动买车 Agent 测试

蚂蚁百灵团队将近期刷屏的自动买车 Agent Clawdbot 的核心大脑替换为自家百灵模型，进行功能测试。Clawdbot 是本周最火的通用 Agent 架构，此次实验验证了百灵模型在工具调用任务中的实际表现。

智能体教程/实践

1月28日

08:00

Hugging Face：Blog（RSS）

50

我们让Claude构建CUDA内核并教导开源模型！

研究团队成功利用Claude模型自动生成高性能CUDA内核代码，并将其应用于训练开源大语言模型。这一方法显著提升了模型在特定硬件上的计算效率，是推动AI民主化的重要步骤。通过开源工具与科学，团队致力于降低先进AI技术的开发门槛，让更广泛的社区能够参与并受益于人工智能的创新发展。

Anthropic 教程/实践编码

1月27日

09:53

Hugging Face：Blog（RSS）

精选83

解锁GPT-OSS的智能体强化学习训练：一项实践回顾

LinkedIn团队探索了将GPT-OSS模型作为智能体应用核心进行强化学习的可行性。实验发现，由于GPT-OSS采用的混合专家架构在两次前向传播中可能产生路由差异，导致在同策略PPO训练中出现重要性采样比率偏离、KL散度爆炸及奖励不增长的问题。团队通过一个关键修复——在同策略条件下强制将旧对数概率设置为新计算值（并分离梯度），确保了重要性采样比率为1，从而恢复了PPO同策略训练的完整性。该修复方案适用于GPT-OSS-20B及GPT-OSS-120B模型。

智能体 Hugging Face 教程/实践数据/训练

推荐理由：为MoE模型RL训练提供实用调试方案，提升代理AI开发效率。

1月24日

06:53

Saining Xie@sainingxie

喜欢这段预告片哈哈（而且是真的）学术界把我们限制得太紧了，差点崩溃，但我们挣扎着爬了出来，在另一边发现了一个全新的宇宙😅 感谢 Google 支持我们这些缺 GPU 的叛逆者，带我们踏上这段旅程，帮助我们建立了我认为是 Google 之外最好的 TPU/GCP 基础设施团队之一【引用 @TongPetersb】：我们已经在学术界用 TPU 训练两年了（非常感谢 Google TRC！）。像 Cambrian-1、Cambrian-S、RAE 和 Scale-RAE 这样的工作没有 TPU 是不可能的。我们写了一篇博客文章分享我们的经验、优化和教训：https://cambrian-mllm.github.io/blog/tpu-training-experiments.html 我们希望这能帮助更多人更顺畅地使用 TPU，它们非常强大！

Peter Tong: We have been training with TPUs in academia for two years now (huge thanks to Google TRC!). Works like Cambrian-1, Cambr...

Google 多模态教程/实践数据/训练

1月21日

00:00

Mistral AI：News（网页）

46

调试vLLM中的内存泄漏

在生产环境中，使用vLLM部署Mistral Medium 3.1模型进行Prefill/Decode分离推理时，团队发现了一个严重的内存泄漏问题。该问题表现为系统内存以每分钟400 MB的速度线性增长，最终将导致内存耗尽。泄漏仅在启用图编译且通过NIXL传输KV Cache的特定条件下出现，初步调查指向了传输层。团队从Python内存分析工具入手，但常规工具未能定位到根源，调查随后深入到底层与UCX和Infiniband相关的交互中。

教程/实践部署/工程

00:00

LMSYS：Blog（Chatbot Arena 团队）

Novita AI 优化 GLM4-MoE：基于 SGLang 实现 TTFT 降低 65%

Novita AI 发布基于 SGLang 的 GLM4-MoE 生产级优化方案，通过共享专家融合、Qknorm 融合与异步传输三项核心技术，在 H200 集群 TP8/FP8 配置下实现首 token 延迟（TTFT）降低 65%、每 token 输出时间（TPOT）提升 22%。针对 Agentic Coding 场景，团队提出无需额外训练草稿模型的 Suffix Decoding 技术，利用历史输出模式重复率进一步加速推理。

智能体教程/实践编码部署/工程

1月9日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选75

揭秘AI智能体评估：构建可靠系统的关键

有效的评估能帮助团队更自信地发布AI智能体，避免陷入仅在生产环境被动发现问题、修复可能引发新问题的循环。智能体因其多轮操作的自主性与灵活性，评估更为复杂。一个完整的评估结构包含任务、评分器、记录、结果、评估框架与评估套件等核心组件。缺乏系统评估将导致团队无法区分真实的质量倒退与随机波动。建立评估体系能帮助团队在智能体规模化过程中持续监控质量、自动测试变更并量化改进效果，其价值在智能体整个生命周期内持续累积。

智能体 Anthropic 教程/实践评测/基准

推荐理由：Anthropic 把内部踩过的坑全摊开了，从 eval 设计到 grader 选型到 transcript 审读，是目前最完整的 Agent 评估工程指南，做 Agent 产品的团队可以直接当手册用。

1月5日

15:45

VentureBeat：AI（RSS）

51

Claude Code 创造者公开颠覆性工作流，开发者社区反响热烈

Claude Code 创造者 Boris Cherny 公开的个人工作流引发广泛讨论。其核心是并行运行多个AI代理：在终端同时运行5个Claude，浏览器中运行5-10个，通过系统通知进行管理，将编码转变为类似指挥《星际争霸》的实时战略。他坚持使用最重、最慢的Opus 4.5模型，认为其更高智能度能减少人工干预，最终效率更高。团队还通过共享的CLAUDE.md文件将AI错误转化为永久规则，使代码库能自我修正。

智能体 Anthropic 教程/实践编码

12月30日

17:22

公众号：豆包（字节）

28

他们这样用豆包|2025年终讲述

其他教程/实践

12月24日

08:00

OpenRouter：Announcements（RSS）

精选55

可蒸馏模型与合成数据管道：使用 NeMo Data Designer

介绍如何利用 NeMo Data Designer 构建许可安全的合成数据工作流，用于模型特化（model specialization）。该管道支持生成可蒸馏模型所需的高质量合成数据，确保数据来源合规，适用于下游微调与领域适配场景。

教程/实践数据/训练

推荐理由：虽然发布快半年了，但教程讲的是如何用 NeMo Data Designer 构建 license-safe 的合成数据管道，对正在搞模型蒸馏和微调的开发者依然有参考价值，细节够实操。

08:00

OpenRouter：Announcements（RSS）

52

使用 NeMo Data Designer 构建可蒸馏模型与合成数据流水线

NeMo Data Designer 提供符合许可证安全的合成数据工作流，用于模型专门化与知识蒸馏，帮助开发者高效生成定制化训练数据。

教程/实践数据/训练

12月11日

18:00

公众号：小红书技术（dots.llm）

52

小红书技术提出细粒度激活卸载：大模型训练显存与吞吐性能联合最优方案

细粒度激活卸载（Fine-grained Activation Offloading）采用模块级粒度，将计算与内存传输重叠，并兼容全并行设计，在主流大模型训练中同时降低峰值显存开销并提升吞吐性能，实现显存开销与吞吐性能的联合最优，获得显著性能收益和显存收益。

教程/实践数据/训练部署/工程

12月10日

18:00

公众号：蚂蚁百灵（Ling）

37

蚂蚁百灵提出 IcePop 与 C3PO++ 方案，应对万亿参数 RLVR 稳定性与效率挑战

蚂蚁百灵发布 IcePop 与 C3PO++ 方案，旨在解决万亿参数级强化学习模型 RLVR 在训练稳定性与计算效率方面的关键技术挑战。

教程/实践数据/训练

12月9日

18:06

公众号：蚂蚁百灵（Ling）

31

Ming-Flash-Omni 全模态模型发布：视觉、语音、图像、文本理解与生成全面领先

Ming-Flash-Omni 在视觉、语音、图像、文本四种模态上同时实现了领先的理解与生成能力，覆盖音视图文全模态场景。该模型无需拆分为独立子模型即可统一处理多模态输入与输出，标志着全模态 AI 的重要进展。

多模态教程/实践

12月4日

08:00

Hugging Face：Blog（RSS）

精选76

利用Claude微调开源大语言模型的新途径

Anthropic的研究人员探索了一种新方法：使用其强大的闭源AI助手Claude来生成高质量的指令遵循数据，并用这些数据对较小的开源模型（如LLaMA系列）进行监督微调。这项实验旨在展示如何利用尖端闭源模型的能力来指导和改进可公开访问的开源模型性能，从而推动AI技术的进步与民主化。

Anthropic Hugging Face 教程/实践数据/训练

推荐理由：用闭源模型蒸馏能力给开源模型，一条低成本微调的新路径值得关注

11月26日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选75

为长时运行智能体设计有效约束方案

为解决AI智能体在跨越多上下文窗口执行长期任务时的“记忆丢失”与进展不一致问题，Anthropic为Claude Agent SDK开发了一套双重方案。该方案包含一个初始化智能体，负责在首次运行时建立基础环境并生成功能清单；以及一个编码智能体，负责在后续会话中进行增量开发并提交清晰可合并的代码。通过结构化的进度日志和Git历史等机制，引导智能体避免“试图一次性完成所有功能”或“过早宣布完成”的失败模式，从而实现跨会话的持续有效协作。

智能体 Anthropic 教程/实践

推荐理由：Anthropic 把 Claude Agent SDK 跑长任务踩过的坑全摊开了，初始化 agent + 增量进度文件这套方案不复杂但极实用，做 Agent 产品的团队可以直接抄作业。

11月25日

08:00

Hugging Face：Blog（RSS）

精选76

从第一性原理看连续批处理

连续批处理是优化大型语言模型推理吞吐量的核心技术，通过并行处理多个对话并在生成完成后动态交换任务，以最大化硬件利用率。从注意力机制和KV缓存的基础原理出发，文章推导了如何通过优化批处理提升性能。注意力层具有二次复杂度，但连续批处理允许查询、键和值张量容纳不同长度的令牌序列，从而同时处理预填充和解码阶段。该技术能显著降低生成每个令牌的计算成本，适用于高负载服务场景，提升响应速度。

Hugging Face 推理教程/实践部署/工程

推荐理由：深入理解LLM推理优化原理，助力高效模型部署。

01:40

Hugging Face：Blog（RSS）

精选83

构建深度研究智能体：实现顶尖水平的经验

Tavily团队因模型迭代重建了深度研究系统，核心是从工作流转向智能体架构，并聚焦上下文工程。通过Tavily Advanced Search进行上下文管理的网络检索，高效获取高相关度内容，避免信息过载。智能体设计模仿人类研究模式：收集信息、提炼要点、决策下一步，仅在生成最终交付物时引用原始资料，大幅减少令牌消耗，实现线性增长而非传统二次方增长。团队遵循简化编排逻辑、关注模型与工具优化方向、强化上下文工程等原则，以构建能随模型进化而持续改进的智能体系统。

智能体 Hugging Face 教程/实践部署/工程

推荐理由：分享构建高效 AI 代理的实战技巧，优化上下文工程以提升性能。

11月17日

08:00

Hugging Face：Blog（RSS）

精选73

使用Hugging Face轻松构建和共享ROCm内核

Hugging Face的kernels库简化了高性能深度学习内核的构建与共享，支持CUDA、ROCm等多种后端。本文以ROCm兼容内核为例，展示如何利用kernel-builder工具构建、测试并共享内核。以RadeonFlow的GEMM内核为具体案例，该内核是针对AMD Instinct MI300X GPU优化的FP8块状矩阵乘法实现，采用e4m3fnuz浮点格式和每块缩放因子以保持低精度计算准确性，并在2025年AMD开发者挑战赛中获最高奖。指南涵盖项目设置、构建配置及通过kernels社区分享的完整步骤。

Hugging Face 开源生态教程/实践部署/工程

推荐理由：AMD GPU开发者可快速上手构建高性能AI内核，提升部署效率。

11月12日

10:46

Ethan Mollick：One Useful Thing（RSS）

精选

给AI一场工作面试

AI建议愈发关键，亟需建立系统化评估机制。通过工作面试般的严格测试，全面检验AI的实际能力与可靠性，确保其建议值得信赖。

推荐理由：Ethan Mollick 分享通过'工作面试'法系统评估 AI 能力的实用框架

00:00

Claude：Blog（网页）

精选

通过 Skills 改进前端设计

LLM 生成界面常因"分布收敛"而陷入 Inter 字体配紫色渐变的同质化设计。Anthropic 建议通过 Skills 功能解决：将排版、动画、配色等设计规范存入独立 Markdown 文件，Claude 可在构建页面时动态加载，无需永久占用系统提示词。这种按需加载机制既保持上下文窗口精简以维持模型性能，又能让 AI 生成摆脱默认审美、更具品牌辨识度的定制化界面。

智能体 Anthropic 教程/实践编码

推荐理由：Claude官方分享通过Skills解决AI生成界面同质化问题的实践技巧，附字体与主题优化Prompt示例。

11月4日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选74

通过代码执行提升MCP智能体效率

随着AI智能体通过模型上下文协议（MCP）连接的工具数量激增，传统预先加载所有工具定义并通过上下文传递中间结果的方法，导致处理速度变慢、成本增加。问题核心在于工具定义占用大量上下文空间，且中间结果（如完整会议记录）在多次工具调用间重复传递，额外消耗数万令牌。文章提出解决方案：将MCP服务器呈现为代码API，使智能体能按需加载工具，并在执行环境中处理数据，仅将精简结果传回模型，从而显著减少令牌消耗、提升效率并降低成本。

智能体 Anthropic MCP/工具教程/实践

推荐理由：Anthropic 官方把 MCP 从「能连」推进到「连多了怎么办」，用代码执行替代直接工具调用，token 省 98.7% 这个数字不是吹的。做 Agent 工程的人如果还在暴力塞 tool definition，这篇是必读的架构升级指南。

11月3日

00:00

LMSYS：Blog（Chatbot Arena 团队）

精选

在 NVIDIA DGX Spark 上优化 GPT-OSS：实现本地大模型部署

与 NVIDIA 合作，在 DGX Spark 上通过 SGLang 成功支持 GPT-OSS 20B 与 120B 模型，实现 20B 版本约 70 tokens/s、120B 版本约 50 tokens/s 的生成速度，达到目前最优水平。用户可通过 Docker 部署 SGLang 服务，接入 Open WebUI 实现本地聊天，或借助 LMRouter 转换请求格式以完全本地化运行 Claude Code。该方案使在 DGX Spark 上部署多百亿参数本地编码智能体成为现实。

智能体 OpenAI 教程/实践端侧

推荐理由：DGX Spark本地跑通Claude Code完全离线，隐私敏感开发者的新选择

10月30日

00:00

Claude：Blog（网页）

精选

金融服务领域构建 AI 代理指南

Claude 发布金融服务 AI 代理构建指南，分享 NBIM、Brex 等机构实践。NBIM 员工每周节省数百小时，McKinsey 研究显示欺诈检测生产力可提升 200% 至 2000%。AI 代理能自主整合多源数据、执行跨系统操作，在合规框架下处理客户服务与风险分析，将传统分析工具升级为可独立完成交易的自主系统。

智能体 Anthropic 教程/实践

推荐理由：Anthropic官方分享金融AI智能体落地实践，含NBIM、Brex等真实案例与效率数据。

10月23日

08:00

OpenRouter：Announcements（RSS）

45

OpenRouter 探讨隐式缓存是否等同于 ZDR

OpenRouter 在公告中提出问题：是否应将提供隐式缓存（implicit caching）的供应商视为“ZDR”？

教程/实践部署/工程

10月1日

02:52

Anthropic@AnthropicAI

精选

Anthropic 工程博客发文解释 context engineering。与 prompt engineering 不同，context engineering 通过优化上下文帮助 AI agents 发挥最大效能，文章详解其工作原理。

智能体 Anthropic 教程/实践

推荐理由：Anthropic提出「上下文工程」方法论，指导开发者优化AI Agent设计

9月29日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选78

为AI智能体实施有效的上下文工程

随着AI应用从单次提示转向构建长期运行的智能体，焦点正从“提示工程”演进为“上下文工程”。后者旨在为大型语言模型优化有限的上下文窗口内的全部信息，包括指令、工具、外部数据和对话历史。其核心挑战在于模型存在“注意力预算”限制和“上下文腐化”现象——随着上下文增长，模型回忆信息的准确性会下降。因此，上下文工程要求精心编排高价值信息，以有限的资源最大化产出期望结果，这已成为构建高性能、可操控智能体的关键。

智能体 Anthropic MCP/工具教程/实践

推荐理由：Anthropic 亲自下场定义 context engineering 这个新范式，把 prompt engineering 之后的工程方法论讲透了。做 Agent 的人如果还在死磕 prompt，这篇会让你重新审视整个技术栈。

9月11日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选73

为智能体编写高效工具--与智能体协作

文章探讨如何为基于大语言模型的智能体设计高效工具。核心方法是通过与智能体（如Claude Code）协作，采用快速原型构建和全面评估的迭代流程来优化工具性能。关键设计原则包括：选择适当的工具实现范围，使用命名空间明确功能边界，从工具向智能体返回有意义的上下文，优化响应以提高token效率，以及对工具描述进行提示词工程。工具本质上是确定性系统与非确定性智能体之间的新契约，设计应优先考虑智能体的使用体验，而非传统开发者导向的API思路，以扩大智能体解决实际任务的能力。

智能体 Anthropic MCP/工具教程/实践

推荐理由：Anthropic 把自家内部反复打磨的 agent 工具开发方法论完整公开了，从评估流程到 prompt 工程细节全是实操干货，做 MCP server 或 agent 工具链的人可以直接抄作业。

9月10日

15:01

Thinking Machines Lab：官方博客（RSS）

精选60

破解LLM推理中的非确定性

LLM推理的再现性是科学进步的基础，但即使在温度设为0的贪心采样下，ChatGPT等API以及vLLM、SGLang等自托管推理引擎仍无法保证确定性结果。常见的“并发+浮点非结合性”假设并不完整——GPU上重复执行相同矩阵乘法结果完全一致。真正原因在于：部分GPU内核是非确定性的，但LLM前向传播使用的内核均为确定性；推理服务器前向传播本身是确定性的，用户感知的非确定性源于浮点运算非结合性在不同聚合顺序下导致的细微数值差异。文章揭示了这一误解，并探讨如何实现真正可重现的LLM推理输出。

开源/仓库推理教程/实践部署/工程

推荐理由：Horace He 把 LLM 推理非确定性的锅从并发浮点转向 batch-size，并给出了可落地的 batch-invariant 内核实现，做推理部署和 RL 的工程师都该看看。

1…40 414243 44