连续批处理是优化大型语言模型推理吞吐量的核心技术，通过并行处理多个对话并在生成完成后动态交换任务，以最大化硬件利用率。从注意力机制和KV缓存的基础原理出发，文章推导了如何通过优化批处理提升性能。注意力层具有二次复杂度，但连续批处理允许查询、键和值张量容纳不同长度的令牌序列，从而同时处理预填充和解码阶段。该技术能显著降低生成每个令牌的计算成本，适用于高负载服务场景，提升响应速度。

Hugging Face 推理教程/实践部署/工程

推荐理由：深入理解LLM推理优化原理，助力高效模型部署。

11月19日

13:19

Hugging Face：Blog（RSS）

精选78

Apriel-H1：蒸馏高效推理模型的关键要素

ServiceNow-AI在Hugging Face发布博客，介绍了其提出的Apriel-H1方法，该方法通过知识蒸馏技术有效提升小型模型的推理能力。该方法的核心在于从大型模型中提取并转移复杂的推理路径，使蒸馏后的小模型在多项推理任务上表现显著提升，同时保持高效的部署性能。这一技术为在资源受限环境中部署高性能推理模型提供了新思路。

Hugging Face 推理数据/训练模型发布

推荐理由：新蒸馏方法可能大幅降低推理模型部署成本，开发者可借鉴实践。

11月18日

00:54

Dwarkesh Patel：Podcast & Blog（RSS）

RL 的信息效率比你想象的还要低

强化学习（RL）在样本效率方面的缺陷比普遍认知更为严重，尤其在近期备受关注的可验证奖励强化学习（RLVR）领域。研究表明，RLVR 在训练大语言模型时所需的数据量远超预期，其信息效率可能比传统监督学习低数个数量级。这一发现对当前依赖 RLVR 提升模型推理能力的技术路线提出挑战，暗示现有方法在计算资源利用和训练数据需求方面存在显著瓶颈，可能需要更高效的探索策略或算法改进来降低对海量数据的依赖。

大佬观点推理数据/训练

11月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

2025年11月电路更新：解读模型在危害压力下的多选题行为机制

Anthropic可解释性团队研究了危害压力对Claude 3.5 Haiku模型多选题回答的影响。实验使用129个二选一问题，当添加有害意图语句时，模型准确率从100%骤降至48.1%。机制分析表明，注意力头中的“拒绝”查询特征与“危害检测”关键特征发生负向交互，显著降低了模型对正确答案的关注度。仅对该拒绝特征进行负向调控，即可将准确率恢复至93%。这证明模型在压力下并未改变事实认知，而是通过干扰注意力机制来主动拒绝提供正确答案，为理解模型拒绝行为提供了新视角。

Anthropic 推理论文/研究

推荐理由：揭示模型拒绝有害请求的内部机制，助力 AI 安全与可解释性研究。

11月13日

22:52

Google DeepMind：Blog（RSS）

精选

SIMA 2：在虚拟3D世界中与你共玩、推理和学习的智能体

Google 推出 SIMA 2，基于 Gemini 的 AI 智能体，支持在交互式环境中思考、理解并执行动作，可在虚拟3D世界中进行游戏、推理和协同学习。

智能体 DeepMind Google 产品更新

推荐理由：DeepMind发布SIMA 2，可在3D虚拟世界中交互推理的通用AI Agent

10月29日

22:31

Google DeepMind：Blog（RSS）

借助 AI for Math Initiative 加速科学发现

AI for Math Initiative 汇聚全球顶尖研究机构，率先探索 AI 在数学研究中的创新应用，加速科学发现。

DeepMind Google 推理论文/研究

10月24日

11:12

Google DeepMind：Blog（RSS）

精选

带 Deep Think 的 Gemini 高级版本在 IMO 中正式达到金牌标准

集成 Deep Think 的 Gemini 高级版本在国际数学奥林匹克（IMO）中达到金牌水平。IMO 自1959年起每年举办，是全球最顶尖的青年数学家竞赛，各国派出6名精英学生角逐代数、组合、几何和数论领域的6道极难题目。

DeepMind Google 推理模型发布

关联讨论 1 条

推荐理由：Gemini Deep Think在IMO数学竞赛达到金牌标准，推理能力获重大突破

08:02

Google DeepMind：Blog（RSS）

发现流体力学百年难题的新解法

新方法可帮助数学家利用AI技术攻克数学、物理与工程领域的长期挑战，为流体力学百年难题提供全新解决思路。

DeepMind 推理论文/研究

10月22日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang集成KTransformers：基于AMX优化与专家延迟的MoE混合推理加速

SGLang现已集成KTransformers后端，为DeepSeek-V3等稀疏MoE模型提供CPU/GPU混合推理加速。该技术采用Intel AMX优化内核，使单路Xeon算力达21.3 TFLOPS，较PyTorch原生实现快3.9倍；通过NUMA感知张量并行和CUDA Graph调度，双路服务器解码吞吐量提升63%，GPU内核启动开销从20%降至接近零；专家延迟机制支持跨层重排计算以重叠CPU与GPU执行，在精度变化低于0.5%的情况下使解码吞吐量再提高1.45倍。

DeepSeek 开源/仓库推理部署/工程

10月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

Circuits 更新 - 2025年10月

Anthropic可解释性团队分享了多项研究进展。研究发现，从Haiku 3.5到Sonnet 4.5等模型中存在跨模态视觉特征，能够识别ASCII艺术和SVG代码中编码的语义概念，如眼睛、嘴巴、狗、猫等。这些特征依赖于视觉描绘的上下文环境，例如，SVG圆形元素只有在位于激活“面部”特征的更大结构中时才会激活“眼睛”特征。在生成过程中对部分特征进行引导，可以对应修改文本艺术的语义，例如将ASCII表情从皱眉转为微笑，或为SVG面部添加皱纹。研究还发现模型存在类似“人脸幻想”的倾向，会将形状解释为动物绘图的组成部分。这些特征对人类手绘的SVG同样有效。

Anthropic 多模态推理论文/研究

推荐理由：为AI可解释性研究提供新实验方法，启发跨模态模型设计。

10月2日

00:00

Berkeley RDI：Blog（AI 安全与评测）

RL顿悟配方：如何让大模型通过强化学习攻克无解任务？

研究团队发布合成编程基准DELTA与Manufactoria测试平台，针对基础模型pass@128为零的分布外任务，提出两阶段奖励调度方案：先以密集每测试奖励打破零梯度僵局，再切换至二元全通奖励巩固精确解。实验显示，RL训练在漫长平台期后会出现"grokking"式相变，准确率骤升至约100%，证明模型能够发现全新策略而非仅优化已有知识。迁移测试表明，习得策略可重组编程子技能并外推至更难参数范围，但在需要新不变量的结构性转变上仍受限。

推理数据/训练论文/研究

9月29日

18:01

公众号：DeepSeek（深度求索）

DeepSeek-V3.2-Exp 发布，训练推理提效，API 同步降价

DeepSeek 推理模型发布

16:07

蚂蚁 inclusionAI：GitHub 新仓库

精选58

inclusionAI/dInfer

inclusionAI团队发布了dInfer，一个专为扩散语言模型设计的高效推理框架。该框架旨在解决扩散模型在文本生成领域推理速度慢、资源消耗大的核心挑战。dInfer通过一系列底层优化技术，显著提升了推理效率，能够更快地生成文本，同时降低计算成本，为扩散模型在更广泛的实际应用场景中部署提供了关键技术支持。

开源/仓库推理部署/工程

推荐理由：蚂蚁把扩散语言模型的推理框架开源了，这类模型的推理效率一直是落地瓶颈，做端侧或低成本部署的团队值得看看能不能接上。

9月26日