SGLang现已集成KTransformers后端，为DeepSeek-V3等稀疏MoE模型提供CPU/GPU混合推理加速。该技术采用Intel AMX优化内核，使单路Xeon算力达21.3 TFLOPS，较PyTorch原生实现快3.9倍；通过NUMA感知张量并行和CUDA Graph调度，双路服务器解码吞吐量提升63%，GPU内核启动开销从20%降至接近零；专家延迟机制支持跨层重排计算以重叠CPU与GPU执行，在精度变化低于0.5%的情况下使解码吞吐量再提高1.45倍。

DeepSeek 开源/仓库推理部署/工程

10月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

Circuits 更新 - 2025年10月

Anthropic可解释性团队分享了多项研究进展。研究发现，从Haiku 3.5到Sonnet 4.5等模型中存在跨模态视觉特征，能够识别ASCII艺术和SVG代码中编码的语义概念，如眼睛、嘴巴、狗、猫等。这些特征依赖于视觉描绘的上下文环境，例如，SVG圆形元素只有在位于激活“面部”特征的更大结构中时才会激活“眼睛”特征。在生成过程中对部分特征进行引导，可以对应修改文本艺术的语义，例如将ASCII表情从皱眉转为微笑，或为SVG面部添加皱纹。研究还发现模型存在类似“人脸幻想”的倾向，会将形状解释为动物绘图的组成部分。这些特征对人类手绘的SVG同样有效。

Anthropic 多模态推理论文/研究

推荐理由：为AI可解释性研究提供新实验方法，启发跨模态模型设计。

10月2日

00:00

Berkeley RDI：Blog（AI 安全与评测）

RL顿悟配方：如何让大模型通过强化学习攻克无解任务？

研究团队发布合成编程基准DELTA与Manufactoria测试平台，针对基础模型pass@128为零的分布外任务，提出两阶段奖励调度方案：先以密集每测试奖励打破零梯度僵局，再切换至二元全通奖励巩固精确解。实验显示，RL训练在漫长平台期后会出现"grokking"式相变，准确率骤升至约100%，证明模型能够发现全新策略而非仅优化已有知识。迁移测试表明，习得策略可重组编程子技能并外推至更难参数范围，但在需要新不变量的结构性转变上仍受限。

推理数据/训练论文/研究

9月29日

18:01

公众号：DeepSeek（深度求索）

DeepSeek-V3.2-Exp 发布，训练推理提效，API 同步降价

DeepSeek 推理模型发布

16:07

蚂蚁 inclusionAI：GitHub 新仓库

精选58

inclusionAI/dInfer

inclusionAI团队发布了dInfer，一个专为扩散语言模型设计的高效推理框架。该框架旨在解决扩散模型在文本生成领域推理速度慢、资源消耗大的核心挑战。dInfer通过一系列底层优化技术，显著提升了推理效率，能够更快地生成文本，同时降低计算成本，为扩散模型在更广泛的实际应用场景中部署提供了关键技术支持。

开源/仓库推理部署/工程

推荐理由：蚂蚁把扩散语言模型的推理框架开源了，这类模型的推理效率一直是落地瓶颈，做端侧或低成本部署的团队值得看看能不能接上。

9月26日