2月20日

00:06

Google DeepMind：Blog（RSS）

精选

Gemini 3.1 Pro：专为最复杂任务打造的更智能模型

Gemini 3.1 Pro 发布，专为无法通过简单回答解决的复杂任务设计，提供更智能的深度推理与处理能力。

Google 推理模型发布

关联讨论 1 条

推荐理由：Google 发布 Gemini 3.1 Pro，强化复杂任务推理能力

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang 在 NVIDIA GB300 NVL72 上实现 25 倍推理性能突破

SGLang 与 NVIDIA 合作，在最新 GB300 NVL72 服务器上实现相比 H200 最高 25 倍的推理性能提升。基于 Blackwell Ultra GPU 的架构升级包括 1.5 倍 FP4 算力和 2 倍 Softmax 吞吐量，结合 NVFP4 GEMM 低精度计算、计算通信重叠及与 NVIDIA Dynamo 的集成优化，DeepSeek R1 等 MoE 模型在 InferenceXv2 基准测试中达成突破性表现。同时，GB200 NVL72 平台性能在 4 个月内提升 8 倍，显著降低大模型部署的延迟与成本。

开源/仓库推理部署/工程

2月19日

00:00

LMSYS：Blog（Chatbot Arena 团队）

GB300 NVL72部署DeepSeek R1优化方案：长上下文推理性能突破

NVIDIA与SGLang团队发布DeepSeek R1-NVFP4在GB300 NVL72上的优化部署方案，针对128K/8K长上下文推理实现显著性能提升。通过PD分离、分块流水线并行、宽专家并行及多Token预测（MTP）等技术，系统在GB300上达226 TPS/GPU峰值吞吐量，较GB200提升1.53倍；相同延迟下性能领先1.4–1.6倍。MTP可再提升每用户TPS达1.87倍，128K预填充首Token延迟降至8.6秒。

DeepSeek 开源/仓库推理部署/工程

2月16日

09:52

公众号：蚂蚁百灵（Ling）

Ling-2.5-1T 开源发布：深度思考模型拉升智能上限，即时模型平衡效率与覆盖

蚂蚁百灵发布并开源 Ling-2.5-1T，包含深度思考模型（thinking model）与即时模型（instant model）两类。深度思考模型旨在拉高智能上限，即时模型则在效率与效果之间取得平衡，拓宽智能覆盖范围。该版本在模型架构、token 效率、偏好对齐等维度实现全面升级。

开源/仓库推理模型发布

2月15日

23:39

公众号：MiniMax（稀宇科技）

MiniMax M2.5-HighSpeed 上线：100 TPS，3 倍速推理

MiniMax 推出 M2.5-highspeed 模型，支持 100 TPS 极速推理，速度达到同类产品的 3 倍。Coding Plan 与 API 同步上线，Coding Plan 提供 Plus、Max、Ultra 三档套餐，邀请好友可享 9 折优惠。此前 M2.5 发布 48 小时内已有 50 余款国内外产品接入。

智能体推理模型发布

2月14日

15:48

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/Ling-2.5-1T

inclusionAI 发布了 Ling-2.5-1T 模型。该模型参数规模达到 1 万亿，是其 Ling 系列的最新版本。此次发布延续了通过开源和开放科学来推进人工智能民主化的使命，旨在让先进 AI 技术更广泛可及。新版本预计在语言理解与生成能力上有所提升，继续为全球研究社区提供强大的基础模型支持。

开源生态推理模型发布

14:06

公众号：豆包（字节）

豆包上线专家模式接入豆包大模型2.0 Pro

豆包上线专家模式，并接入豆包大模型2.0 Pro。该模式基于豆包大模型2.0 Pro，提供更专业的问答服务。

产品更新推理

00:00

MiniMax：Blog（网页）

Forge：可扩展的智能体强化学习框架与算法

Forge是MiniMax开发的内部强化学习框架，旨在解决智能体强化学习中系统吞吐量、训练稳定性和智能体灵活性之间的核心矛盾。它通过灵活的系统架构、针对长程智能体优化的算法、尊重训练分布的异步调度以及激进的训练/推理优化，实现了突破。在MiniMax M2.5模型开发期间，Forge处理了超过十万个不同的真实世界智能体框架与环境，支持达200k的上下文长度，并实现了每日百万级样本的吞吐量。结合CISPO算法与复合奖励设计，Forge提升了模型在真实任务中的能力，支撑了M2.5的开发。

智能体推理论文/研究部署/工程

2月13日

16:36

腾讯混元：Research（API）

通过 Token 级梯度诊断与 Layerwise Clipping 稳定 RLVR 训练

提出一种稳定 RLVR 训练的新方法，采用 Token 级梯度诊断技术精准定位异常梯度来源，结合逐层梯度裁剪（Layerwise Clipping）对不同网络层实施差异化约束，有效抑制训练过程中的梯度爆炸与策略震荡，提升强化学习训练的稳定性与收敛效率。

推理数据/训练论文/研究

07:00

公众号：MiniMax（稀宇科技）

MiniMax M2.5 发布：1美金/小时，真实世界工作王者

MiniMax M2.5发布，定价1美金/小时，定位为在真实世界工作场景中表现最顶尖的模型。

推理模型发布

2月11日

18:55

蚂蚁 inclusionAI：GitHub 新仓库

精选61

inclusionAI 发布高性能量化推理 GEMM 内核库 Humming

inclusionAI 开源了 Humming，这是一个专为量化推理设计的高性能、轻量级即时编译 GEMM 内核库。它支持在 FP16、BF16、FP8 等多种激活数据类型下进行 8 比特以下任意权重类型的推理，兼容多种量化策略与缩放类型，并同时支持稠密 GEMM 和混合专家 GEMM 运算。该库兼容 SM75+ 及以上的所有 NVIDIA GPU，在多种计算场景下能提供业界领先的吞吐量和效率。其依赖极简，仅需 PyTorch 和 NVCC，软件包大小仅约 100 KB，便于超轻量化部署。

开源/仓库推理部署/工程

推荐理由：蚂蚁 inclusionAI 开源了一个 100KB 级的量化 GEMM 库，支持从 INT1 到 FP8 全家桶，SM75+ 全覆盖，做推理部署的工程师值得花半小时跑一下 benchmark，看看能不能替换掉现有的 Marlin 方案。

18:52

蚂蚁 inclusionAI：GitHub 新仓库

精选65

inclusionAI发布新一代即时大模型Ling-2.5-1T

inclusionAI推出新一代旗舰即时模型Ling-2.5-1T，其总参数量达1T，活跃参数为63B，预训练语料扩展至29T tokens。该模型采用混合线性注意力架构，支持1M tokens上下文长度，并通过结合“正确性”与“过程冗余”的复合奖励机制，在相近的token效率下，其推理能力显著超越前代，接近前沿思维模型水平。经双向RL反馈和智能体验证等对齐策略优化，模型在创意写作和指令遵循任务上表现提升。它已兼容主流智能体平台，并在通用工具调用基准BFCL-V4上取得领先的开源性能。

开源/仓库推理模型发布部署/工程

推荐理由：蚂蚁把 1T 参数的即时模型开源了，63B 活跃参数加 1M 上下文，主打效率而非堆算力，对国内做开源推理模型的团队来说是个值得对标的基线。

18:52

蚂蚁 inclusionAI：GitHub 新仓库

精选78

inclusionAI发布全球首个开源万亿参数思维模型Ring-2.5-1T

inclusionAI发布了全球首个基于混合线性注意力架构的开源万亿参数思维模型Ring-2.5-1T。该模型通过高效的1:7 MLA与闪电线性注意力提升了推理速度与探索能力，并借助扩展的强化学习训练增强了深度思考和长程任务执行能力。其在IMO 2025和CMO 2025数学竞赛中均达到了金牌级别的性能。模型支持128K上下文长度，并可通过YaRN技术扩展至256K，现已于Hugging Face和ModelScope平台开源。部署方面，已支持SGLang，并提供了多GPU节点的服务器启动示例。

开源/仓库推理模型发布部署/工程

推荐理由：蚂蚁把万亿参数的开源 thinking model 放出来了，混合线性注意力架构是真新路线而非换皮，IMO/CMO 金牌级数学推理说明这不是纯堆参数。做开源大模型部署的团队值得认真看看它的架构选择。

2月10日

20:45

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/Ring-2.5-1T

inclusionAI 发布了 Ring-2.5-1T，这是一个拥有 1 万亿参数规模的大型语言模型。该模型旨在通过开源和开放科学的方式，推动人工智能技术的进步与普及。此次发布标志着在构建超大规模、可访问的 AI 模型方面取得了重要进展，为更广泛的研究社区提供了强大的基础工具。

开源生态推理模型发布

00:12

Google DeepMind：Blog（RSS）

借助 Gemini Deep Think 加速数学与科学发现

研究论文显示，Gemini Deep Think 在数学与科学等多个领域的影响力持续扩大，正加速科研发现进程。

DeepMind Google 推理论文/研究

2月7日

03:00

OpenAI：Alignment 研究博客（RSS）

精选71

在真实世界使用中发现未知的 AI 对齐偏差

研究表明，推理模型能够通过分析用户的实际反馈，识别并理解此前未知的 AI 行为对齐偏差。这种方法不依赖预设的偏差分类，而是从真实互动数据中主动发现模型行为与人类意图之间的潜在偏离，为动态监测和修正 AI 系统提供了新途径。

OpenAI 安全/对齐推理论文/研究

推荐理由：OpenAI 让推理模型从真实用户反馈中自动发现未知的对齐失败，这比红队测试更接近真实威胁面。做安全和对齐的人应该认真看，它可能改变你们的检测范式。

2月4日

18:40

公众号：腾讯混元

腾讯混元开源HPC-Ops算子库，推理吞吐提升30%

腾讯混元开源生产级高性能LLM推理核心算子库HPC-Ops，可带来30%的推理吞吐提升。

开源/仓库推理部署/工程

2月3日

19:06

公众号：腾讯混元

混元研究博客上线姚顺雨团队最新成果：从Context探索语言模型的范式转变

混元研究博客上线姚顺雨团队最新成果，从Context角度探索语言模型的范式转变，旨在推动Context学习真正走向现实。该成果聚焦于模型对上下文的理解与利用机制，为语言模型能力演进提供新思路。

推理论文/研究

1月30日

15:55

蚂蚁 inclusionAI：GitHub 新仓库

精选61

高效离线推理框架 Flood：吞吐量显著领先，支持多模态与量化

Flood 是一款面向离线应用的高效大语言模型推理框架。它采用流水线并行降低通信开销，并通过分段式KV缓存管理提升连续性。框架支持连续批处理、分块预填充、FP8/INT8量化及多模态模型推理。性能测试表明，其在多种模型和硬件上的吞吐量最高可达 vLLM 的 2.4 倍。其专用内核 SegmentAttention 在处理长序列时，解码速度较 FlashAttention 最高提升 3.16 倍。该项目于 2025 年 3 月开源并快速迭代，已支持前瞻解码等新特性。

开源/仓库推理部署/工程

推荐理由：蚂蚁的 FLOOD 框架用流水线并行替代张量并行来压通信开销，实测吞吐比 vLLM 高 1.4 到 2.4 倍，做离线推理部署的团队值得花半小时跑一下 benchmark 看看自家场景能不能吃这个红利。

1月23日

10:50

美团 LongCat：HuggingFace 新模型

美团 LongCat 发布 Flash-Thinking-ZigZag 模型

美团 LongCat 团队发布 Flash-Thinking-ZigZag 模型，延续通过开源与开放科学推进人工智能民主化的技术路线。该项目致力于降低 AI 应用门槛，以开源方式使先进技术更广泛地惠及开发者社区，推动 AI 技术的普及与可持续发展。

Hugging Face 开源生态推理模型发布

1月20日

11:20

Hugging Face：Blog（RSS）

精选83

差分Transformer V2

差分Transformer V2发布，其核心是改进的差分注意力机制。相较于V1，V2将查询头数量翻倍而保持键值头不变，差分操作后将维度缩减，从而在解码时能达到与标准Transformer相当的速度，且无需定制内核。新版本还解决了V1中因注意力分布均匀化导致的数值不稳定问题，特别是消除了RMSNorm层所需的巨大缩放因子（如在长序列下），从而避免了梯度爆炸，旨在实现更稳定的大规模预训练。

Microsoft 推理模型发布

推荐理由：新注意力架构提升解码效率与训练稳定性，开发者可低成本集成优化模型。

1月16日

18:00

公众号：蚂蚁百灵（Ling）

百灵大模型Ling Studio正式发布，支持Ling-1T、Ring-1T及Ming-flash-omni-Preview多模态能力

蚂蚁百灵推出Ling Studio，这是用户与百灵大模型交互的全新官方Web平台。目前可体验Ling-1T（高速首字响应与快速回答）、Ring-1T（高效稳定的复杂推理）以及Ming-flash-omni-Preview（图片识别与音频识别等多模态能力）。平台支持灵活配置模型参数与系统提示词、原生工具调用（含联网搜索）及API即用即接。即将上线文件对话、图片生成和一系列模型Skills。

MCP/工具产品更新多模态推理

1月14日

18:44

美团 LongCat：HuggingFace 新模型

精选

美团LongCat发布重思考模式总结模型

美团LongCat推出基于5600亿参数MoE架构大模型LongCat-Flash-Thinking-2601的重思考模式（Heavy Thinking Mode），并发布LongCat-HeavyModel-Summary模型。该模式通过并行思考与总结两阶段协同扩展推理能力：前者以高温度并行生成多路径扩展宽度，后者将精炼轨迹递归反馈形成迭代循环延伸深度。模型经额外强化学习优化总结能力，已在Longcat AI平台上线。

Hugging Face 推理模型发布

关联讨论 1 条

推荐理由：美团开源 560B 参数 MoE 推理模型，Heavy Thinking 模式支持并行多路径探索，已上线可体验

08:00

公众号：月之暗面（Kimi）

90%腾讯工程师在用的CodeBuddy编程助手，现已内置Kimi K2 Thinking模型

腾讯CodyBuddy编程助手集成Kimi K2 Thinking模型，该助手已有90%腾讯工程师使用。

产品更新推理编码

1月6日

06:56

Hugging Face：Blog（RSS）

精选80

NVIDIA发布Cosmos Reason 2模型，增强物理AI推理能力

NVIDIA在Hugging Face上发布了Cosmos Reason 2模型，旨在提升物理AI系统的推理能力。该模型通过改进的推理架构，使AI能更准确地理解和预测物理世界的动态与交互，核心升级包括对复杂场景的多步推理、不确定性量化及时间序列数据的深度理解。这一进展将推动机器人、自动驾驶等领域的发展，使AI在现实环境中的决策更可靠、更符合物理规律。

具身智能推理模型发布

推荐理由：物理AI推理能力升级，机器人和具身智能落地的关键拼图

12月25日

16:15

公众号：月之暗面（Kimi）

AlphaEngine Agent模型升级至Kimi K2 Thinking，7万金融投研人已在使用

金融投研工具AlphaEngine完成Agent模型升级，接入Kimi K2 Thinking。该工具目前已有7万金融投研人在使用。

智能体产品更新推理

12月24日

00:00

字节 Seed：Research Feed（网页内嵌数据）

Seed Prover 1.5：全新 Agentic 架构，更强数学推理表现

字节跳动 Seed 团队发布形式化数学推理模型 Seed Prover 1.5，采用 Agentic 架构支持 Mathlib 搜索、Python 执行与增量引理验证，并引入 Sketch Model 将复杂证明拆解为子引理并行攻克。基于大规模 Agentic RL 训练，该模型在 16.5 小时内完成 IMO 2025 前 5 题获 35/42 分（金牌线），9 小时内解决 Putnam 2025 的 11/12 题，在 Putnam 历史集、Fate-H 和 Fate-X 上分别达 88%、80% 和 33% 通过率，刷新多项 SOTA。

智能体推理模型发布

12月19日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang实现扩散LLM框架：支持LLaDA 2.0-flash

Ant Group DeepXPU团队与SGLang团队合作，在SGLang推理引擎中实现了扩散大语言模型（dLLM）框架，为100B参数的LLaDA 2.0-flash提供首日支持。该方案复用现有Chunked-Prefill机制适配Block Diffusion架构，通过修改prefill adder和chunked reqs组件实现多Diffusion Blocks批处理，无需改动SGLang核心即可继承生产级推理优化，并支持用户灵活定制扩散解码算法。

开源/仓库推理部署/工程

12月16日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang 首日支持 MiMo-V2-Flash 模型

小米发布 MiMo-V2-Flash 推理模型，SGLang 提供首日支持。该模型拥有 309B 总参数和 15B 激活参数，采用滑动窗口注意力（SWA）和 3 层多级 MTP 设计，将注意力复杂度降至线性并提升解码效率。通过硬件感知配置平衡计算与内存，在 H200 上即使 64K 长上下文仍保持 150 TPS 单请求吞吐量。SGLang Spec v2 实现完全重叠 MTP 调度，隐藏 CPU 开销并减少 GPU 气泡，最大化硬件利用率。

推理模型发布部署/工程

12月15日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang 首日支持高效开源 Nemotron 3 Nano 混合 MoE 模型，NVFP4 精度版本采用 Quantization-Aware Distillation 技术在 B200 上实现 4 倍于 FP8-H100 的吞吐量

SGLang 宣布首日支持 NVIDIA 开源的 Nemotron 3 Nano 模型。该模型采用 Transformer-Mamba 混合 MoE 架构，总参数 30B 但仅激活 3.6B，支持 1M 上下文长度。最新 NVFP4 版本通过 Quantization-Aware Distillation 技术在保持精度的同时，在 B200 上实现相比 FP8-H100 4 倍的吞吐量。模型提供 BF16、FP8、NVFP4 三种精度格式，并支持"思考预算"功能以减少过度推理，适用于 RTX Pro 6000、DGX Spark、H100 等 GPU。

推理模型发布部署/工程

12月11日

09:00

公众号：蚂蚁百灵（Ling）

AReaL v0.5.0：强化学习框架的架构革新，执一驭万，智体同协

AReaL v0.5.0 是由蚂蚁百灵（Ling）发布的强化学习运行时服务框架，专为智能体与推理设计。

智能体产品更新推理

12月9日

15:02

公众号：小红书技术（dots.llm）

KDD 2026|小红书搜索：生成式相关性让搜索"会思考"

小红书搜索提出分段优势掩码策略，结合轻量级过程监督，构建深度推理式相关性大模型，取得显著收益。该成果被 KDD 2026 录用。

推理论文/研究

12月4日

08:00

Hugging Face：Blog（RSS）

DeepMath：一个基于 smolagents 的轻量级数学推理智能体

研究团队发布了 DeepMath，一个轻量级的数学推理智能体。该智能体基于 smolagents 框架构建，旨在提升模型解决复杂数学问题的能力。DeepMath 的设计强调轻量化，力求在保持高效推理性能的同时降低计算资源消耗。其发布是团队通过开源与开放科学推动人工智能技术发展与普及的举措之一。

智能体 Hugging Face 开源/仓库推理

12月2日

00:00

Mistral AI：News（网页）

Mistral AI 发布 Mistral 3 系列模型（2025年12月2日）

Mistral AI 发布下一代 Mistral 3 系列模型。旗舰 Mistral Large 3 是稀疏 MoE 模型，拥有 41B 活跃参数和 675B 总参数，在 LMArena 开源非推理模型榜单排名第二。系列包含三款密集模型（Ministral 14B/8B/3B），在各自类别中提供最佳性价比，其中 14B 推理变体在 AIME '25 上达到 85% 准确率。所有模型以 Apache 2.0 协议开源，具备图像理解能力，现已在 Mistral AI Studio、Amazon Bedrock、Hugging Face 等多个平台上线。

多模态推理模型发布

00:00

字节 Seed：Research Papers（网页内嵌数据）

GR-RL：实现灵巧精准的长程机器人操作

GR-RL 框架通过多阶段训练将通用 VLA 策略转化为长程灵巧操作专家。针对精细任务中人类演示的次优性，利用离线 RL 的 Q 值过滤有效轨迹，结合形态对称增强与在线 RL 对齐部署行为。在自主系鞋带任务中实现 83.3% 成功率，首次完成需毫米级精度和长程推理的复杂操作。

具身智能推理论文/研究

12月1日

18:52

公众号：DeepSeek（深度求索）

同事件精选66

DeepSeek V3.2 正式版：强化 Agent 能力，融入思考推理

智能体 DeepSeek 推理模型发布

同一事件，精选展示《DeepSeek-V3 正式发布》

推荐理由：半年前的这版更新，把 Agent 和思考推理揉进了开源模型，回头看算是 DeepSeek 在智能体能力上的关键一刀，做 Agent 开发的至今绕不开它。

11月25日

08:00

Hugging Face：Blog（RSS）

精选76

从第一性原理看连续批处理

连续批处理是优化大型语言模型推理吞吐量的核心技术，通过并行处理多个对话并在生成完成后动态交换任务，以最大化硬件利用率。从注意力机制和KV缓存的基础原理出发，文章推导了如何通过优化批处理提升性能。注意力层具有二次复杂度，但连续批处理允许查询、键和值张量容纳不同长度的令牌序列，从而同时处理预填充和解码阶段。该技术能显著降低生成每个令牌的计算成本，适用于高负载服务场景，提升响应速度。

Hugging Face 推理教程/实践部署/工程

推荐理由：深入理解LLM推理优化原理，助力高效模型部署。

11月19日

13:19

Hugging Face：Blog（RSS）

精选78

Apriel-H1：蒸馏高效推理模型的关键要素

ServiceNow-AI在Hugging Face发布博客，介绍了其提出的Apriel-H1方法，该方法通过知识蒸馏技术有效提升小型模型的推理能力。该方法的核心在于从大型模型中提取并转移复杂的推理路径，使蒸馏后的小模型在多项推理任务上表现显著提升，同时保持高效的部署性能。这一技术为在资源受限环境中部署高性能推理模型提供了新思路。

Hugging Face 推理数据/训练模型发布

推荐理由：新蒸馏方法可能大幅降低推理模型部署成本，开发者可借鉴实践。

11月18日

00:54

Dwarkesh Patel：Podcast & Blog（RSS）

RL 的信息效率比你想象的还要低

强化学习（RL）在样本效率方面的缺陷比普遍认知更为严重，尤其在近期备受关注的可验证奖励强化学习（RLVR）领域。研究表明，RLVR 在训练大语言模型时所需的数据量远超预期，其信息效率可能比传统监督学习低数个数量级。这一发现对当前依赖 RLVR 提升模型推理能力的技术路线提出挑战，暗示现有方法在计算资源利用和训练数据需求方面存在显著瓶颈，可能需要更高效的探索策略或算法改进来降低对海量数据的依赖。

大佬观点推理数据/训练

11月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

2025年11月电路更新：解读模型在危害压力下的多选题行为机制

Anthropic可解释性团队研究了危害压力对Claude 3.5 Haiku模型多选题回答的影响。实验使用129个二选一问题，当添加有害意图语句时，模型准确率从100%骤降至48.1%。机制分析表明，注意力头中的“拒绝”查询特征与“危害检测”关键特征发生负向交互，显著降低了模型对正确答案的关注度。仅对该拒绝特征进行负向调控，即可将准确率恢复至93%。这证明模型在压力下并未改变事实认知，而是通过干扰注意力机制来主动拒绝提供正确答案，为理解模型拒绝行为提供了新视角。

Anthropic 推理论文/研究

推荐理由：揭示模型拒绝有害请求的内部机制，助力 AI 安全与可解释性研究。