Gemini 3.1 Pro 发布,专为无法通过简单回答解决的复杂任务设计,提供更智能的深度推理与处理能力。
关联讨论 1 条Google DeepMind:Blog(RSS)Gemini 3.1 Pro 发布,专为无法通过简单回答解决的复杂任务设计,提供更智能的深度推理与处理能力。
关联讨论 1 条Google DeepMind:Blog(RSS)SGLang 与 NVIDIA 合作,在最新 GB300 NVL72 服务器上实现相比 H200 最高 25 倍的推理性能提升。基于 Blackwell Ultra GPU 的架构升级包括 1.5 倍 FP4 算力和 2 倍 Softmax 吞吐量,结合 NVFP4 GEMM 低精度计算、计算通信重叠及与 NVIDIA Dynamo 的集成优化,DeepSeek R1 等 MoE 模型在 InferenceXv2 基准测试中达成突破性表现。同时,GB200 NVL72 平台性能在 4 个月内提升 8 倍,显著降低大模型部署的延迟与成本。
NVIDIA与SGLang团队发布DeepSeek R1-NVFP4在GB300 NVL72上的优化部署方案,针对128K/8K长上下文推理实现显著性能提升。通过PD分离、分块流水线并行、宽专家并行及多Token预测(MTP)等技术,系统在GB300上达226 TPS/GPU峰值吞吐量,较GB200提升1.53倍;相同延迟下性能领先1.4–1.6倍。MTP可再提升每用户TPS达1.87倍,128K预填充首Token延迟降至8.6秒。
蚂蚁百灵发布并开源 Ling-2.5-1T,包含深度思考模型(thinking model)与即时模型(instant model)两类。深度思考模型旨在拉高智能上限,即时模型则在效率与效果之间取得平衡,拓宽智能覆盖范围。该版本在模型架构、token 效率、偏好对齐等维度实现全面升级。
MiniMax 推出 M2.5-highspeed 模型,支持 100 TPS 极速推理,速度达到同类产品的 3 倍。Coding Plan 与 API 同步上线,Coding Plan 提供 Plus、Max、Ultra 三档套餐,邀请好友可享 9 折优惠。此前 M2.5 发布 48 小时内已有 50 余款国内外产品接入。
inclusionAI 发布了 Ling-2.5-1T 模型。该模型参数规模达到 1 万亿,是其 Ling 系列的最新版本。此次发布延续了通过开源和开放科学来推进人工智能民主化的使命,旨在让先进 AI 技术更广泛可及。新版本预计在语言理解与生成能力上有所提升,继续为全球研究社区提供强大的基础模型支持。
Forge是MiniMax开发的内部强化学习框架,旨在解决智能体强化学习中系统吞吐量、训练稳定性和智能体灵活性之间的核心矛盾。它通过灵活的系统架构、针对长程智能体优化的算法、尊重训练分布的异步调度以及激进的训练/推理优化,实现了突破。在MiniMax M2.5模型开发期间,Forge处理了超过十万个不同的真实世界智能体框架与环境,支持达200k的上下文长度,并实现了每日百万级样本的吞吐量。结合CISPO算法与复合奖励设计,Forge提升了模型在真实任务中的能力,支撑了M2.5的开发。
提出一种稳定 RLVR 训练的新方法,采用 Token 级梯度诊断技术精准定位异常梯度来源,结合逐层梯度裁剪(Layerwise Clipping)对不同网络层实施差异化约束,有效抑制训练过程中的梯度爆炸与策略震荡,提升强化学习训练的稳定性与收敛效率。
inclusionAI 开源了 Humming,这是一个专为量化推理设计的高性能、轻量级即时编译 GEMM 内核库。它支持在 FP16、BF16、FP8 等多种激活数据类型下进行 8 比特以下任意权重类型的推理,兼容多种量化策略与缩放类型,并同时支持稠密 GEMM 和混合专家 GEMM 运算。该库兼容 SM75+ 及以上的所有 NVIDIA GPU,在多种计算场景下能提供业界领先的吞吐量和效率。其依赖极简,仅需 PyTorch 和 NVCC,软件包大小仅约 100 KB,便于超轻量化部署。
inclusionAI推出新一代旗舰即时模型Ling-2.5-1T,其总参数量达1T,活跃参数为63B,预训练语料扩展至29T tokens。该模型采用混合线性注意力架构,支持1M tokens上下文长度,并通过结合“正确性”与“过程冗余”的复合奖励机制,在相近的token效率下,其推理能力显著超越前代,接近前沿思维模型水平。经双向RL反馈和智能体验证等对齐策略优化,模型在创意写作和指令遵循任务上表现提升。它已兼容主流智能体平台,并在通用工具调用基准BFCL-V4上取得领先的开源性能。
inclusionAI发布了全球首个基于混合线性注意力架构的开源万亿参数思维模型Ring-2.5-1T。该模型通过高效的1:7 MLA与闪电线性注意力提升了推理速度与探索能力,并借助扩展的强化学习训练增强了深度思考和长程任务执行能力。其在IMO 2025和CMO 2025数学竞赛中均达到了金牌级别的性能。模型支持128K上下文长度,并可通过YaRN技术扩展至256K,现已于Hugging Face和ModelScope平台开源。部署方面,已支持SGLang,并提供了多GPU节点的服务器启动示例。
inclusionAI 发布了 Ring-2.5-1T,这是一个拥有 1 万亿参数规模的大型语言模型。该模型旨在通过开源和开放科学的方式,推动人工智能技术的进步与普及。此次发布标志着在构建超大规模、可访问的 AI 模型方面取得了重要进展,为更广泛的研究社区提供了强大的基础工具。
研究论文显示,Gemini Deep Think 在数学与科学等多个领域的影响力持续扩大,正加速科研发现进程。
研究表明,推理模型能够通过分析用户的实际反馈,识别并理解此前未知的 AI 行为对齐偏差。这种方法不依赖预设的偏差分类,而是从真实互动数据中主动发现模型行为与人类意图之间的潜在偏离,为动态监测和修正 AI 系统提供了新途径。
混元研究博客上线姚顺雨团队最新成果,从Context角度探索语言模型的范式转变,旨在推动Context学习真正走向现实。该成果聚焦于模型对上下文的理解与利用机制,为语言模型能力演进提供新思路。
Flood 是一款面向离线应用的高效大语言模型推理框架。它采用流水线并行降低通信开销,并通过分段式KV缓存管理提升连续性。框架支持连续批处理、分块预填充、FP8/INT8量化及多模态模型推理。性能测试表明,其在多种模型和硬件上的吞吐量最高可达 vLLM 的 2.4 倍。其专用内核 SegmentAttention 在处理长序列时,解码速度较 FlashAttention 最高提升 3.16 倍。该项目于 2025 年 3 月开源并快速迭代,已支持前瞻解码等新特性。
美团 LongCat 团队发布 Flash-Thinking-ZigZag 模型,延续通过开源与开放科学推进人工智能民主化的技术路线。该项目致力于降低 AI 应用门槛,以开源方式使先进技术更广泛地惠及开发者社区,推动 AI 技术的普及与可持续发展。
差分Transformer V2发布,其核心是改进的差分注意力机制。相较于V1,V2将查询头数量翻倍而保持键值头不变,差分操作后将维度缩减,从而在解码时能达到与标准Transformer相当的速度,且无需定制内核。新版本还解决了V1中因注意力分布均匀化导致的数值不稳定问题,特别是消除了RMSNorm层所需的巨大缩放因子(如在长序列下),从而避免了梯度爆炸,旨在实现更稳定的大规模预训练。
蚂蚁百灵推出Ling Studio,这是用户与百灵大模型交互的全新官方Web平台。目前可体验Ling-1T(高速首字响应与快速回答)、Ring-1T(高效稳定的复杂推理)以及Ming-flash-omni-Preview(图片识别与音频识别等多模态能力)。平台支持灵活配置模型参数与系统提示词、原生工具调用(含联网搜索)及API即用即接。即将上线文件对话、图片生成和一系列模型Skills。
美团LongCat推出基于5600亿参数MoE架构大模型LongCat-Flash-Thinking-2601的重思考模式(Heavy Thinking Mode),并发布LongCat-HeavyModel-Summary模型。该模式通过并行思考与总结两阶段协同扩展推理能力:前者以高温度并行生成多路径扩展宽度,后者将精炼轨迹递归反馈形成迭代循环延伸深度。模型经额外强化学习优化总结能力,已在Longcat AI平台上线。
关联讨论 1 条美团 LongCat:HuggingFace 新模型腾讯CodyBuddy编程助手集成Kimi K2 Thinking模型,该助手已有90%腾讯工程师使用。
NVIDIA在Hugging Face上发布了Cosmos Reason 2模型,旨在提升物理AI系统的推理能力。该模型通过改进的推理架构,使AI能更准确地理解和预测物理世界的动态与交互,核心升级包括对复杂场景的多步推理、不确定性量化及时间序列数据的深度理解。这一进展将推动机器人、自动驾驶等领域的发展,使AI在现实环境中的决策更可靠、更符合物理规律。
金融投研工具AlphaEngine完成Agent模型升级,接入Kimi K2 Thinking。该工具目前已有7万金融投研人在使用。
字节跳动 Seed 团队发布形式化数学推理模型 Seed Prover 1.5,采用 Agentic 架构支持 Mathlib 搜索、Python 执行与增量引理验证,并引入 Sketch Model 将复杂证明拆解为子引理并行攻克。基于大规模 Agentic RL 训练,该模型在 16.5 小时内完成 IMO 2025 前 5 题获 35/42 分(金牌线),9 小时内解决 Putnam 2025 的 11/12 题,在 Putnam 历史集、Fate-H 和 Fate-X 上分别达 88%、80% 和 33% 通过率,刷新多项 SOTA。
Ant Group DeepXPU团队与SGLang团队合作,在SGLang推理引擎中实现了扩散大语言模型(dLLM)框架,为100B参数的LLaDA 2.0-flash提供首日支持。该方案复用现有Chunked-Prefill机制适配Block Diffusion架构,通过修改prefill adder和chunked reqs组件实现多Diffusion Blocks批处理,无需改动SGLang核心即可继承生产级推理优化,并支持用户灵活定制扩散解码算法。
小米发布 MiMo-V2-Flash 推理模型,SGLang 提供首日支持。该模型拥有 309B 总参数和 15B 激活参数,采用滑动窗口注意力(SWA)和 3 层多级 MTP 设计,将注意力复杂度降至线性并提升解码效率。通过硬件感知配置平衡计算与内存,在 H200 上即使 64K 长上下文仍保持 150 TPS 单请求吞吐量。SGLang Spec v2 实现完全重叠 MTP 调度,隐藏 CPU 开销并减少 GPU 气泡,最大化硬件利用率。
SGLang 宣布首日支持 NVIDIA 开源的 Nemotron 3 Nano 模型。该模型采用 Transformer-Mamba 混合 MoE 架构,总参数 30B 但仅激活 3.6B,支持 1M 上下文长度。最新 NVFP4 版本通过 Quantization-Aware Distillation 技术在保持精度的同时,在 B200 上实现相比 FP8-H100 4 倍的吞吐量。模型提供 BF16、FP8、NVFP4 三种精度格式,并支持"思考预算"功能以减少过度推理,适用于 RTX Pro 6000、DGX Spark、H100 等 GPU。
AReaL v0.5.0 是由蚂蚁百灵(Ling)发布的强化学习运行时服务框架,专为智能体与推理设计。
小红书搜索提出分段优势掩码策略,结合轻量级过程监督,构建深度推理式相关性大模型,取得显著收益。该成果被 KDD 2026 录用。
研究团队发布了 DeepMath,一个轻量级的数学推理智能体。该智能体基于 smolagents 框架构建,旨在提升模型解决复杂数学问题的能力。DeepMath 的设计强调轻量化,力求在保持高效推理性能的同时降低计算资源消耗。其发布是团队通过开源与开放科学推动人工智能技术发展与普及的举措之一。
Mistral AI 发布下一代 Mistral 3 系列模型。旗舰 Mistral Large 3 是稀疏 MoE 模型,拥有 41B 活跃参数和 675B 总参数,在 LMArena 开源非推理模型榜单排名第二。系列包含三款密集模型(Ministral 14B/8B/3B),在各自类别中提供最佳性价比,其中 14B 推理变体在 AIME '25 上达到 85% 准确率。所有模型以 Apache 2.0 协议开源,具备图像理解能力,现已在 Mistral AI Studio、Amazon Bedrock、Hugging Face 等多个平台上线。
GR-RL 框架通过多阶段训练将通用 VLA 策略转化为长程灵巧操作专家。针对精细任务中人类演示的次优性,利用离线 RL 的 Q 值过滤有效轨迹,结合形态对称增强与在线 RL 对齐部署行为。在自主系鞋带任务中实现 83.3% 成功率,首次完成需毫米级精度和长程推理的复杂操作。
连续批处理是优化大型语言模型推理吞吐量的核心技术,通过并行处理多个对话并在生成完成后动态交换任务,以最大化硬件利用率。从注意力机制和KV缓存的基础原理出发,文章推导了如何通过优化批处理提升性能。注意力层具有二次复杂度,但连续批处理允许查询、键和值张量容纳不同长度的令牌序列,从而同时处理预填充和解码阶段。该技术能显著降低生成每个令牌的计算成本,适用于高负载服务场景,提升响应速度。
ServiceNow-AI在Hugging Face发布博客,介绍了其提出的Apriel-H1方法,该方法通过知识蒸馏技术有效提升小型模型的推理能力。该方法的核心在于从大型模型中提取并转移复杂的推理路径,使蒸馏后的小模型在多项推理任务上表现显著提升,同时保持高效的部署性能。这一技术为在资源受限环境中部署高性能推理模型提供了新思路。
强化学习(RL)在样本效率方面的缺陷比普遍认知更为严重,尤其在近期备受关注的可验证奖励强化学习(RLVR)领域。研究表明,RLVR 在训练大语言模型时所需的数据量远超预期,其信息效率可能比传统监督学习低数个数量级。这一发现对当前依赖 RLVR 提升模型推理能力的技术路线提出挑战,暗示现有方法在计算资源利用和训练数据需求方面存在显著瓶颈,可能需要更高效的探索策略或算法改进来降低对海量数据的依赖。
Anthropic可解释性团队研究了危害压力对Claude 3.5 Haiku模型多选题回答的影响。实验使用129个二选一问题,当添加有害意图语句时,模型准确率从100%骤降至48.1%。机制分析表明,注意力头中的“拒绝”查询特征与“危害检测”关键特征发生负向交互,显著降低了模型对正确答案的关注度。仅对该拒绝特征进行负向调控,即可将准确率恢复至93%。这证明模型在压力下并未改变事实认知,而是通过干扰注意力机制来主动拒绝提供正确答案,为理解模型拒绝行为提供了新视角。