智谱GLM的超大规模Coding Agent推理实践,聚焦Scaling Pain(扩展痛点)及其应对经验。
智谱GLM的超大规模Coding Agent推理实践,聚焦Scaling Pain(扩展痛点)及其应对经验。
文章揭示了支撑大语言模型(如GPT、Claude、LLaMA)训练与服务的核心数学框架。通过剖析关键方程,可以逆向推导出顶尖AI实验室在模型规模扩展、计算资源分配及服务优化方面的核心策略与实践。这些数学原理不仅解释了模型性能随参数和数据量增长的规律,也量化了训练成本与推理效率之间的权衡,为理解当前大语言模型的发展路径提供了底层逻辑。
AI推理市场正快速分化,各模态如文本、图像、视频和音频发展出独立推理技术栈。自ChatGPT发布后,NVIDIA数据中心收入三年内增长17倍,凸显市场爆发。分化根本原因在于工作负载差异:图像视频生成需高计算力,长上下文消耗更多内存,边缘设备则受功耗限制。市场按延迟分为实时、近实时和批量三层;按模态分为文本、图像视频音频;按部署分为云端和边缘。Hugging Face上已有超9万个图像生成模型,整个AI推理市场规模预计约1000亿美元,这种专业化趋势正为各细分领域创造领导者机会。
研究提出了一种名为“自适应思考”的新方法,使大型语言模型能够动态决定是否需要执行链式思考推理。该方法利用自我一致性作为判断标准,当模型对简单问题已有高置信度答案时,会跳过显式推理步骤,直接生成最终答案。实验表明,在保持相同性能水平下,该方法在GSM8K和MATH基准测试上分别减少了20.3%和41.7%的推理计算量,实现了更高效的计算最优推理。
研究团队提出LaDiR推理框架,将连续潜在表征的表达能力与潜在扩散模型的迭代优化能力相结合,以增强现有大语言模型的推理性能。该框架首先构建一个结构化的潜在推理空间,通过扩散过程对潜在状态进行迭代细化,使模型能够全局性地重新审视和修正推理路径中的早期内容。这种方法突破了传统自回归解码在整体优化和多样化解决方案探索方面的限制,提升了链式思维生成的质量与效率。
蚂蚁百灵发布万亿参数旗舰 Ling-2.6-1T,采用 MLA 与 Linear Attention Hybrid 架构,以“快思考”机制实现低 Token 开销高效推理。综合智能对标 GPT-5.4 (Non-Reasoning),在 AIME26 上显著领先其他非思考模型;在 SWE-bench Verified、TAU2-Bench、BFCL-V4 等 Agent 基准上达到开源 SOTA。支持 256K 超长上下文(MRCR 高分)并表现优异的 IFBench。现已通过 OpenRouter 和官方平台提供一周免费 API 调用,将于近期正式开源。
Qwen3.6-27B 开源发布,采用270亿稠密参数,无需MoE路由,部署门槛更低。编程能力全面超越前代旗舰Qwen3.5-397B-A17B MoE,在SWE-bench Verified(77.2)、SWE-bench Pro(53.5)、Terminal-Bench 2.0(59.3)、SkillsBench(48.2)等基准上领先,深度思考能力媲美超大参数模型。原生支持多模态,可处理图像、视频与文本,支持视觉推理、文档理解和视觉问答,具备视觉语言思考与非思考模式。开源权重已上线Hugging Face与ModelScope,API即将在阿里云百炼上线,兼容OpenAI与Anthropic协议,即时对话可通过Qwen Studio体验。
Google Cloud提出ReasoningBank智能体记忆框架,突破传统方法仅记录动作轨迹或成功经验的局限,从成败经验中提炼可泛化的高层推理策略。该框架通过LLM-as-judge自评估构建检索-提取-整合闭环,特别利用失败案例生成预防性策略,并创新提出Memory-aware Test-Time Scaling技术将测试时计算转化为高质量记忆。在网页浏览与软件工程基准测试中,该系统显著提升任务成功率并减少执行步骤。
GRASP是一种面向世界模型长程规划的梯度优化新方法。通过将轨迹映射至虚拟状态实现跨时间并行优化,引入状态迭代的随机噪声增强探索能力,并重塑梯度以避免高维视觉模型中的病态信号传播。该技术解决了长程规划中的优化病态、局部最优和高维潜在空间失效等问题,使基于学习动力学的复杂任务规划更加稳定高效。
DR-Venus 是一个仅用1万条开放数据训练的40亿参数深度研究智能体,基于Qwen3-4B-Thinking-2507架构,支持200步工具调用和超20万tokens的上下文。它通过监督微调与强化学习两阶段训练,在BrowseComp、GAIA等多个深度研究基准上树立了小模型性能新标杆。其SFT版本已超越多数同类开源模型,而RL版本进一步将长程任务可靠性和工具使用校准度提升2-3个百分点。项目已全面开源模型、代码与训练流程。
通义千问发布 Qwen3.6-Max-Preview 预览版,相比 Qwen3.6-Plus 在多项基准上显著提升:智能体编程(SkillsBench +9.9、SciCode +6.3、NL2Repo +5.0、Terminal-Bench 2.0 +3.8)、世界知识(SuperGPQA +2.3、QwenChineseBench +5.3)、指令遵循(ToolcallFormatIFBench +2.8)。新版本支持 preserve_thinking,可在消息中保留前序轮次思维内容,避免多步任务上下文丢失,官方推荐用于智能体开发。用户可登录 Qwen Studio 直接对话,或通过阿里云百炼(即将上线)调用 API。
文章探讨了大规模预训练中的并行计算策略优化方案,分析模型蒸馏技术是否可被检测或阻止及其对AI生态的影响;介绍 Mythos 系统在维护网络安全平衡中的应用,阐述流水线强化学习(Pipeline RL)的架构设计与效率提升,并总结预训练任务失败的常见技术瓶颈与排查方法,为分布式训练提供实践参考。
研究团队提出一种基于推理插值的早期检测方法,利用重要性采样结合微调供体前缀技术,在模型训练过程中预测奖励黑客行为的出现。该方法通过分析模型推理路径的插值变化,在奖励黑客完全形成前识别其风险迹象,为语言模型安全训练提供关键的预警指标。
LMSYS Org推出HiSparse分层内存系统,针对稀疏注意力仍受限于GPU内存容量的问题,将非活跃KV缓存卸载至主机内存,仅在GPU HBM保留热缓冲区,并通过专用CUDA内核高效管理数据交换(采用LRU策略与页表更新)。该系统在256并发请求下实现超3倍吞吐量提升,GLM-5.1-FP8模型长上下文场景性能提升达5倍,支持DeepSeek-V3.2等采用DeepSeek Sparse Attention架构的模型。
针对Blackwell GPU上的小批量解码,研究提出了一种名为“warp decode”的新方法。该方法颠覆了传统以专家为中心的计算路径,改为让每个GPU warp负责计算一个输出神经元。这一根本性改变消除了原有流程中五个纯数据管理的“簿记”步骤,将整个MoE计算层压缩为仅两个内核。其优势在于避免了填充、分散和中间缓冲区的读写,并通过warp独立性实现了更好的调度。在Blackwell GPU上,该方法实现了1.84倍的吞吐量提升,同时输出精度更高,与全FP32参考值的差距缩小了1.4倍,有效加速了模型研发流程。
Meta将其广告推荐系统的运行时模型扩展至LLM的规模和复杂度,旨在更深入理解用户兴趣与意图,以提升广告效果。这一举措通过自适应排序模型,优化了推理阶段的扩展曲线,使部署大规模模型服务成为可能,标志着推荐系统性能向新前沿迈进。
自我改进机制虽客观存在,但受限于"有损"特性,难以推动AI能力的递归式爆发。该论述指出,大语言模型等系统的自我优化过程伴随信息损耗与能力瓶颈,这种非完美的迭代模式打破了"快速起飞"(fast takeoff)的技术假设。与理想化的指数级自我增强不同,实际发展将呈现渐进、受限的增长轨迹,AI安全研究需重新评估递归自我改进的风险阈值。
陶哲轩回溯开普勒与牛顿时代的科学发现历程,剖析数学突破背后的真实机制,并据此展望人工智能对现代数学研究的革命性影响。文章通过历史案例揭示数学发现的本质特征,探讨AI技术如何借鉴经典科学方法论,改变未来数学问题的提出、验证与解决方式,为理解人机协作下的数学创新提供历史视角。
美团 LongCat 团队发布开源项目 LongCat-Flash-Prover,致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 技术应用门槛,促进先进技术的广泛可及性,但尚未公布具体的技术架构、功能特性及性能评估指标。
本文介绍一个衡量通用人工智能(AGI)进展的认知框架,并启动Kaggle黑客马拉松,旨在构建相应的评估体系,为AGI研发提供可量化的进度测量标准与评估工具。
OpenAI CEO Sam Altman 坦言,仅靠扩大模型规模无法达到 AGI,必须在架构层面实现重大创新。这一表态标志着 AI 发展范式的关键转向,承认当前"越大越好"的扩展策略已遇瓶颈。Altman 强调"是时候寻找新的架构了",暗示基于 Transformer 的现有技术路径难以通向通用人工智能,行业需要颠覆性技术突破而非单纯堆砌算力与参数。
关联讨论 1 条Dwarkesh Patel:Podcast & Blog(RSS)Mistral AI 发布新一代开源模型 Mistral Small 4,首次将 Magistral 的推理、Pixtral 的多模态和 Devstral 的编码能力整合于单一模型。它采用混合专家架构,拥有119B总参数和256k上下文窗口,支持图文输入及可配置的推理强度。性能上,其端到端延迟降低40%,吞吐量较前代提升3倍。该模型基于 Apache 2.0 许可证开源,并加入 NVIDIA Nemotron 联盟,优化了在 vLLM 等框架上的推理效率,适用于聊天、编码和复杂任务处理。
伯克利人工智能研究所提出 SPEX 与 ProxySPEX 算法,通过信号处理与编码理论实现大语言模型关键交互作用的高效识别。该方法基于" influential interactions 具有稀疏性与低阶性"的核心观察,将指数级搜索问题转化为可解的稀疏恢复问题,以极少的消融次数定位驱动模型输出的关键特征组合与内部组件依赖,突破传统方法在计算规模上的限制。
小红书在 ICLR 2026 上提出多模态推理大模型 Vision-R1。该模型以 200K 条无人工标注的高质量多模态 CoT 冷启动数据为基础,融合 GRPO 与渐进式思维抑制训练(PTST),有效解决多模态大模型“过度思考”难题,显著提升了复杂推理能力。
同步强化学习训练中,数据生成是主要瓶颈,如在320亿参数模型上生成3.2万令牌样本需数小时,导致训练GPU闲置。业界主流解决方案是将推理与训练解耦到不同GPU池,通过rollout缓冲区连接并异步传输权重。本文调研了16个实现此模式的开源库,从编排原语、缓冲区设计、权重同步协议、陈旧数据处理、部分rollout支持、LoRA支持及分布式训练后端七个维度比较。关键发现:Ray在编排层占主导(8/16库使用),NCCL广播是默认权重传输方式,LoRA训练支持普遍不足,而分布式MoE支持正成为新差异化特性。
inclusionAI 团队发布了 AReaL-tau2-merge-sft-235B 模型。该模型参数量达2350亿,采用合并与监督微调技术构建。其目标是推动人工智能技术发展并通过开源开放模式实现AI民主化,致力于让先进AI技术更广泛可及。
OpenAI 发布 CoT-Control 研究,发现推理模型难以操控自身思维链。这种「不可控」特性反而增强了 AI 的可监控性,成为安全对齐的重要保障。
OpenAI 发布 GPT-5.4 Thinking 系统卡,披露新一代推理模型的架构细节、安全评估框架及能力边界。文档详述思维链优化机制、长上下文推理性能指标,明确数学推导与代码生成准确率数据,分析幻觉风险与偏见控制措施,并列出越狱攻击防护策略及企业级部署的安全限制建议。
新预印本将 single-minus 振幅扩展至引力子,利用 GPT-5.2 Pro 推导并验证量子引力中的非零引力子树振幅。
inclusionAI团队宣布推出AReaL-SEA-235B-A22B模型,致力于通过开源与开放科学推动人工智能技术的进步与民主化。该举措旨在降低AI研究与应用的参与门槛,促进全球开发者及研究者更广泛地获取和使用先进AI工具。模型规模达2350亿参数,体现了其在处理复杂任务方面的潜力,同时强调开放协作对加速AI创新与社会普惠的关键作用。
本文通过叙事工艺、语言艺术等六个文学维度,评估百灵模型Ling-2.5-1T的创意写作能力。测试显示,该模型能驾驭莎士比亚十四行诗、七言绝句等多种体裁,并通过感官描写实现“展现而非告知”的文学技法,在微观叙事和语言质感上接近人类水平。然而,模型仍存在依赖高频文学意象、处理否定指令时语义代偿等局限。该框架为创作者提供了激发AI写作潜力的具体方法。
关联讨论 1 条蚂蚁百灵:Developer Blog(网页)Kimi K2.5 多模态模型的 API 输入成本,在 90% 缓存命中率下,实际价格为 1.03 元/M tokens,仅为标准定价 4 元/M tokens 的 2.5 折。Kimi API 缓存命中率通常在 85%-95% 之间波动,核心支撑是与清华大学合作研发的 Mooncake 推理架构,该架构获存储顶会 FAST 2025 最佳论文,并已开源。
蚂蚁百灵(Ling)公布 Ling 2.5 模型架构改造实践,将 Lightning Attention 与 MLA(Multi-head Latent Attention)两种线性注意力机制融合,形成混合线性架构。该方案旨在平衡长序列推理效率与模型表达能力,为下一代大语言模型的注意力计算提供优化思路。
为提升超长上下文下的计算效率,Ling 2.5架构将Ling 2.0的GQA改造为1:7的Lightning Attention与MLA混合线性注意力。此举旨在利用Lightning Attention提升长序列吞吐,并通过MLA极致压缩KV Cache。为确保改造后性能无损,团队设计了精细的平滑迁移训练策略,包括权重转换、QK Norm融合与Partial RoPE改造等多阶段加训。Scaling Law实验确定了1:7为最优混合比例,最终使万亿参数模型实现了更低的计算成本与更高的长文本推理效率。
关联讨论 1 条蚂蚁百灵:Developer Blog(网页)OpenRouter 在模型页面上新增了基准测试数据,推出了新的免费模型路由功能,并改进了不同提供商之间的成本透明度。