研究人员构建了受具身AI场景启发的可控测试环境,包含部分可观察的2D网格地图与未知任务DAG,并设计策略无关的评估指标,实现了对语言模型智能体探索与利用错误的量化测量。评估显示,当前前沿模型在该任务上表现挣扎且呈现不同失败模式,而推理模型展现出更强的解决能力。研究还发现,通过最小化的工程调整即可显著提升智能体的探索与利用表现。相关代码已开源发布。
研究人员构建了受具身AI场景启发的可控测试环境,包含部分可观察的2D网格地图与未知任务DAG,并设计策略无关的评估指标,实现了对语言模型智能体探索与利用错误的量化测量。评估显示,当前前沿模型在该任务上表现挣扎且呈现不同失败模式,而推理模型展现出更强的解决能力。研究还发现,通过最小化的工程调整即可显著提升智能体的探索与利用表现。相关代码已开源发布。
针对传统科学基准存在的发表偏倚、标签噪声及大规模存储需求,研究团队提出InfiniteScienceGym——一个程序生成的科学分析测试平台。该平台通过确定性算法从种子生成包含真实目录结构、文件与表格数据的自包含仓库,并配备带精确标准答案的可验证问答任务。对主流模型的评估显示,当前无模型整体准确率超过45%,识别不可回答问题仍是主要能力短板,而更强的模型倾向于更有效地使用工具而非单纯增加token消耗。
研究团队提出SD-Zero训练方法,通过让单一模型同时充当生成器和修订者,将二元奖励转化为密集的词元级自我监督。该方法无需外部教师或高质量演示,在数学与代码推理任务中,基于Qwen3-4B-Instruct和Olmo-3-7B-Instruct实现性能提升超10%,训练效率显著优于GRPO等强化学习基线。算法展现出词元级自定位与迭代自我进化特性,修订者能精准识别需修正的关键词元,并持续将修正能力蒸馏回生成器。
研究人员对Google Gemini 2.5 Flash和Flash Lite在视频场景理解中的内部推理轨迹(思维流)进行基准测试,基于100小时视频提出内容丰富度、思维-最终输出覆盖率和主导实体分析三项指标。实验发现,增加思考长度带来的质量提升在最初几百个token后迅速趋于平缓,Flash Lite在质量与token消耗间达到最佳平衡。研究还揭示,当推理预算受限时,模型会在最终输出中添加未经推理的内容,产生"压缩步骤幻觉";Flash倾向于讨论推理过程,而Flash Lite更专注于场景描述。
大型视觉语言模型存在"语义固着"现象:即使提示指定替代规则,仍固守默认语义解释。研究提出VLM-Fix基准(四种抽象策略游戏),评估14个模型发现准确率显著偏向标准规则。实验表明,中性别名提示可缩小逆向规则差距,语义负载别名则扩大差距;单规则训练损害相反规则迁移,联合规则训练改善广泛迁移。后期层激活干预可部分恢复性能,表明该错误可在模型后期表征中编辑。
一项综述系统梳理了2024年至2026年初发表的47种大语言模型强化学习信用分配(CA)方法,按粒度(token、step、turn等)与方法论(蒙特卡洛、时序差分等)建立二维分类体系。研究区分了单条思维链推理(500-3万token)与多轮智能体交互(10万-100万token,100+轮)两种范式,并发布结构化论文清单、报告检查表及基准测试协议三项资源。分析指出,从推理到智能体化的转变正推动信用分配技术从过程奖励模型转向反事实分析、非对称critic等全新方法。
MedSSR 框架通过知识增强数据合成与半监督强化学习提升医学推理能力。该方法利用罕见疾病知识合成分布可控的推理问题,并基于策略模型生成伪标签,实现"自监督 RL+监督 RL"的两阶段训练,无需依赖昂贵的推理痕迹蒸馏。在 Qwen 和 LLaMA 上的实验表明,该方法在十个医疗基准测试中均优于现有方法,在罕见病任务上准确率提升高达 5.93%。
CocoaBench 基准测试针对统一数字智能体发布,通过人工设计的长程任务评估其灵活组合视觉、搜索与编程能力的实战表现。该基准采用自动评估函数确保跨架构评测的可靠性,同步推出的 CocoaAgent 提供轻量级脚手架以实现模型间的公平对比。测试结果显示,当前最优系统成功率仅为 45.1%,表明现有智能体在推理规划、工具使用及视觉定位等关键环节仍有显著提升空间。
研究团队利用物理模拟器生成随机场景与合成问答数据,通过强化学习训练大语言模型,使其掌握物理推理能力。该方法实现了零样本从模拟到现实的迁移,仅在合成数据上训练即可让模型在国际物理奥林匹克(IPhO)问题上提升 5-10 个百分点的准确率。这一突破证明物理模拟器可作为可扩展的数据来源,帮助模型超越互联网问答数据的限制,获得深度物理推理技能。
研究发现,增强推理能力的大型语言模型在多智能体行为模拟中可能反而降低保真度。当目标是采样有限理性行为而非求解战略问题时,推理增强的模型会过度优化主导策略,导致妥协行为消失。通过在三个谈判环境(含紧急电力管理场景)的实验显示,有限反思比原生推理生成更多样化且倾向妥协的轨迹:GPT-5.2原生推理在45次运行中全部产生权威决策,而有限反思恢复了妥协结果。这表明行为模拟应更关注模型的采样能力而非求解能力。
研究团队提出 IceCache,一种面向长序列 LLM 的内存高效 KV 缓存管理策略。该方法融合语义 token 聚类与 PagedAttention,通过分层动态数据结构将语义相关 token 组织为连续内存区域,提升 CPU-GPU 传输效率。LongBench 测试显示,在 256 token 预算下 IceCache 保持 99% 原始准确率,且仅用 25% 的 KV 缓存预算即可达到与其他卸载方法相当或更优的延迟和准确率。
针对大语言模型推理对齐中同策略蒸馏(OPD)均匀监督导致信号质量被忽视的问题,研究者提出信号校准的双路径框架 SCOPE。该方法将 on-policy rollout 按正确性分流处理:对错误轨迹采用教师困惑度加权的 KL 蒸馏以优先利用可靠纠正信号,对正确轨迹采用学生困惑度加权的 MLE 以强化能力边界处的低置信度样本,并通过组级归一化自适应校准权重分布。在六项推理基准上的实验显示,SCOPE 较竞争基线平均提升 Avg@32 达 11.42%、Pass@32 达 7.30%。
研究团队发布 SciPredict 基准测试,涵盖物理学、生物学和化学 33 个子领域的 405 项实验预测任务。评估显示,主流 LLM 预测准确率仅为 14-26%,虽略高于人类专家的 20%,但远未达到可靠指导实验的标准。更关键的是,模型无法校准预测置信度,无论自信与否,准确率均维持在 20% 左右;而人类专家在认为可预测时的准确率可从 5% 提升至 80%。研究表明,实现超人类科研能力不仅需要提升预测精度,更需建立对预测可靠性的准确认知。
视觉语言模型虽擅长复杂推理,却在简单物体计数上频繁失败。研究发布COUNTINGTRICKS评估套件,通过注意力分析与分层探测发现,计数相关的视觉证据在模态投影阶段最强,但在后续语言层显著退化,导致模型过度依赖文本先验。基于此,团队提出轻量级干预方法Modality Attention Share (MAS),强制在答案生成阶段保持最低视觉注意力预算。研究表明,VLMs的计数失败不仅源于视觉感知局限,更因语言推理阶段对视觉证据的利用不足。
研究团队提出零样本视觉世界模型(ZWM),基于稀疏时间分解预测器、近似因果推理和推理组合三大原则,仅从单个儿童的第一人称经验中学习,即可快速掌握深度、运动、物体连贯性等多项物理理解能力。该模型在多个基准测试中展现出数据高效性,不仅重现了儿童发展的行为特征,还构建了类脑内部表征,为开发类人数据效率的AI系统提供了新路径。
研究人员提出模型调度策略以降低掩码扩散语言模型(MDLMs)的采样成本。该方法在特定去噪步骤用小规模模型替代完整大模型,基于早期和晚期步骤对模型替换更鲁棒的发现,在OpenWebText和LM1B数据集上实现FLOPs减少17%,仅带来生成困惑度的轻微下降,同时保持样本多样性。通过损失函数与KL散度的步骤重要性分析证实,扩散轨迹中段对模型替换最为敏感。这一架构无关的调度方法可在基本保持生成质量的前提下显著加速MDLM采样。
LMSYS Org推出HiSparse分层内存系统,针对稀疏注意力仍受限于GPU内存容量的问题,将非活跃KV缓存卸载至主机内存,仅在GPU HBM保留热缓冲区,并通过专用CUDA内核高效管理数据交换(采用LRU策略与页表更新)。该系统在256并发请求下实现超3倍吞吐量提升,GLM-5.1-FP8模型长上下文场景性能提升达5倍,支持DeepSeek-V3.2等采用DeepSeek Sparse Attention架构的模型。
研究者提出隐性课程假设,指出预训练遵循可组合且可预测的课程结构。通过设计涵盖检索、形态转换、逻辑推理和数学等领域的组合任务,对410M至13B参数的四个模型家族进行追踪,发现技能涌现顺序跨模型高度一致(ρ=.81),且复合任务通常在其组件任务之后出现。研究表明该结构编码于模型内部表征中,利用任务表征空间可有效预测未见过组合任务的训练轨迹(R²=.68-.84),揭示预训练过程比损失曲线显示的更具结构性。
强化学习是提升大语言模型推理能力的核心后训练工具,但rollout(从提示到终止的采样轨迹)设计常被忽视。本综述从与优化器无关的视角,提出GFCR(生成-过滤-控制-重放)生命周期分类法,将rollout流程模块化为四个阶段:生成候选轨迹、过滤构建中间信号、控制计算分配与决策、重放重用数据。研究引入可靠性、覆盖率和成本敏感性的权衡标准,并以此框架综述了过程监督、自适应计算等方法。案例研究涵盖数学、代码/SQL等多领域,最后提供了诊断索引和开放挑战,以构建可复现、高效的rollout流程。
本研究推出了名为ProofGrid的基准测试套件,旨在通过机器可检查的证明,而非仅凭最终答案,来严格评估大语言模型(LLM)的推理能力。该套件包含15项任务,涵盖证明编写、验证等环节,核心采用紧凑的最小自然演绎语言(NDL)进行表述。其评估框架能容忍表面偏差并定位首个实质性推理错误,实现了机械化、可复现的细粒度验证。测试表明,前沿模型在基础任务上表现尚可,但在需要全局组合推理或底层证明合成的困难任务上仍存在显著局限。研究还识别并量化了模型“生成有缺陷证明却能在局部正确识别其错误”的“认识不稳定”现象。
研究团队发布MedConclusion基准数据集,包含570万PubMed结构化摘要,用于测试大语言模型从结构化生物医学证据中推断科学结论的能力。该数据集将摘要非结论部分与作者撰写的结论配对,提供自然监督信号,并包含期刊类别、SJR等元数据支持子群分析。初步评估显示,结论写作与摘要写作行为差异显著,当前自动指标难以区分强模型表现,且LLM评判者身份会显著影响评分结果。
针对Blackwell GPU上的小批量解码,研究提出了一种名为“warp decode”的新方法。该方法颠覆了传统以专家为中心的计算路径,改为让每个GPU warp负责计算一个输出神经元。这一根本性改变消除了原有流程中五个纯数据管理的“簿记”步骤,将整个MoE计算层压缩为仅两个内核。其优势在于避免了填充、分散和中间缓冲区的读写,并通过warp独立性实现了更好的调度。在Blackwell GPU上,该方法实现了1.84倍的吞吐量提升,同时输出精度更高,与全FP32参考值的差距缩小了1.4倍,有效加速了模型研发流程。
为降低Transformer语言模型推理时KV缓存的内存占用,本研究提出一种名为“随机KV路由”的训练方法。该方法在训练过程中,让每一层随机选择使用本层或前一层的键值状态,从而使模型能够适应深度方向的KV缓存共享。评估表明,该方法在预训练或微调阶段应用后,可在多种模型架构中实现缓存共享,显著减少内存需求。对于数据受限的大模型,此方法还表现出类似正则化的效果,在降低内存的同时,常能保持甚至提升模型性能。
Meta将其广告推荐系统的运行时模型扩展至LLM的规模和复杂度,旨在更深入理解用户兴趣与意图,以提升广告效果。这一举措通过自适应排序模型,优化了推理阶段的扩展曲线,使部署大规模模型服务成为可能,标志着推荐系统性能向新前沿迈进。
针对使用强模型合成数据微调推理模型时出现的性能下降问题,本文提出师生协作数据合成框架TESSY。该框架通过让师生模型交替生成风格与非风格标记,使合成数据兼具教师的高级推理能力与学生风格一致性。实验以GPT-OSS-120B为教师、Qwen3-8B为学生,在代码生成任务中,传统方法使LiveCodeBench-Pro和OJBench性能分别下降3.25%和10.02%,而TESSY实现11.25%和6.68%的显著提升。
自我改进机制虽客观存在,但受限于"有损"特性,难以推动AI能力的递归式爆发。该论述指出,大语言模型等系统的自我优化过程伴随信息损耗与能力瓶颈,这种非完美的迭代模式打破了"快速起飞"(fast takeoff)的技术假设。与理想化的指数级自我增强不同,实际发展将呈现渐进、受限的增长轨迹,AI安全研究需重新评估递归自我改进的风险阈值。
陶哲轩回溯开普勒与牛顿时代的科学发现历程,剖析数学突破背后的真实机制,并据此展望人工智能对现代数学研究的革命性影响。文章通过历史案例揭示数学发现的本质特征,探讨AI技术如何借鉴经典科学方法论,改变未来数学问题的提出、验证与解决方式,为理解人机协作下的数学创新提供历史视角。
美团 LongCat 团队发布开源项目 LongCat-Flash-Prover,致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 技术应用门槛,促进先进技术的广泛可及性,但尚未公布具体的技术架构、功能特性及性能评估指标。
本文介绍一个衡量通用人工智能(AGI)进展的认知框架,并启动Kaggle黑客马拉松,旨在构建相应的评估体系,为AGI研发提供可量化的进度测量标准与评估工具。
OpenAI CEO Sam Altman 坦言,仅靠扩大模型规模无法达到 AGI,必须在架构层面实现重大创新。这一表态标志着 AI 发展范式的关键转向,承认当前"越大越好"的扩展策略已遇瓶颈。Altman 强调"是时候寻找新的架构了",暗示基于 Transformer 的现有技术路径难以通向通用人工智能,行业需要颠覆性技术突破而非单纯堆砌算力与参数。
关联讨论 1 条Dwarkesh Patel:Podcast & Blog(RSS)Mistral AI 发布新一代开源模型 Mistral Small 4,首次将 Magistral 的推理、Pixtral 的多模态和 Devstral 的编码能力整合于单一模型。它采用混合专家架构,拥有119B总参数和256k上下文窗口,支持图文输入及可配置的推理强度。性能上,其端到端延迟降低40%,吞吐量较前代提升3倍。该模型基于 Apache 2.0 许可证开源,并加入 NVIDIA Nemotron 联盟,优化了在 vLLM 等框架上的推理效率,适用于聊天、编码和复杂任务处理。
伯克利人工智能研究所提出 SPEX 与 ProxySPEX 算法,通过信号处理与编码理论实现大语言模型关键交互作用的高效识别。该方法基于" influential interactions 具有稀疏性与低阶性"的核心观察,将指数级搜索问题转化为可解的稀疏恢复问题,以极少的消融次数定位驱动模型输出的关键特征组合与内部组件依赖,突破传统方法在计算规模上的限制。
小红书在 ICLR 2026 上提出多模态推理大模型 Vision-R1。该模型以 200K 条无人工标注的高质量多模态 CoT 冷启动数据为基础,融合 GRPO 与渐进式思维抑制训练(PTST),有效解决多模态大模型“过度思考”难题,显著提升了复杂推理能力。
同步强化学习训练中,数据生成是主要瓶颈,如在320亿参数模型上生成3.2万令牌样本需数小时,导致训练GPU闲置。业界主流解决方案是将推理与训练解耦到不同GPU池,通过rollout缓冲区连接并异步传输权重。本文调研了16个实现此模式的开源库,从编排原语、缓冲区设计、权重同步协议、陈旧数据处理、部分rollout支持、LoRA支持及分布式训练后端七个维度比较。关键发现:Ray在编排层占主导(8/16库使用),NCCL广播是默认权重传输方式,LoRA训练支持普遍不足,而分布式MoE支持正成为新差异化特性。
inclusionAI 团队发布了 AReaL-tau2-merge-sft-235B 模型。该模型参数量达2350亿,采用合并与监督微调技术构建。其目标是推动人工智能技术发展并通过开源开放模式实现AI民主化,致力于让先进AI技术更广泛可及。
OpenAI 发布 CoT-Control 研究,发现推理模型难以操控自身思维链。这种「不可控」特性反而增强了 AI 的可监控性,成为安全对齐的重要保障。
OpenAI 发布 GPT-5.4 Thinking 系统卡,披露新一代推理模型的架构细节、安全评估框架及能力边界。文档详述思维链优化机制、长上下文推理性能指标,明确数学推导与代码生成准确率数据,分析幻觉风险与偏见控制措施,并列出越狱攻击防护策略及企业级部署的安全限制建议。