针对传统科学基准存在的发表偏倚、标签噪声及大规模存储需求,研究团队提出InfiniteScienceGym——一个程序生成的科学分析测试平台。该平台通过确定性算法从种子生成包含真实目录结构、文件与表格数据的自包含仓库,并配备带精确标准答案的可验证问答任务。对主流模型的评估显示,当前无模型整体准确率超过45%,识别不可回答问题仍是主要能力短板,而更强的模型倾向于更有效地使用工具而非单纯增加token消耗。
针对传统科学基准存在的发表偏倚、标签噪声及大规模存储需求,研究团队提出InfiniteScienceGym——一个程序生成的科学分析测试平台。该平台通过确定性算法从种子生成包含真实目录结构、文件与表格数据的自包含仓库,并配备带精确标准答案的可验证问答任务。对主流模型的评估显示,当前无模型整体准确率超过45%,识别不可回答问题仍是主要能力短板,而更强的模型倾向于更有效地使用工具而非单纯增加token消耗。
研究团队提出SD-Zero训练方法,通过让单一模型同时充当生成器和修订者,将二元奖励转化为密集的词元级自我监督。该方法无需外部教师或高质量演示,在数学与代码推理任务中,基于Qwen3-4B-Instruct和Olmo-3-7B-Instruct实现性能提升超10%,训练效率显著优于GRPO等强化学习基线。算法展现出词元级自定位与迭代自我进化特性,修订者能精准识别需修正的关键词元,并持续将修正能力蒸馏回生成器。
百度论文提出将开放式任务(如写作、主观回答)重构为可验证的多项选择形式,通过"两两比较"替代直接评分,为RL提供清晰奖励信号。在7个基准测试中,14B模型平均比RLHF基线高3.29分。关键创新在于训练任务形式的改变——模型通过对比验证学习识别优劣,而非单纯吸收偏好对。研究同时发现需混合RLHF目标以防止输出长度坍缩。该方法表明,用结构化比较替代模糊评分可能是提升推理能力的普遍对齐策略。
研究人员对Google Gemini 2.5 Flash和Flash Lite在视频场景理解中的内部推理轨迹(思维流)进行基准测试,基于100小时视频提出内容丰富度、思维-最终输出覆盖率和主导实体分析三项指标。实验发现,增加思考长度带来的质量提升在最初几百个token后迅速趋于平缓,Flash Lite在质量与token消耗间达到最佳平衡。研究还揭示,当推理预算受限时,模型会在最终输出中添加未经推理的内容,产生"压缩步骤幻觉";Flash倾向于讨论推理过程,而Flash Lite更专注于场景描述。
大型视觉语言模型存在"语义固着"现象:即使提示指定替代规则,仍固守默认语义解释。研究提出VLM-Fix基准(四种抽象策略游戏),评估14个模型发现准确率显著偏向标准规则。实验表明,中性别名提示可缩小逆向规则差距,语义负载别名则扩大差距;单规则训练损害相反规则迁移,联合规则训练改善广泛迁移。后期层激活干预可部分恢复性能,表明该错误可在模型后期表征中编辑。
一项综述系统梳理了2024年至2026年初发表的47种大语言模型强化学习信用分配(CA)方法,按粒度(token、step、turn等)与方法论(蒙特卡洛、时序差分等)建立二维分类体系。研究区分了单条思维链推理(500-3万token)与多轮智能体交互(10万-100万token,100+轮)两种范式,并发布结构化论文清单、报告检查表及基准测试协议三项资源。分析指出,从推理到智能体化的转变正推动信用分配技术从过程奖励模型转向反事实分析、非对称critic等全新方法。
MedSSR 框架通过知识增强数据合成与半监督强化学习提升医学推理能力。该方法利用罕见疾病知识合成分布可控的推理问题,并基于策略模型生成伪标签,实现"自监督 RL+监督 RL"的两阶段训练,无需依赖昂贵的推理痕迹蒸馏。在 Qwen 和 LLaMA 上的实验表明,该方法在十个医疗基准测试中均优于现有方法,在罕见病任务上准确率提升高达 5.93%。
CocoaBench 基准测试针对统一数字智能体发布,通过人工设计的长程任务评估其灵活组合视觉、搜索与编程能力的实战表现。该基准采用自动评估函数确保跨架构评测的可靠性,同步推出的 CocoaAgent 提供轻量级脚手架以实现模型间的公平对比。测试结果显示,当前最优系统成功率仅为 45.1%,表明现有智能体在推理规划、工具使用及视觉定位等关键环节仍有显著提升空间。
研究团队利用物理模拟器生成随机场景与合成问答数据,通过强化学习训练大语言模型,使其掌握物理推理能力。该方法实现了零样本从模拟到现实的迁移,仅在合成数据上训练即可让模型在国际物理奥林匹克(IPhO)问题上提升 5-10 个百分点的准确率。这一突破证明物理模拟器可作为可扩展的数据来源,帮助模型超越互联网问答数据的限制,获得深度物理推理技能。
研究通过贪婪剪枝方法(逐个删除对模型似然度影响最小的token)评估LLM推理token的功能重要性。发现符号数学token比语法叙述更能经受剪枝,表明模型内部存在重要性排序。重要性具有动态性,早期可丢弃的token可能在上下文减少后变得关键。注意力模式可预测剪枝分数,说明功能重要性在模型内部可见。该发现有助于使chain-of-thought更可解释,而非仅仅缩短长度。
Do all reasoning tokens matter equally? We study the functional importance of reasoning tokens implicitly encoded in LLM...
Mark Zuckerberg指出,未来企业不会拥有前沿AI基础模型,而是基于共享模型构建定制化运营层,反映其业务流程与客户历史,用于客户互动和支持。与此同时,Meta发布原生多模态推理模型Muse Spark,采用多智能体编排架构,多个副本可并行推理并比较结果,用比Llama 4 Maverick少10倍以上的训练计算达到类似能力,标志着AI性能提升从单一模型扩展转向运行时智能分配计算资源。
Meta is back. 🔥 Finally dropped its first model since Zuckerberg started writing checks like crazy. Launched Muse Spark...
关联讨论 3 条X:Artificial Analysis (@ArtificialAnlys)X:slow_developer (@slow_developer)X:Testing Catalog (@testingcatalog)研究发现,增强推理能力的大型语言模型在多智能体行为模拟中可能反而降低保真度。当目标是采样有限理性行为而非求解战略问题时,推理增强的模型会过度优化主导策略,导致妥协行为消失。通过在三个谈判环境(含紧急电力管理场景)的实验显示,有限反思比原生推理生成更多样化且倾向妥协的轨迹:GPT-5.2原生推理在45次运行中全部产生权威决策,而有限反思恢复了妥协结果。这表明行为模拟应更关注模型的采样能力而非求解能力。
研究团队提出 IceCache,一种面向长序列 LLM 的内存高效 KV 缓存管理策略。该方法融合语义 token 聚类与 PagedAttention,通过分层动态数据结构将语义相关 token 组织为连续内存区域,提升 CPU-GPU 传输效率。LongBench 测试显示,在 256 token 预算下 IceCache 保持 99% 原始准确率,且仅用 25% 的 KV 缓存预算即可达到与其他卸载方法相当或更优的延迟和准确率。
针对大语言模型推理对齐中同策略蒸馏(OPD)均匀监督导致信号质量被忽视的问题,研究者提出信号校准的双路径框架 SCOPE。该方法将 on-policy rollout 按正确性分流处理:对错误轨迹采用教师困惑度加权的 KL 蒸馏以优先利用可靠纠正信号,对正确轨迹采用学生困惑度加权的 MLE 以强化能力边界处的低置信度样本,并通过组级归一化自适应校准权重分布。在六项推理基准上的实验显示,SCOPE 较竞争基线平均提升 Avg@32 达 11.42%、Pass@32 达 7.30%。
研究团队发布 SciPredict 基准测试,涵盖物理学、生物学和化学 33 个子领域的 405 项实验预测任务。评估显示,主流 LLM 预测准确率仅为 14-26%,虽略高于人类专家的 20%,但远未达到可靠指导实验的标准。更关键的是,模型无法校准预测置信度,无论自信与否,准确率均维持在 20% 左右;而人类专家在认为可预测时的准确率可从 5% 提升至 80%。研究表明,实现超人类科研能力不仅需要提升预测精度,更需建立对预测可靠性的准确认知。
KellyBench基准测试检验了主流LLM在英超赛季投注中的长期预测与风险管理能力。所有参测模型均遭遇亏损,部分资金归零。Claude Opus 4.6以-11% ROI表现最佳,GPT-5.4为-13.6%。该测试通过100-150场动态赛季模拟,暴露出现有AI在持续决策中的连贯性、数据适应性与风险控制方面存在显著缺陷。
视觉语言模型虽擅长复杂推理,却在简单物体计数上频繁失败。研究发布COUNTINGTRICKS评估套件,通过注意力分析与分层探测发现,计数相关的视觉证据在模态投影阶段最强,但在后续语言层显著退化,导致模型过度依赖文本先验。基于此,团队提出轻量级干预方法Modality Attention Share (MAS),强制在答案生成阶段保持最低视觉注意力预算。研究表明,VLMs的计数失败不仅源于视觉感知局限,更因语言推理阶段对视觉证据的利用不足。
研究团队提出零样本视觉世界模型(ZWM),基于稀疏时间分解预测器、近似因果推理和推理组合三大原则,仅从单个儿童的第一人称经验中学习,即可快速掌握深度、运动、物体连贯性等多项物理理解能力。该模型在多个基准测试中展现出数据高效性,不仅重现了儿童发展的行为特征,还构建了类脑内部表征,为开发类人数据效率的AI系统提供了新路径。
研究人员提出模型调度策略以降低掩码扩散语言模型(MDLMs)的采样成本。该方法在特定去噪步骤用小规模模型替代完整大模型,基于早期和晚期步骤对模型替换更鲁棒的发现,在OpenWebText和LM1B数据集上实现FLOPs减少17%,仅带来生成困惑度的轻微下降,同时保持样本多样性。通过损失函数与KL散度的步骤重要性分析证实,扩散轨迹中段对模型替换最为敏感。这一架构无关的调度方法可在基本保持生成质量的前提下显著加速MDLM采样。
We benchmarked every major AI model at poker. GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro, Grok 4 and more. All played 5,00...
@emollick Humans are jagged too! We're just very used to their type of jaggedness. Here are 6 random people from a jagge...
LMSYS Org推出HiSparse分层内存系统,针对稀疏注意力仍受限于GPU内存容量的问题,将非活跃KV缓存卸载至主机内存,仅在GPU HBM保留热缓冲区,并通过专用CUDA内核高效管理数据交换(采用LRU策略与页表更新)。该系统在256并发请求下实现超3倍吞吐量提升,GLM-5.1-FP8模型长上下文场景性能提升达5倍,支持DeepSeek-V3.2等采用DeepSeek Sparse Attention架构的模型。
LLM evals are slow to adapt. MMLU/GSM8K continued to be reported long after they were obsolete. I think the next thing t...
Had early access to GPT-5.2. Its an impressive model. Here is GPT 5.2 Pro's version of "create a visually interesting sh...
研究者提出隐性课程假设,指出预训练遵循可组合且可预测的课程结构。通过设计涵盖检索、形态转换、逻辑推理和数学等领域的组合任务,对410M至13B参数的四个模型家族进行追踪,发现技能涌现顺序跨模型高度一致(ρ=.81),且复合任务通常在其组件任务之后出现。研究表明该结构编码于模型内部表征中,利用任务表征空间可有效预测未见过组合任务的训练轨迹(R²=.68-.84),揭示预训练过程比损失曲线显示的更具结构性。
韩国AI实验室Upstage发布Solar Pro 3,AI Index得分26,为韩国实验室第二强模型。采用MoE架构(102B总参数/12B激活参数),支持128k上下文。核心优势在于agentic工具调用与指令遵循,IFBench得分71%与GLM-5、Kimi K2.5相当,τ²-Bench Telecom达86%。但token消耗较高(约100M),可靠性不足(AA-Omniscience得分-54),准确性18%优于其他韩国模型。可通过Upstage API访问。
强化学习是提升大语言模型推理能力的核心后训练工具,但rollout(从提示到终止的采样轨迹)设计常被忽视。本综述从与优化器无关的视角,提出GFCR(生成-过滤-控制-重放)生命周期分类法,将rollout流程模块化为四个阶段:生成候选轨迹、过滤构建中间信号、控制计算分配与决策、重放重用数据。研究引入可靠性、覆盖率和成本敏感性的权衡标准,并以此框架综述了过程监督、自适应计算等方法。案例研究涵盖数学、代码/SQL等多领域,最后提供了诊断索引和开放挑战,以构建可复现、高效的rollout流程。