本研究探索大语言模型在弱监督下通过RLVR学习推理的机制。在稀缺数据、噪声奖励和自监督代理奖励三种场景中,训练奖励饱和动态决定泛化能力:延长预饱和阶段促进泛化,快速饱和导致记忆。推理忠实度(中间步骤对答案的逻辑支持程度)是预测模型表现的关键属性。研究表明,显式推理轨迹上的监督微调对弱监督泛化至关重要,结合领域数据持续预训练,可使Llama3.2-3B-Base在原本失败的三种场景中均实现泛化。
本研究探索大语言模型在弱监督下通过RLVR学习推理的机制。在稀缺数据、噪声奖励和自监督代理奖励三种场景中,训练奖励饱和动态决定泛化能力:延长预饱和阶段促进泛化,快速饱和导致记忆。推理忠实度(中间步骤对答案的逻辑支持程度)是预测模型表现的关键属性。研究表明,显式推理轨迹上的监督微调对弱监督泛化至关重要,结合领域数据持续预训练,可使Llama3.2-3B-Base在原本失败的三种场景中均实现泛化。
研究人员发布受控多模态乘法基准,系统评估大模型在文本、图像和音频输入下的算术极限。研究定义算术负载指标C(总位数与非零位数乘积),发现当C>100时准确率急剧下降至接近零,且该指标跨模态预测性能R²常超0.5。实验表明模型失败主要源于计算缺陷而非感知能力——匹配感知测试中各模态准确率均超99%。此外,模型倾向于采用分配式分解策略而非传统列式乘法进行计算。
针对自动驾驶中Chain-of-Thought推理的高延迟问题,本文提出OneVL框架,统一VLA与世界模型。该方法通过双辅助解码器(语言解码器重建文本推理链,视觉世界模型解码器预测未来帧)监督紧凑隐式token,使模型内化道路几何与动态环境的因果规律。三阶段训练逐步对齐轨迹、语言与视觉目标,推理时丢弃解码器实现单步并行计算。在四项基准测试中,OneVL成为首个超越显式CoT的隐式推理方法,以answer-only延迟达到SOTA精度。
几何稳定性为语言模型部署提供双重诊断。监督式Shesha通过测量任务对齐的表征稳定性,在35-69个模型中以0.89-0.97相关系数精准预测线性可控性;无监督稳定性虽在可控性预测上失效(ρ≈0.10),却在漂移检测中表现优异:较CKA捕捉近2倍(Llama中5.23倍)几何变化,于73%模型中提前预警,假阳性率较Procrustes低6倍。两者分别适用于部署前可控性评估与部署后监控。
STRATAGEM 框架通过轨迹调制的游戏自博弈提升语言模型的可迁移推理能力。针对现有方法仅依赖游戏终端结果、难以区分通用推理与特定启发式的问题,该框架引入推理可迁移性系数和推理进化奖励,选择性强化展现抽象领域无关推理的轨迹,并激励自适应推理发展。实验显示,该方法在数学推理、通用推理和代码生成基准测试中取得显著改进,尤其在竞赛级数学任务上表现突出。
谷歌将于本周Cloud Next大会发布TPUv8系列AI芯片,采用双芯片策略全面取代TPUv7。其中TPUv8t(代号Sunfish)由博通设计,专注高性能训练;TPUv8i(代号Zebrafish)由联发科操刀,主打高性价比推理。新系列将集成基于Neoverse N3架构的Axion Arm CPU。值得注意的是,此前传闻参与的Marvell未出现在设计名单中,显示谷歌调整了合作伙伴策略。
现代序列建模主要依赖Transformer和结构化状态空间模型,但两者在长上下文处理中均存在局限。Sessa提出一种新解码器架构,将注意力机制置于循环反馈路径内,从而构建多条基于注意力的历史信息传递路径。理论分析表明,在匹配条件下,Sessa可实现幂律记忆衰减O(ℓ^{-β})(0<β<1),其衰减速度慢于对应的Transformer与Mamba基线,并能实现灵活的选择性信息检索,包括影响力不随距离衰减的模式。实验证明,Sessa在长上下文基准测试中取得最强性能,同时在短上下文语言建模任务上保持竞争力。
GRASP是一种面向世界模型长程规划的梯度优化新方法。通过将轨迹映射至虚拟状态实现跨时间并行优化,引入状态迭代的随机噪声增强探索能力,并重塑梯度以避免高维视觉模型中的病态信号传播。该技术解决了长程规划中的优化病态、局部最优和高维潜在空间失效等问题,使基于学习动力学的复杂任务规划更加稳定高效。
DR-Venus 是一个仅用1万条开放数据训练的40亿参数深度研究智能体,基于Qwen3-4B-Thinking-2507架构,支持200步工具调用和超20万tokens的上下文。它通过监督微调与强化学习两阶段训练,在BrowseComp、GAIA等多个深度研究基准上树立了小模型性能新标杆。其SFT版本已超越多数同类开源模型,而RL版本进一步将长程任务可靠性和工具使用校准度提升2-3个百分点。项目已全面开源模型、代码与训练流程。
通义千问发布 Qwen3.6-Max-Preview 预览版,相比 Qwen3.6-Plus 在多项基准上显著提升:智能体编程(SkillsBench +9.9、SciCode +6.3、NL2Repo +5.0、Terminal-Bench 2.0 +3.8)、世界知识(SuperGPQA +2.3、QwenChineseBench +5.3)、指令遵循(ToolcallFormatIFBench +2.8)。新版本支持 preserve_thinking,可在消息中保留前序轮次思维内容,避免多步任务上下文丢失,官方推荐用于智能体开发。用户可登录 Qwen Studio 直接对话,或通过阿里云百炼(即将上线)调用 API。
研究团队提出PSRD(分阶段自奖励解码)框架,在推理阶段动态缓解大型视觉语言模型(LVLMs)的视觉幻觉问题,无需外部监督。研究发现幻觉在每个语义阶段开始时达到峰值,据此将LVLMs的幻觉引导信号蒸馏为轻量级奖励模型,实现解码过程中的实时干预。实验显示,该方法使LLaVA-1.5-7B的幻觉率降低50.0%,并在五个幻觉评估基准上持续优于现有事后方法,同时实现了性能与推理效率的可控平衡。
研究团队提出了一种基于对比归因与 LRP 的 LLM 故障诊断框架,通过量化错误输出与正确候选间的 logit 差异,并将其归因至输入 token 及内部模型状态,同时支持长文本的跨层归因图构建。该研究在多个真实基准测试上开展系统实证,覆盖不同数据集、模型规模及训练阶段,结果显示 token 级对比归因虽能为部分失败案例提供有效诊断信号,但其适用性存在明显局限,尚无法通用于所有场景。
研究团队提出四层认知复杂度分类法定义时间序列推理(TSR)任务,发布包含83k样本的HiTSR数据集,涵盖多样化任务组合与验证CoT轨迹。基于此开发的LLaTiSA模型整合可视化模式与精度校准数值表增强视觉语言模型(VLM)的时间感知,经多阶段课程微调策略训练,在多样TSR任务及真实场景中实现卓越性能与强分布外泛化。
研究发现当前LLM智能体缺乏"环境好奇心",即识别并利用环境中意外相关信息的能力。研究者在Terminal-Bench等三个基准测试中注入完整解决方案:Terminal-Bench中智能体79-81%发现方案但仅37-50%利用;AppWorld中超90%看到标注"返回完整解决方案"的文档却不足7%利用。工具配置、测试时计算和训练数据分布是三大影响因素。即便优化配置,智能体仍在多数试验中忽视已发现方案,仅将环境用于获取预期信息而非调整策略。
研究团队发布NeuroAdapt-Bench基准,系统评估测试时自适应(TTA)在EEG基础模型上的实际表现。实验覆盖多种预训练模型、下游任务及异构数据集(含Ear-EEG等极端模态偏移)。结果显示,标准TTA方法性能提升不稳定且常导致模型退化,梯度方法退化尤为严重;而无优化方法表现出更强稳定性和可靠性。该研究揭示了现有TTA技术在脑电信号处理中的局限性,强调需开发领域特定的自适应策略。
Abstain-R1 基于 3B 参数模型,采用澄清感知的可验证强化学习奖励机制训练,在保持可回答问题性能的同时,对无法回答的查询执行显式拒绝并说明关键缺失信息。在 Abstain-Test、Abstain-QA 和 SelfAware 基准测试中,该模型相比基础模型显著提升,拒答与澄清行为达到 DeepSeek-R1 等更大系统的水平,表明校准拒答能力可通过可验证奖励有效习得。
研究团队提出Sentinel-Bench框架,基于Qwen-3.5-9B执行840次实验,对比System 1与System 2在Optimism DAO对抗性数据集上的表现。结果显示System 1基线达成100%对抗鲁棒性与司法一致性,状态最终性仅需13秒;而System 2引发26.7%认知崩溃率,导致共识稳定性降至72.6%并带来17倍延迟。研究还发现1.5%的"推理诱导谄媚"现象。实验证明,在拜占庭容错约束下,边缘原生SLM采用System 1参数化直觉优于System 2迭代审议。
OpenAI 推出专为生命科学领域打造的推理模型 GPT-Rosalind,旨在加速研究人员从假设到实验的转化流程。该模型目前处于严格管控的访问阶段。作为针对生命科学研究场景优化的 AI 系统,GPT-Rosalind 试图缩短科研周期,帮助科学家更快验证理论假设。
研究团队发布"Mind's Eye"基准测试,涵盖8项视觉认知任务,依据"抽象-关系-转换"(A-R-T)分类体系评估多模态大语言模型的流体推理能力。结果显示,人类参与者准确率达80%,而顶尖模型不足50%。错误分析揭示,现有模型在视觉注意力分配、内部感知操作和底层概念抽象方面存在明显缺陷,表明当前多模态大语言模型的视觉空间推理能力仍显著落后于人类水平。
研究团队发布 SemanticQA 评测套件,用于评估语言模型处理语义短语的能力。该基准整合现有多词表达资源,构建统一测试平台,涵盖词汇搭配、习语表达、名词复合词及动词结构四大类别。通过对不同架构和规模模型的测试发现,各模型在提取、分类、解释及序列组合任务中表现差异显著,尤其在需要深层语义推理的任务上差距明显,暴露出复杂语义短语理解的能力瓶颈。评测数据与工具已开源。
研究团队通过Olmo 3的三个后训练谱系(Think、Instruct、RL-Zero)追踪输出多样性变化。发现多样性崩溃与数据组成密切相关:Think在监督微调阶段损失大部分语义多样性,DPO对Instruct影响更大。抑制Think模型的思维链推理虽降低准确率但不改变多样性,证明崩溃由训练数据嵌入权重导致。在可验证任务中,Think虽总体崩溃更多但保留更多正确答案多样性。研究表明多样性崩溃由训练数据组成决定,无法仅靠推理时间解决。
针对并行推理中早期错误导致无效路径的高成本问题,研究团队提出首个路径剪枝系统化分类框架,并开发了基于可学习内部信号的STOP(Super TOken for Pruning)方法。在1.5B至20B参数的大型推理模型评估中,该方法在固定计算预算下将GPT-OSS-20B在AIME25基准的准确率从84%提升至近90%,有效性与效率均优于现有基线。研究同时提供了形式化的经验部署指南。
文章探讨了大规模预训练中的并行计算策略优化方案,分析模型蒸馏技术是否可被检测或阻止及其对AI生态的影响;介绍 Mythos 系统在维护网络安全平衡中的应用,阐述流水线强化学习(Pipeline RL)的架构设计与效率提升,并总结预训练任务失败的常见技术瓶颈与排查方法,为分布式训练提供实践参考。
研究团队提出一种基于推理插值的早期检测方法,利用重要性采样结合微调供体前缀技术,在模型训练过程中预测奖励黑客行为的出现。该方法通过分析模型推理路径的插值变化,在奖励黑客完全形成前识别其风险迹象,为语言模型安全训练提供关键的预警指标。
针对3D空间推理标注成本高及自进化方法因模型共识导致几何错误累积的问题,本文提出SpatialEvo框架。该框架利用3D几何确定性特质,通过确定性几何环境(DGE)将无标注点云转化为零噪声训练信号,以客观物理反馈替代模型共识。单一共享参数策略在提问者与求解者角色间协同进化,结合任务自适应调度器动态聚焦薄弱类别。实验表明,3B和7B参数模型在9个基准测试中均获最高平均分,显著提升空间推理能力且不损害通用视觉理解。
研究人员提出TIP分类法,发现On-Policy蒸馏中最有价值的学习信号来自两个区域:高学生熵的不确定位置,以及低学生熵但高师生分歧的过度自信错误位置。实验表明,仅保留50%高熵token即可匹配全量训练效果并降低47%峰值内存;而针对低熵高分歧的不足10%token训练也能接近全量基线。该方法在Qwen3、Llama等模型的数学推理和DeepPlanning长程规划任务中得到验证,后者仅用不到20%token便超越全token训练效果。
RE-Edit 是一个评估图像编辑系统隐式推理能力的多维度基准,包含五个推理维度(物理、环境、文化、因果、指代)和 1,000 个精心设计的样本。研究测试了十种开源和两种商用图像编辑模型,发现即使先进系统在满足隐含逻辑约束时也经常失败,尽管能生成高质量视觉内容。论文还提出了一种轻量级推理引导后编辑基线,初步探索了显式推理在模型无关方式下缓解此类错误的可能性。
本文探讨token结构对自回归模型测试时搜索能力的影响。研究表明,采用粗到细结构的一维有序token其中间状态具备可验证的语义意义,使验证器能有效引导生成,显著优于传统二维网格结构。实验显示,基于此类token训练的模型在测试时扩展行为上表现更佳。此外,研究实现了无需训练AR模型的纯测试时搜索文本到图像生成,并系统分析了best-of-N、束搜索等经典算法与不同token结构的交互机制,为自回归模型的推理时扩展提供了实践指导。
研究团队提出自适应视觉推理框架 AVR,将推理过程分解为视觉感知、逻辑推理和答案应用三个认知功能,使模型能根据问题难度动态选择完整推理、仅感知或直接答案三种输出格式。该框架采用改进的 FS-GRPO 算法训练,在确保准确性的同时鼓励选择最高效推理路径。实验显示,AVR 在多个视觉语言基准测试中将 token 使用量降低 50–90%,同时保持整体准确率,有效缓解了视觉推理模型的"过度思考"问题。
研究团队发布 PRL-Bench 基准测试,用于系统评估 LLM 执行端到端物理研究的能力边界。该基准基于 2025 年 8 月以来《物理评论快报》100 篇精选论文构建,涵盖天体物理、凝聚态物理、高能物理、量子信息和统计物理五大领域,任务设计模拟真实科研的探索性、长周期工作流和客观可验证性。评估显示前沿模型最佳总体得分不足 50 分,揭示当前 LLM 能力与自主科学发现需求间仍存在显著差距。
研究团队提出 DDTree(Diffusion Draft Tree)方法,突破 DFlash 每轮仅验证单条轨迹的局限,直接从块扩散草稿模型的逐位置分布构建草稿树。在固定节点预算下,该方法通过 best-first 堆算法筛选最可能匹配目标模型的序列,并利用祖先注意力掩码实现单次前向传播验证。基于当前领先的 DFlash 模型,DDTree 将推测解码性能提升至领域前沿水平。
通过训练正确性分类器比较模型自身隐藏状态与外部模型表示,研究发现大语言模型在事实知识任务中拥有领域特定的特权知识,但在数学推理中不存在。标准评估显示自我探测与同伴探测性能相当,但在模型预测不一致的子集上,自我表示在事实任务中持续优于同伴表示。层-wise 分析表明,事实知识的特权优势从早期到中期层逐渐显现,与模型特定记忆检索机制一致,而数学推理在任何深度均无此优势。
针对RLVR在难题上面临的奖励稀疏问题,KnowRL框架将知识提示解构为原子知识点(KPs),运用约束子集搜索(CSS)构建紧凑训练子集,并显式优化剪枝交互悖论下的鲁棒子集选择。基于OpenMath-Nemotron-1.5B训练的模型在8项推理基准测试中创下1.5B规模新SOTA:无提示推理准确率达70.08%,较基线提升9.63个百分点;结合选定KPs后升至74.16%。模型与代码已开源。
研究系统分析了大语言模型在线策略蒸馏(OPD)的动态机制,发现其成功依赖两个关键条件:师生模型需具备兼容的思维模式,且教师必须提供学生未接触的新能力。通过弱到强反向蒸馏实验,研究证实同家族1.5B与7B教师从学生视角分布不可区分。机制上,成功OPD表现为对高概率token的渐进对齐,仅3%共享token集即承载97%-99%概率质量。研究提出离线冷启动与教师对齐提示选择两种优化策略,同时指出OPD密集token级奖励的隐性成本,质疑其在长程蒸馏中的可扩展性。
针对RLVR训练中极端困难与简单样本的探索-利用困境,研究团队提出DiPO方法,通过困惑度空间解耦策略将样本划分为高困惑度探索子空间与低困惑度利用子空间,精准挖掘需精细权衡的样本,并设计双向奖励分配机制实现困惑度引导的稳定策略优化。实验表明,该方法在数学推理和函数调用任务中表现优异,有效增强了大语言模型的推理能力。
提供的正文内容仅包含文章标题"Can Claude Fly a Plane?"、来源链接及发布元数据(2026年4月14日发布,获100 HN Points),未包含具体文章正文。因此无法提取关于Claude AI是否具备飞行操作能力、具体测试场景、性能数据或关键结论等详细信息以撰写符合要求的摘要。
Quanta Magazine近日发布报道,宣告数学领域的人工智能革命已经到来。文章指出AI技术正从根本上改变数学家的研究方式,推动该学科进入新的发展阶段。该报道在技术社区Hacker News上获得100点关注,反映出科技界对AI与基础科学交叉突破的高度兴趣。
Introspective Diffusion Language Models(内省扩散语言模型)正式发布,该架构在传统扩散模型基础上引入内省机制,支持生成过程中的自我评估与优化。项目技术细节与代码已开源至introspective-diffusion.github.io。该研究成果在Hacker News技术社区获得100点关注度,于2026年4月14日公开。
在GRPO风格强化学习中,策略梯度项的聚合方式(序列聚合与词元聚合)存在不同优化偏差:词元聚合导致符号与长度耦合,序列聚合则因序列级等权重而隐式削弱长响应。为此,本研究提出平衡聚合方法,分别在正负样本子集内计算词元级均值,再以序列计数权重组合。在Qwen2.5-Math-7B和Qwen3-1.7B模型上的实验表明,该方法在多个推理与代码生成基准上能持续提升训练稳定性与最终性能。分析进一步揭示,响应长度变异及正负样本长度差是决定聚合方法有效性的关键因素。
研究团队提出VCR-Agent多智能体框架,将生物推理形式化为机制动作图以实现可验证的自主推理。该框架整合生物学知识检索与验证过滤机制,并基于Tahoe-100M图谱发布VC-TRACES数据集,提供经过验证的机制解释。实验表明,利用该数据集训练可显著提升事实准确性,并为基因表达预测任务提供更有效的监督信号。