本文提出MathNet,一个大规模多语言奥林匹克数学基准,收录47国17种语言的30,676道专家命题,跨越二十年竞赛历史。该基准支持问题求解、数学感知检索及检索增强问题求解三项任务。实验显示,即使最先进的推理模型(Gemini-3.1-Pro 78.4%、GPT-5 69.3%)仍面临挑战,而嵌入模型在数学等价检索上表现不佳。研究表明,DeepSeek-V3.2-Speciale通过检索增强技术实现最高12%性能提升,创下基准最高分。
本研究探索大语言模型在弱监督下通过RLVR学习推理的机制。在稀缺数据、噪声奖励和自监督代理奖励三种场景中,训练奖励饱和动态决定泛化能力:延长预饱和阶段促进泛化,快速饱和导致记忆。推理忠实度(中间步骤对答案的逻辑支持程度)是预测模型表现的关键属性。研究表明,显式推理轨迹上的监督微调对弱监督泛化至关重要,结合领域数据持续预训练,可使Llama3.2-3B-Base在原本失败的三种场景中均实现泛化。
研究人员发布受控多模态乘法基准,系统评估大模型在文本、图像和音频输入下的算术极限。研究定义算术负载指标C(总位数与非零位数乘积),发现当C>100时准确率急剧下降至接近零,且该指标跨模态预测性能R²常超0.5。实验表明模型失败主要源于计算缺陷而非感知能力——匹配感知测试中各模态准确率均超99%。此外,模型倾向于采用分配式分解策略而非传统列式乘法进行计算。
针对自动驾驶中Chain-of-Thought推理的高延迟问题,本文提出OneVL框架,统一VLA与世界模型。该方法通过双辅助解码器(语言解码器重建文本推理链,视觉世界模型解码器预测未来帧)监督紧凑隐式token,使模型内化道路几何与动态环境的因果规律。三阶段训练逐步对齐轨迹、语言与视觉目标,推理时丢弃解码器实现单步并行计算。在四项基准测试中,OneVL成为首个超越显式CoT的隐式推理方法,以answer-only延迟达到SOTA精度。
几何稳定性为语言模型部署提供双重诊断。监督式Shesha通过测量任务对齐的表征稳定性,在35-69个模型中以0.89-0.97相关系数精准预测线性可控性;无监督稳定性虽在可控性预测上失效(ρ≈0.10),却在漂移检测中表现优异:较CKA捕捉近2倍(Llama中5.23倍)几何变化,于73%模型中提前预警,假阳性率较Procrustes低6倍。两者分别适用于部署前可控性评估与部署后监控。
STRATAGEM 框架通过轨迹调制的游戏自博弈提升语言模型的可迁移推理能力。针对现有方法仅依赖游戏终端结果、难以区分通用推理与特定启发式的问题,该框架引入推理可迁移性系数和推理进化奖励,选择性强化展现抽象领域无关推理的轨迹,并激励自适应推理发展。实验显示,该方法在数学推理、通用推理和代码生成基准测试中取得显著改进,尤其在竞赛级数学任务上表现突出。
谷歌将于本周Cloud Next大会发布TPUv8系列AI芯片,采用双芯片策略全面取代TPUv7。其中TPUv8t(代号Sunfish)由博通设计,专注高性能训练;TPUv8i(代号Zebrafish)由联发科操刀,主打高性价比推理。新系列将集成基于Neoverse N3架构的Axion Arm CPU。值得注意的是,此前传闻参与的Marvell未出现在设计名单中,显示谷歌调整了合作伙伴策略。
现代序列建模主要依赖Transformer和结构化状态空间模型,但两者在长上下文处理中均存在局限。Sessa提出一种新解码器架构,将注意力机制置于循环反馈路径内,从而构建多条基于注意力的历史信息传递路径。理论分析表明,在匹配条件下,Sessa可实现幂律记忆衰减O(ℓ^{-β})(0<β<1),其衰减速度慢于对应的Transformer与Mamba基线,并能实现灵活的选择性信息检索,包括影响力不随距离衰减的模式。实验证明,Sessa在长上下文基准测试中取得最强性能,同时在短上下文语言建模任务上保持竞争力。
GRASP是一种面向世界模型长程规划的梯度优化新方法。通过将轨迹映射至虚拟状态实现跨时间并行优化,引入状态迭代的随机噪声增强探索能力,并重塑梯度以避免高维视觉模型中的病态信号传播。该技术解决了长程规划中的优化病态、局部最优和高维潜在空间失效等问题,使基于学习动力学的复杂任务规划更加稳定高效。
DR-Venus 是一个仅用1万条开放数据训练的40亿参数深度研究智能体,基于Qwen3-4B-Thinking-2507架构,支持200步工具调用和超20万tokens的上下文。它通过监督微调与强化学习两阶段训练,在BrowseComp、GAIA等多个深度研究基准上树立了小模型性能新标杆。其SFT版本已超越多数同类开源模型,而RL版本进一步将长程任务可靠性和工具使用校准度提升2-3个百分点。项目已全面开源模型、代码与训练流程。
通义千问发布 Qwen3.6-Max-Preview 预览版,相比 Qwen3.6-Plus 在多项基准上显著提升:智能体编程(SkillsBench +9.9、SciCode +6.3、NL2Repo +5.0、Terminal-Bench 2.0 +3.8)、世界知识(SuperGPQA +2.3、QwenChineseBench +5.3)、指令遵循(ToolcallFormatIFBench +2.8)。新版本支持 preserve_thinking,可在消息中保留前序轮次思维内容,避免多步任务上下文丢失,官方推荐用于智能体开发。用户可登录 Qwen Studio 直接对话,或通过阿里云百炼(即将上线)调用 API。
https://openai.com/index/introducing-openai-o1-preview/ I think that big bet on reasoning and test-time compute is going...
研究团队提出PSRD(分阶段自奖励解码)框架,在推理阶段动态缓解大型视觉语言模型(LVLMs)的视觉幻觉问题,无需外部监督。研究发现幻觉在每个语义阶段开始时达到峰值,据此将LVLMs的幻觉引导信号蒸馏为轻量级奖励模型,实现解码过程中的实时干预。实验显示,该方法使LLaVA-1.5-7B的幻觉率降低50.0%,并在五个幻觉评估基准上持续优于现有事后方法,同时实现了性能与推理效率的可控平衡。
研究团队提出了一种基于对比归因与 LRP 的 LLM 故障诊断框架,通过量化错误输出与正确候选间的 logit 差异,并将其归因至输入 token 及内部模型状态,同时支持长文本的跨层归因图构建。该研究在多个真实基准测试上开展系统实证,覆盖不同数据集、模型规模及训练阶段,结果显示 token 级对比归因虽能为部分失败案例提供有效诊断信号,但其适用性存在明显局限,尚无法通用于所有场景。
新一代混合注意力模型通过压缩KV Cache,使Prefill-as-a-Service架构成为可能。该方案将重计算的Prefill阶段卸载至远程集群,仅回传轻量KV Cache至本地解码,短请求则本地处理。配合智能路由与带宽感知调度,可在普通以太网高效传输。实测1T参数模型显示,50%请求远程处理时跨集群流量仅13Gbps,吞吐量提升54%,打破长上下文AI局限于单一数据中心的瓶颈。
LLM可通过分析公开写作实现大规模去匿名化。研究让模型执行提取身份线索、搜索匹配池、比较验证候选者三项任务,在Hacker News与LinkedIn、Reddit跨社区及跨时间段等场景测试中,达到90%精确度与68%召回率,远胜旧方法。关键突破在于推理步骤能处理大规模候选池,证明零散公开文本已足以关联账户并识别个人,传统匿名保护机制失效。
研究团队提出四层认知复杂度分类法定义时间序列推理(TSR)任务,发布包含83k样本的HiTSR数据集,涵盖多样化任务组合与验证CoT轨迹。基于此开发的LLaTiSA模型整合可视化模式与精度校准数值表增强视觉语言模型(VLM)的时间感知,经多阶段课程微调策略训练,在多样TSR任务及真实场景中实现卓越性能与强分布外泛化。
研究发现当前LLM智能体缺乏"环境好奇心",即识别并利用环境中意外相关信息的能力。研究者在Terminal-Bench等三个基准测试中注入完整解决方案:Terminal-Bench中智能体79-81%发现方案但仅37-50%利用;AppWorld中超90%看到标注"返回完整解决方案"的文档却不足7%利用。工具配置、测试时计算和训练数据分布是三大影响因素。即便优化配置,智能体仍在多数试验中忽视已发现方案,仅将环境用于获取预期信息而非调整策略。
Dario seems to think China and open source will hit Mythos capabilities in 6-12 months
研究团队发布NeuroAdapt-Bench基准,系统评估测试时自适应(TTA)在EEG基础模型上的实际表现。实验覆盖多种预训练模型、下游任务及异构数据集(含Ear-EEG等极端模态偏移)。结果显示,标准TTA方法性能提升不稳定且常导致模型退化,梯度方法退化尤为严重;而无优化方法表现出更强稳定性和可靠性。该研究揭示了现有TTA技术在脑电信号处理中的局限性,强调需开发领域特定的自适应策略。
Abstain-R1 基于 3B 参数模型,采用澄清感知的可验证强化学习奖励机制训练,在保持可回答问题性能的同时,对无法回答的查询执行显式拒绝并说明关键缺失信息。在 Abstain-Test、Abstain-QA 和 SelfAware 基准测试中,该模型相比基础模型显著提升,拒答与澄清行为达到 DeepSeek-R1 等更大系统的水平,表明校准拒答能力可通过可验证奖励有效习得。
研究团队提出Sentinel-Bench框架,基于Qwen-3.5-9B执行840次实验,对比System 1与System 2在Optimism DAO对抗性数据集上的表现。结果显示System 1基线达成100%对抗鲁棒性与司法一致性,状态最终性仅需13秒;而System 2引发26.7%认知崩溃率,导致共识稳定性降至72.6%并带来17倍延迟。研究还发现1.5%的"推理诱导谄媚"现象。实验证明,在拜占庭容错约束下,边缘原生SLM采用System 1参数化直觉优于System 2迭代审议。
一篇论文提出,智能的本质是在计算、内存和能源限制下的适应性。据此,AGI被定义为至少能像人类科学家一样普遍适应的系统,需具备规划实验、学习因果关系、平衡探索与行动及自主操作的能力。论文将这种AGI称为 artificial scientist,强调其评判标准在于跨任务发现与适应能力,而非通过类人测试。作者指出,AGI并非简单的"人类水平AI",而是能够广泛、高效且科学地进行适应的完整系统。
Anthropic推出adaptive thinking功能,允许Claude根据请求动态分配推理token。与OpenAI通过GPT-5在不同模型间路由不同,Anthropic选择让单一模型自行调节。此举背后是企业市场利润压力与严重算力短缺——OpenAI CRO在泄露备忘录中指出Anthropic误判了计算资源采购需求。该功能虽提升效率却导致质量不稳,显示Anthropic正优先服务企业客户而牺牲消费者体验,这一点在Opus 4.7发布中已显露无遗。
OpenAI 推出专为生命科学领域打造的推理模型 GPT-Rosalind,旨在加速研究人员从假设到实验的转化流程。该模型目前处于严格管控的访问阶段。作为针对生命科学研究场景优化的 AI 系统,GPT-Rosalind 试图缩短科研周期,帮助科学家更快验证理论假设。
The mood regarding the Opus 4.7 update has shifted. If I had to guess, I'd say 60% are disappointed with the latest upda...
I think the adaptive thinking requirement in Claude Opus 4.7 is bad in the ways that all AI effort routers are bad, but ...
I think the adaptive thinking requirement in Claude Opus 4.7 is bad in the ways that all AI effort routers are bad, but ...
研究团队发布"Mind's Eye"基准测试,涵盖8项视觉认知任务,依据"抽象-关系-转换"(A-R-T)分类体系评估多模态大语言模型的流体推理能力。结果显示,人类参与者准确率达80%,而顶尖模型不足50%。错误分析揭示,现有模型在视觉注意力分配、内部感知操作和底层概念抽象方面存在明显缺陷,表明当前多模态大语言模型的视觉空间推理能力仍显著落后于人类水平。
研究团队发布 SemanticQA 评测套件,用于评估语言模型处理语义短语的能力。该基准整合现有多词表达资源,构建统一测试平台,涵盖词汇搭配、习语表达、名词复合词及动词结构四大类别。通过对不同架构和规模模型的测试发现,各模型在提取、分类、解释及序列组合任务中表现差异显著,尤其在需要深层语义推理的任务上差距明显,暴露出复杂语义短语理解的能力瓶颈。评测数据与工具已开源。
研究团队通过Olmo 3的三个后训练谱系(Think、Instruct、RL-Zero)追踪输出多样性变化。发现多样性崩溃与数据组成密切相关:Think在监督微调阶段损失大部分语义多样性,DPO对Instruct影响更大。抑制Think模型的思维链推理虽降低准确率但不改变多样性,证明崩溃由训练数据嵌入权重导致。在可验证任务中,Think虽总体崩溃更多但保留更多正确答案多样性。研究表明多样性崩溃由训练数据组成决定,无法仅靠推理时间解决。