该研究提出一种仅需最小化结果导向GRPO设置的数据配方,即可显著提升大语言模型的长上下文推理能力。配方针对检索、多证据合成与推理三类互补任务,构建并筛选8个数据集共约14K样本。在Qwen3-4B、8B及30B-A3B三个模型上,该配方在7项长上下文基准测试中平均分别提升+7.2、+3.2、+6.4分,超越此前强化学习训练集。这些增益可迁移至智能体任务:在已微调的模型上继续训练,使GAIA提升+4.8分、BrowseComp提升+7.0分。数据集将开源。
该研究提出一种仅需最小化结果导向GRPO设置的数据配方,即可显著提升大语言模型的长上下文推理能力。配方针对检索、多证据合成与推理三类互补任务,构建并筛选8个数据集共约14K样本。在Qwen3-4B、8B及30B-A3B三个模型上,该配方在7项长上下文基准测试中平均分别提升+7.2、+3.2、+6.4分,超越此前强化学习训练集。这些增益可迁移至智能体任务:在已微调的模型上继续训练,使GAIA提升+4.8分、BrowseComp提升+7.0分。数据集将开源。
线性探针常通过余弦相似度比较,马氏余弦相似度(MCS)利用测试数据协方差重新加权内积,是一种任务感知改进。Ying等人(2026)发现探针的MCS与分布外(OOD)参考探针MCS近乎完美线性预测OOD AUROC(R²=0.98)。本文将这一发现扩展到不同模型、层和概念域,并证明在投影为高斯分布的平衡类中,OOD AUROC与参考探针MCS呈线性关系,两者均为探针在测试数据上信噪比的sigmoid函数。理论还预测并实验验证了线性失效的条件。MCS为比较线性探针提供了兼具理论和实证效果的替代方案。
针对自蒸馏仅通过隐式 logit 对齐最小化 KL 散度、缺乏对模型具体错误诊断的问题,论文提出轨迹增强策略优化(TAPO)。TAPO 在 RL 训练中让模型对同一查询同时生成正确与错误的 rollout,利用对比结构构造微反射修正轨迹:保留错误推理至失败点,插入自然语言诊断与正确参考引导的修正推理。此外引入难度感知候选选择和解耦优势估计。在 AIME 2024、AIME 2025 和 HMMT 2025 上,TAPO 相同时训练步数下较 GRPO 获得持续改进。
现代智能体系统因运行时状态碎片化(如会话记录、工具结果、内存事件等分散存储)难以检查与复现。OpenRath提出类似PyTorch的编程模型,核心抽象是Session——一种可在智能体与工作流间传递、支持分支、审查、回放的一级运行时值。Session统一记录对话片段、沙盒位置、血缘元数据、token用量、待办任务和工具证据,使分支、合并、回放成为显式操作。此外还定义了Sandbox、Tool、Agent、Memory、Workflow和Selector,其中Selector将控制流转为运行时路由的决策。论文呈现了编程模型、架构与证据协议,主张Session为智能体系统提供可审计组合的一级运行时值。
PhySciBench是面向物理科学研究的基准,包含200道专家精选的物理和化学问题,覆盖六类真实科研任务。评测显示,最强基线Gemini Deep Research准确率仅33.5%。失败案例暴露长推理链脆弱、跨步骤知识迁移有限、缺乏物理接地自我验证等缺陷。为此提出的DelveAgent是一个模块化多智能体框架,配备自适应规划循环、双粒度记忆和层次化物理接地反思机制。在四个科学基准上,DelveAgent将准确率提升最多7.5个百分点,推理成本降至最强基线的约三分之一。
首个针对网络规模LLM预训练语料库叙事特征的细粒度研究。以3万亿token的开放语料库Dolma为对象,基于叙事理论设计涵盖主体、场景、事件3个核心要素的11个可解释维度框架。通过采样并标注400段文本,微调并验证了基于RoBERTa的NarraBERT模型。将NarraBERT应用于300万段落,生成新数据集NarraDolma。研究发现:叙事结构可在海量异构数据中测量,网络文本呈现连续多维度叙事结构,且叙事质量在预训练数据源和主题间分布不均。NarraDolma和NarraBERT已公开。
GateMem 是一个针对多主体共享记忆智能体的基准,联合评估长期多步请求的效用、上下文访问控制与主动遗忘。测试覆盖医疗、办公、教育和家庭四个领域,包含长篇幅多方对话、增量记忆注入、隐藏检查点与结构化判分。对多种基线和骨干模型的实验表明,没有方法能同时实现强效用、鲁棒访问控制和可靠遗忘。长上下文提示词治理分数最高但 token 成本极高;检索与外部记忆方法成本较低,却仍会泄露未经授权或已删除的信息。当前记忆智能体远未达到在共享机构中可靠部署的要求。
WorldLines是一个项目驱动的长时程家庭辅助具身智能体基准。它构建包含对话、动作、执行反馈、物体与设备状态变化的长期家庭轨迹,并转化为证据关联样本用于Memory QA和具身任务规划。同时提出ObsMem,一个基于观察者的记忆框架,维护可见性感知记忆和动作原生状态痕迹以支持状态感知决策。实验揭示了部分可观测性、被覆盖的世界状态及将长期记忆转化为具身规划方面的持续挑战,而ObsMem为此场景提供了更强的参考架构。
提出一种基于3D体素掩码自编码器(MAE)的tokenizer,用于3D脑MRI潜在扩散模型。编码器与解码器解耦:冻结的3D MAE编码器产生临床信息丰富的嵌入,专用CNN解码器从嵌入的线性投影重建体素。编码器在35,309个体积(来自18个公共队列,覆盖四种模态、十种疾病类别和200+采集站点)上预训练。在23任务线性探测基准上,编码器在21个任务上超越或匹配BrainIAC、BrainSegFounder、MedicalNet等SOTA模型。基于这些嵌入训练的扩散Transformer(DiT)支持跨六个变量的条件生成和患者特定纵向预测。
针对现有多模态大语言模型自回归生成导致多区域感知效率低下的问题,提出PerceptionDLM多模态扩散语言模型。该架构利用扩散语言模型的并行解码特性,通过高效提示和结构化注意力掩码,在序列和token两个层次上同时感知多个掩码区域,显著提升推理效率。为系统评估扩散语言模型的并行性,构建了ParaDLC-Bench基准。实验表明,PerceptionDLM在保持区域描述竞争力的同时,大幅提升了多区域感知任务的速度。这是首次利用扩散语言模型实现并行区域标注和感知。
患者上下文涉及数百份异构文档与数千个结构化数据点,但文档级元数据缺失,标准RAG在处理时间推理、跨文档依赖等任务时表现不佳。为此,研究者在埃森大学医学中心部署了ACIE——一个本地部署的智能体RAG流水线,它可推理完整患者上下文并将每个回答锚定在源段落中供临床医生验证。在一项独立的回顾性淋巴瘤登记研究中,核医学医生对每个提取值与其引用来源进行核对,在7326次判断中接受了96.5%的提取结果,各类型接受率介于80%至99%之间。
LOCUS语料库包含来自9,239个城市和县的原始法规,并提供覆盖美国3,144个县中最大的2,309个县的标准化访问层,涵盖多数人口。项目利用OCR处理多种文档格式,将此前碎片化、仅供人工浏览的地方法规转化为机器可读资源。团队训练了基于ModernBERT的分类器和评分器,用于分析法规不透明性和家长主义等此前难以大规模研究的维度。LOCUS-v1及衍生模型已公开发布。
论文提出Playful Agentic Robot Learning范式,让具身编码智能体在任务到达前自主玩耍持续学技能。RATs(机器人智能体团队)在玩耍阶段自主提出可学新探索任务,执行代码策略、诊断失败并重试,将成功执行蒸馏为持久化代码技能库。测试时从冻结库检索技能辅助新任务。在LIBERO-PRO和MolmoSpaces上,玩耍学习技能相比CaP-Agent0分别提升20.6和17.0个百分点;该技能库可直接插入其他推理时代码策略智能体,无需微调模型,在RoboSuite和真实世界迁移中分别提升8.9和8.8个百分点。
FAPO是一个让Claude Code在标准化代码库内自动优化多步LLM管道的框架。它评估管道、检查中间步骤、诊断失败、提出范围性更改并反复验证,优先尝试提示编辑,仅当提示优化不足且归因识别出结构瓶颈时才调整链结构。在6个基准和3个任务模型上,FAPO在18个模型-基准比较中15次击败基线GEPA,平均增益+14.1pp;其中11次比较中均值±标准差范围不重叠。在HoVer和IFBench上,提示优先搜索升级为结构变化的6次比较中FAPO全胜,平均增益+33.8pp。安全任务上,仅提示版FAPO在CTIBench-RCM上将GPT-5测试准确率提升+4.0pp,Foundation-Sec-8B-Instruct提升+7.1pp,Foundation-Sec-8B-Reasoning提升+2.0pp。
Moebius是一个仅0.22B参数的轻量级图像修复框架。它通过引入Local-λ Mix Interaction(LλMI)块重构扩散主干,其中Local-λ和Interactive-λ模块将空间上下文与全局语义先验压缩为固定大小的线性矩阵,在削减参数的同时保留复杂潜在交互。配合仅在隐空间执行的自适应多粒度蒸馏策略,Moebius在自然图像和人像基准上达到了与11.9B参数模型FLUX.1-Fill-Dev相当甚至更优的生成质量,总推理速度提升超过15倍。
ImageWAM将预训练图像编辑模型用于机器人动作预测,无需视频生成。推理时利用图像编辑去噪产生的KV缓存作为世界动作上下文,不解码目标帧。在模拟器和真实世界实验中,ImageWAM性能优于标准VLA基线和竞争WAM,同时计算量(FLOPs)降低至1/6,延迟降低至1/4。注意力分析表明编辑缓存聚焦于任务相关区域,验证了图像编辑可作为视频生成的有效替代方案。
LooseControlVideo通过稀疏定向3D盒子作为“阻挡”代理,使用户能创作高层级布局和轨迹,同时由视频生成模型生成真实的遮挡、动态与交互。该方法微调Wan 2.2骨干网络,并采用DNOCS编码处理3D尺寸、方向和深度顺序遮挡。在nuScenes、HO-3D和BEHAVE基准测试中,轨迹误差提升1.2倍到3倍,刚性运动一致性提升2倍,遮挡准确率提升1.5倍到2倍,显著优于现有2D盒子和流基线方法。
OpenAI利用WildChat公开数据集(2023年4月至2024年5月收集的100万条对话)模拟模型部署,预测GPT-5.1、GPT-5.2、GPT-5.4在真实生产环境中的不良行为率。与私有生产数据对比发现,WildChat模拟的平均预测误差约3倍;但对技术性和智能体型失调的预测精度下降。研究验证了公开数据集作为外部审计工具的可行性。
Anthropic 基于约40万次 Claude Code 交互会话(2025年10月至2026年4月)分析发现:人类主导规划决策(做什么),Claude 主导执行决策(怎么做)。领域专业知识越强,模型每次指令完成的工作量越多。各类职业完成任务的成功率与软件工程师平均相近;领域专家成功率更高,但与中级用户差距不大。七个月间调试会话占比下降近一半,使用转向端到端智能体任务(部署运行代码、分析数据、编写非代码文档),典型任务价值平均上升约25%。
同一事件,精选展示《AI加速自我构建:Anthropic研究院报告揭示趋势》TokenPilot 提出一种针对 LLM 智能体的缓存高效上下文管理方法,通过摄入感知压缩和生命周期感知驱逐两大机制,在 PinchBench 和 Claw-Eval 基准上实现 61–87% 的成本降低,同时保持有竞争力的分数。传统方法通常直接截断或摘要历史,容易导致文本偏移、破坏 prompt 缓存。TokenPilot 在工具结果进入上下文前进行清理,保持早期提示布局稳定;同时延迟删除旧任务历史,因为已完成的工作仍可能为引用相同文件或目标的后续任务提供帮助。
OpenAI 近日发布 Deployment Simulation 方法,通过在隐私保护下重放历史对话、用新候选模型重新生成回复,模拟模型上线后的实际表现。在多个 GPT‑5‑series Thinking 部署中,该方法比传统评估更准确地估计了不良行为频率,发现新型对齐问题,并降低模型识别测试的风险。它还能扩展至涉及工具使用的智能体场景。传统评估存在覆盖不足、选择偏差和模型可识别测试等局限,而 Deployment Simulation 使用真实对话分布缓解了这些问题,但无法测量频率低于每 20 万条消息 1 次的行为。
关联讨论 1 条MarkTechPost(RSS)一篇新论文揭示了大型推理模型的“生产-评估差距”:模型能解出数学题并得到正确答案,但在评估他人推理时,即便逻辑有缺失步骤、前提颠倒或循环论证等明显缺陷,只要最终答案正确,模型也往往判定为合格。作者提出VAIR(有效答案-无效推理)基准验证该问题。这种现象称为“答案确认偏差”,模型仅凭正确答案而非有效逻辑评判推理。与人类相比,模型从解题到评估的能力下降更显著,表明AI可能成为制造看似合理论点的自信引擎,而非真正理解自身产出的推理引擎。
SproutRAG是一个注意力引导的层次化RAG框架,通过学习句子间注意力构建二分块树,将句子级块组织成语义连贯的渐增单元。检索时使用层次化波束搜索获取多粒度候选,无需额外LLM调用或压缩摘要。框架端到端联合训练,优化嵌入和树结构。在科学、法律和开放域四个基准上,平均信息效率(IE)提升6.1%。代码已开源。
稀疏奖励RL提升LLM推理能力依赖模型初始覆盖范围。现有通过人工梳理推理轨迹的中期训练需手动指定学习内容。ExpRL提出自动化方式:利用大规模问答数据作为奖励脚手架——参考答案仅用于构建评分标准,LLM裁判对比模型推理轨迹与参考答案,输出过程级或结果级密集奖励。该方法强化稀疏最终奖励难以捕捉的中间步骤。在数学推理任务上,ExpRL比SFT、稀疏奖励GRPO和自蒸馏更强,并为后续稀疏奖励RL提供更好起点。混合领域实验表明可扩展至数学以外场景。
OpenClaw-Skill是一种为LLM智能体构建可复用技能库的方法。传统技能归纳通常将单条轨迹一次蒸馏成扁平的单次启发式规则,而OpenClaw-Skill通过搜索候选技能树来替代贪婪蒸馏,在迭代阶段中利用集体信号联合生成、识别和组合技能节点,最终输出结构化的技能树,旨在提升技能的多样性和泛化能力。论文详见arxiv。
EgoPhys是一个从第一人称RGB视频构建可变形物体物理数字孪生的框架。它通过将每个物体的逆物理解蒸馏成紧凑码本,实现对未见物体预测密集弹簧刚度场,无需测试时每弹簧优化。在重建、未来预测和零样本泛化上优于基线方法。研究团队还收集了涵盖多种可变形物体、场景和操作风格的第一人称交互数据集,并在真实xArm6机器人上验证:从单个人类玩耍视频初始化的数字孪生可作为内部世界表示辅助可变形物体规划。
研究人员提出HUG,一种基于流匹配的模型,能从单张RGB-D图像生成多样化人类抓取姿态。团队利用智能眼镜收集了1M-HUG数据集(100万帧、27.8小时、6707个物体实例)。HUG融合RGB与深度观测,输出手腕平移、手腕旋转和MANO手部姿态,并可重定向至多种机器人手,实现零样本抓取。为标准化评估构建了HUG-Bench,含90个未见过物体(5种几何类别)。在30物体真实测试集上,HUG比SOTA基线高出23%和34%。代码、数据、基准、模型检查点和交互演示已发布。
论文分析Claude Code,其有效工作核心并非复杂AI大脑,而是简单AI循环——调用模型、执行已批准工具、回传结果、重复——被精心构建的外围系统(工具、安全、记忆、权限、恢复)包裹。作者研究公开TypeScript源码,主agent循环代码量极小,大量代码来自harness(常规软件),负责定义工具、权限、记忆及故障处理。上下文管理是主要设计挑战,采用多层压缩或总结旧信息避免模型空间耗尽。论文强调能运行shell命令和编辑文件的编码智能体不能等同于带插件的聊天机器人,每个动作都有副作用,需要明确边界约束。
MMDiff将冻结的扩散Transformer转化为多模态生成系统,仅用轻量解码器头部即可联合输出图像与任意组合的密集感知模态。研究发现感知信息沿去噪轨迹呈时间分布,多时间步特征融合配合空间变化聚合权重至关重要,可将语义分割结果提升28.7% mIoU(相比单时间步提取)。该方法还采用概念驱动的注意力提取实现可解释的空间引导,并证明冻结扩散特征与DINOv3等SOTA编码器互补且性能相当。仅训练轻量解码器,即在语义分割、显著目标检测和深度估计上取得强性能,并支持大规模合成数据生成。
大语言模型后训练强化学习需同时优化多个可能冲突的奖励维度。现有GDPO方法将整体分数分解为独立奖励组分别计算损失,但单个rollout在不同维度上可能产生正负相反的advantage,导致信号抵消。受DAPO启发,GD²PO引入冲突感知过滤机制,屏蔽奖励维度间严重不一致的rollout,防止信号抵消,同时保留并增强有效advantage幅度,加速学习。还采用查询级重加权动态调整各查询更新强度。在工具调用、人类偏好对齐等多奖励场景实验中,GD²PO显著优于现有基线。代码已开源。
针对预训练VLA策略在线RL微调中回合结果仅含单一成功/失败二元标签的问题,HABC提出分层优势加权方法。它分别训练生存性与效率两个critic head,通过状态自适应门控合并优势,优先保证生存性,仅在成功确定时转向效率,并将合并结果转化为每步权重作用于actor loss。干预感知信用分配进一步限制结果标签于当前策略自主执行片段。在三个接触丰富的双手真实机器人任务上,HABC将成功率从监督微调基线的36%、44%、12%分别提升至92%、88%、38%。
PermaVid提出一种多模态上下文记忆框架,将空间上下文解耦为语义外观与几何结构,分别存储于RGB上下文记忆和深度上下文记忆。结合编辑感知的记忆更新与检索策略,使记忆演化与后续观测对齐。在编辑操作修改场景外观或布局后,该框架仍能保持生成视频在时间与视角上的长期语义与结构一致性,显著超越现有方法。
多轮LLM服务中,对话历史KV缓存随轮次增长,内存成为吞吐瓶颈。非均匀KV压缩可在注意力头间分配不同预算以保留精度,但现有服务栈因头间异构性导致页面碎片和预填充延迟增加。Tangram发现头级保留遵循输入无关的两层结构规律,仅需50样本离线校准,并通过Budget Reservation、Ragged Paging和Ahead-of-Time Load Balancing三个静态方案替代动态处理。基于vLLM实现,Tangram匹配现有非均匀压缩方法的精度,端到端吞吐量相比全KV基线最高提升2.6倍。代码已开源。
基于大语言模型(LLM)的生成式推荐(GR)使用语义ID(SID)表示物品,破坏了LLM的预训练自然语言推理接口。现有显式推理方法存在削弱世界知识表述、SID与自然语言token嵌入空间错位、依赖推理质量三个局限。PauseRec是一种轻量隐式推理范式,无需推理轨迹获取与对齐训练。相比标准显式CoT方法,PauseRec性能提升最高6.22%,训练GPU耗时减少65%,推理速度加快71.3%,成为更高效且有效的替代方案。