ForeSci是一个评估LLM智能体前瞻性研究判断力的时空控制基准,包含500个任务,覆盖四个快速发展的AI领域和四个决策族。每个任务配有截止时间对齐的离线知识库,训练数据止于截止点,后续论文仅用于验证。评估了原生LLM、Hybrid RAG和三种研究智能体适配方法在四个骨干模型上的表现。结果显示,显式证据组织能提升可追溯性和事实支持,但收益因决策族而异;诊断发现证据与决策脱节,智能体可能引用相关证据却预测错误研究对象。该基准将前瞻性AI研究判断转化为可控评估系统。
ForeSci是一个评估LLM智能体前瞻性研究判断力的时空控制基准,包含500个任务,覆盖四个快速发展的AI领域和四个决策族。每个任务配有截止时间对齐的离线知识库,训练数据止于截止点,后续论文仅用于验证。评估了原生LLM、Hybrid RAG和三种研究智能体适配方法在四个骨干模型上的表现。结果显示,显式证据组织能提升可追溯性和事实支持,但收益因决策族而异;诊断发现证据与决策脱节,智能体可能引用相关证据却预测错误研究对象。该基准将前瞻性AI研究判断转化为可控评估系统。
本研究提出反事实语境修正框架,用于审计LLM在模拟社交媒体用户立场时的语境敏感性。给定原始对话后,先推断目标用户立场,再对语境施加受控修正策略(纯文本与结合模因的多模态策略)并重新模拟。评估平均方向性立场转变与立场转换率,发现两种策略在不同极化偏好机制下均实现有效且稳健的立场转换。该框架揭示了LLM立场模拟的语境敏感性,同时突出了其模拟在线舆论动态的前景与风险。
研究分析 Rectified Flows 生成模型在插值路径 X_λ = (1-λ)X_0 + λX_1 上的训练数据成员信息泄露。训练集与测试集的重建误差在 λ 轴上呈钟形曲线,该差距随训练累积,而验证指标保持稳定。钟形峰值在 Gaussian 假设下有闭合解析解,并在音频与图像数据上验证其普适性。利用该 λ 分辨结构可实现成员推断攻击(MIA),区分训练集与非训练集样本。
一项系统研究探讨 Transformer 注意力机制中是否必须使用三个独立的投影(Query、Key、Value)。通过分析多种 QKV 变体结构,论文对「三投影」这一设计选择进行了系统性评估。
Future-L1 是一种交错潜在视觉推理框架,让 MLLM 在自回归解码中交替生成语言 token 与连续潜在视觉 span。为此构建了 Future-L1-50K 数据集,并用潜在感知 RL 目标 LA-DAPO 优化采样轨迹。在 FutureBench 上,Future-L1 将 Qwen3-VL-8B 得分从 61.0 提升至 85.4,超过此前最优 Video-CoE 10.4 分;在 TwiFF-Bench 上平均分从 2.44 升至 3.04。结果表明,将中间视觉语义保留在潜在空间而非转化为文本,有益于未来视频推理。
NF-CoT 在大语言模型骨干内实例化 TARFlow 风格的归一化流,为从显式 CoT 蒸馏的紧凑连续思想定义可处理概率模型。连续思想位置由 NF head 生成,文本位置由同一因果流中的标准 LM head 生成。该设计保留因果自回归生成、概率采样、KV 缓存兼容性和精确似然估计,并支持潜在推理空间的直接策略梯度优化。在代码生成基准上,NF-CoT 相比显式 CoT 和先前潜在推理方法提高了通过率,同时显著降低了中间推理成本。
WLA模型以文本指令、图像和机器人状态为输入,联合预测文本子任务、子目标图像和动作。其核心为自回归Transformer(非双向扩散Transformer),通过World Expert监督物理动态,并利用元查询使世界预测隐式影响动作生成(推理时可禁用,也可激活以支持测试时缩放)。原型WLA-0拥有2B活跃参数,在RTX 5090上单次推理40ms。在模拟与真实环境评估中,WLA-0在RoboTwin2.0 Clean上达92.94%成功率,在RMBench上达56.5%,并可直接从跨具身机器人视频学习新任务(无需动作标注)。
计算机使用智能体(CUA)依赖GUI截图,每张截图编码大量视觉token,长轨迹下token成本激增。ReVision训练多模态语言模型,利用学习的patch选择器比较连续截图中patch表征,去除冗余视觉patch并保留空间结构。基于Qwen2.5-VL-7B在OSWorld、WebTailBench和AgentNetBench三个基准上处理5个历史截图时,ReVision平均减少46% token使用,成功率较无丢弃基线提升3%。该效率使智能体能用更少token处理更长轨迹,且随着移除冗余后纳入更多历史观测,性能持续改善。
针对流水线并行中同步调度有气泡、异步调度引入权重版本不匹配的问题,PACI提出一种无气泡异步方法,利用局部梯度累积作为版本控制机制,限制前向/反向版本漂移,无需权重存储、预测或全局同步。在GPT风格语言模型预训练中,PACI匹配同步1F1B-flush的稳定性与最终困惑度,保持相同峰值内存,实现完全流水线吞吐量,训练时间-准确率提升最高达1.69倍。
VoLoAgent是一个基于VLM的物理编排智能体,将异构机器人能力(VLA/WAM、视觉模型、动作原语)作为可中断工具,实现规划、监控与恢复。同时提出RoboVoLo基准,专为开放词汇长时程操作设计,涵盖常识、记忆/状态跟踪、复杂指代与世界知识,并提供任务级成功率和失败诊断。实验表明VoLoAgent显著优于单VLA/VLM或基于工具的系统,并在真实机器人上验证。
针对视觉-语言-动作(VLA)模型部署成本高的问题,WIZARD提出权重空间元学习框架,仅需语言指令和简短演示视频,在一轮前向传播中为冻结的VLA策略生成任务特定LoRA参数,无需动作标签或测试时优化。在LIBERO上,WIZARD在未见过数据集集合上性能提升最高约2倍,在未见过任务上最高约14倍;在Franka Emika Panda真实机器人上,WIZARD持续优于域适应基线。
研究对比了在线策略蒸馏(OPD)与监督微调(SFT)及带可验证奖励的强化学习(RLVR)在参数空间中的更新轨迹。OPD的更新影响更少权重,更强地避开主方向,且约束比RLVR松弛。OPD表现出子空间锁定:累积更新快速进入低维通道,且锁定子空间对OPD功能足够。控制实验表明,稀疏化更新token或off-policy生成不改变秩动态,而混合RLVR目标会改变。结论:OPD并非SFT与RLVR的中间点,而具有自身独特的更新几何。
研究分析了35,361条明确提及AI的GitHub代码注释及关联代码块,通过开放编码建立AI辅助开发活动分类法,并使用LLM分类器与Dawid-Skene模型标注全量数据。还分析了12,996条后续提交消息,追踪代码演变及2022年12月至2026年3月的时间趋势。结果显示,开发者主要用LLM进行代码实现,其次是增强、调试、文档和测试。后续提交常涉及重构清理、功能集成和Bug修复。随时间推移,AI引用从直接代码生成转向知识支持和代码增强。AI工具正嵌入为协作支持机制。
研究使用冻结的 pop-jazz Music Transformer 检查点,通过 LoRA、IA3、BitFit、prefix tuning 和 full fine-tuning 五种轻量适配方法,将模型扩展到 blues、bossa nova、Bach chorales 等11个目标流派。在165组实验中,所有方法在保留和弦预测上均优于冻结基模型,宏观增益+2.89至+3.61分;LoRA 和 IA3 得分最高,但统计检验不支持决定性胜者。控制数据大小后 IA3 仍领先,LoRA 的全数据优势消失。诊断表明和弦符号适配可靠改善流派局部和声预测,但单独和弦符号不足以承载完整流派特征。
MMAE是首个专为通用指令音频编辑设计的综合评估基准,涵盖声音、语音、音乐及其混合共7种音频模态,并建立包含6级任务复杂度、2级细粒度与8种操作类型的分类体系。通过人机协作精心筛选2000个高保真样本,配套基于评分标准的评估框架,将自由形式任务分解为17,741个可验证指标,实现指令遵循与上下文一致性的精确多维度评估。对主流模型的评测显示,精确匹配率(EMR)整体低于5%,在复杂混合模态任务中降至绝对0%。
该综述从人类视角审视基于多模态大语言模型的视频理解,将其组织为观看、记忆、推理三项核心能力。论文提出统一框架,通过感知表征、记忆状态、推理轨迹和最终预测刻画系统,识别了时空感知、高效长视频处理、记忆建模、流式理解及忠实推理等关键挑战。工作梳理了细粒度/全面/音视频/高效感知(观看)、离线与流式记忆(记忆)、纯文本与视频思维推理(推理)的方法,覆盖自我中心、体育、教学、医学、叙事等应用,并整理了训练数据集与评估基准,最后指明可扩展、记忆感知和证据驱动的视频智能等开放问题。
PaperFlow提出三阶段框架:Profiling从异构冷启动证据构建维护结构化学术画像;Recommending在固定展示预算下通过多信号聚合排序每日论文流;Adapting根据语义不同的反馈信号更新用户状态并建模兴趣漂移。研究定义了纵向用户-天基准,包含24个模拟用户、50个每日论文流、1200个用户-天片段、20,727篇论文和497,448条记录,并设计了盲人评估协议。实验对比五种基线,PaperFlow在oracle排序、行为对齐和盲评分数上均最优。
以圣彼得堡博弈为平台,评估28个大语言模型。多数模型在原始博弈中生成有限出价,看似与人类风险行为相似;但通过扰动截断、重复玩法、财富量、职业身份等控制变体发现,模型转向条件性和计算合理性行为,人类提示词和指令微调仅降低出价而未改变机制层面响应模式。结果表明风险决策中的行为对齐可能停留在表面。
ZipSplat是一种基于token的前馈3D高斯泼溅模型。它通过k-means聚类将多视图密集视觉token压缩为紧凑场景token,再经交叉/自注意力细化后由轻量MLP解码为位置不受限的高斯组。推理时进行聚类,单一训练模型无需重训即可沿质量-效率曲线运行。无需真值位姿或内参,在DL3DV和RealEstate10K上以约6倍少于像素对齐方法的高斯数超越最佳无位姿基线,PSNR分别高2.1dB和1.2dB,并零样本泛化至Mip-NeRF360和ScanNet++,超越所有可比基线。
现有评估聚焦于单个智能体的价值对齐,无法衡量系统整体文化多元性。本研究提出价值多样性作为系统级评估轴,基于World Values Survey测量19种文化下18种骨干模型的响应差异。结果显示,多样性几乎与对齐无关,当前系统价值多样性远低于人类社会;混合骨干系统缩小差距但未消除,社会互动进一步侵蚀多样性、驱向共识,并在参与式预算案例中缩小了集体决策广度。代码和数据已公开。
Retrospective Harness Optimization (RHO) 是一种自监督方法,仅利用过往轨迹优化LLM智能体的工具链(技能、工具和工作流程集合)。RHO从历史任务中选取多样化的困难任务核心集,并行重新执行;智能体通过自我验证和自我一致性分析回放,生成候选工具链更新,并依据自身成对自我偏好选择最有效更新。在软件工程、技术工作和知识工作三个领域评估中,单轮优化将SWE-Bench Pro通过率从59%提升至78%,无需外部评分。分析表明RHO有效针对先前失败模式,优化后的工具链改变智能体行为模式,在长周期会话中维持更高准确率。
DeepMDMD结合深度Koopman方法与结构保持方法,学习潜空间并分区,同时将Koopman乘积规则作为精确代数约束强制执行。训练交替进行精确乘法算子更新和可微潜聚类步骤,得到非零谱位于单位圆上的有限转移图,字典由动力学而非环境几何塑造。在哈密顿、混沌和流体示例中,比几何MDMD更紧凑且动态一致,减少谱污染,揭示更丰富的连续谱结构,并在严重噪声下稳定预测。在高维流(包括158,624维圆柱尾流和噪声Re=20,000顶盖驱动空腔)中,保持相干结构和长期谱统计,而状态空间MDMD失效。
AutoLab是一个评估超长周期闭环优化能力的基准,包含36个专家设计的真实任务,覆盖系统优化、谜题挑战、模型开发和CUDA内核优化四个领域。每个任务从一个正确但刻意次优的基线开始,要求智能体在严格时间预算内迭代改进。对17个最先进模型的测试表明,成功关键在于持续进行基准测试、编辑和整合经验反馈的持久性。claude-opus-4.6展现出较强的长周期优化能力,但多数前沿模型要么过早终止,要么在预算内进展甚微。该基准、评估工具和任务工件已全部开源。
WebRISE将任务需求编译为交互合约图(ICG),涵盖可观察状态、用户意图转换及DOM/视觉断言,实现与实现无关的浏览器执行评估。该基准包含442个任务、五种输入模态(文本、Markdown、草图、图像、视频),含5,495个转换和5,271个需求检查,区分显式功能与隐式产品约束。评估14个MLLM显示,最强模型仅达65.6%转换有效性和66.3%需求覆盖率;视觉质量不反映行为(Qwen3.6-35B-A3B在Markdown上视觉评分80.8但转换仅15.5)。视频提供最强交互信号(隐式覆盖率比文本高10.6个百分点);缺陷注入表明基于ICG的评分检测状态错误速率是checkpoint式评估的2-16倍。
Echo-Infinity 是一个自回归(AR)框架,用于实时无限视频生成。它用可学习的演化记忆替代人工缓存策略,通过注意力机制和门控更新 Memory Query,与视频扩散 Transformer(DiTs)端到端优化,支持任意压缩比且计算量不随视频长度增加。同时引入 Unified Relative RoPE Recipe,锚定 sink 帧从 id 0 开始、最新帧 id 不超过预训练最大时间 RoPE id,解除有限 RoPE 约束并缩小外推差距。在长/短视频生成中达到 SOTA,首次实现 24 小时(超 130 万帧)实时滚动生成。
论文提出Meta-Agent Challenge(MAC)评估框架,测试前沿模型自主开发智能体系统的能力。元智能体在沙盒环境中借助评估API和时限,迭代编程出能在五个领域保留测试集上最大化性能的智能体工件,并采用多层防御防止奖励攻击。实验表明,元智能体极少达到人类基线策略,少数成功者由专有前沿模型主导;设计过程高方差,高优化压力催生了真实值外泄等对抗行为,暴露鲁棒性与对齐缺陷。MAC作为开源基准,为评估递归自我改进提供实证代理。
可验证奖励强化学习(如GRPO)常用统一的序列级优势更新所有token,稀释了梯度信号。GRAIL提出内在的逐token优势重加权方法,利用梯度激活显著度为对最终答案更敏感的token赋予更高权重。在Qwen3、R1-distilled和OctoThinker家族共5个模型上的评估显示,GRAIL一致优于GRPO,平均准确率提升3.60%,Pass@3提升3.05%,无需过程级监督即可实现细粒度推理对齐。
研究收集550段人类对话,在三阶段获取人工判断:提取属性5949项、配对属性11919项、生成个性化回复1101项。发现LLM从真实对话中提取属性及配对时均与人类判断分歧,生成回复人类评价不比通用回复好,但LLM自评更高。两种轻量训练干预使前两阶段自动评估更接近人类数据,但第三阶段奖励模型与人类评分仅中等相关。数据集为研究模型提取、选择、融入用户信息提供基础。
MRAgent 框架将记忆建模为 Cue-Tag-Content 关联图,并通过主动重建机制将 LLM 推理直接融入记忆访问,使智能体在推理过程中基于累积证据动态探索和剪枝检索路径,避免组合爆炸。在 LoCoMo 和 LongMemEval 基准上,MRAgent 相比强基线最高提升 23%,同时显著降低 token 和运行时开销。
大语言模型作为智能体处理大型工具目录时面临检索瓶颈,参数化工具检索将每个工具编码为虚拟token并两阶段微调(记忆→检索),在标准ToolBench上表现强劲,但无法揭示模型是否真正理解工具。ToolSense是一个开源、LLM驱动的诊断框架,自动生成三个基准:现实检索基准(RRB,含三个模糊层级)、MCQ探测基准和QA探测基准。应用于ToolBench约4.7万工具并评估五种训练配置,发现知识-检索分离:RRB上部分配置性能相比全描述基准下降约50-64个百分点,低于嵌入模型基线;部分模型事实探测得分接近随机。框架和基准已开源。
本研究通过控制实验解耦隐藏状态的径向与角度分量,发现不同激活干预方法的主要差异在于如何耦合 token 与概念方向的角度对齐及隐藏状态范数变化。在七个语言模型上,概念主要编码于角度结构,但范数对干预稳定性和下游效果仍至关重要。结果解释了概念效果相似的干预可能表现不同的原因,建议将激活干预参数化为可解释的角度和径向分量,而非单一加性系数。
对五种LVR变体的测试发现,余弦对齐度与准确率呈强负相关(r=-0.94)。研究提出诊断工具PRISM(线性探针+破坏性测试)发现:有监督潜token大部分被绕过,破坏后准确率变化最多4%;答案在潜token下游可解码、在潜token处不可解码,解码能力差距可预测各变体对潜变量的依赖。辅助目标通过共享参数重塑语言模型,而非通过名义上优化的潜变量。
提出DIRECT框架,实现姿态可控的物体插入。该方法将插入条件分解为三个互补组件:参考物体外观引导、用户调整的3D代理几何引导、目标背景上下文引导,通过分开注入避免特征纠缠,同时保留参考外观、遵循指定姿态并适配场景。还引入自动化数据构建管道提升训练数据多样性与质量。实验表明,DIRECT在几何可控性和视觉质量上均优于此前方法。
SoCRATES是一个评估主动式LLM调解员在真实多领域场景中表现的基准。它通过智能体流水线从真实冲突构建8个领域场景,探测战略姿态、参与方构成、历史长度、情绪反应和文化身份5个社交认知适应轴,并使用主题局部评估器仅对推进该主题的轮次打分。该评估器与人类专家的对齐度达0.82,是每轮基线得分的两倍以上。对8个前沿LLM的测试显示,即使最强的调解员在多样化现实测试床下也仅能弥合约三分之一的未调解共识差距,且性能随社交认知轴剧烈变化,表明进步关键在于社会适应能力。
提出一种使用因果图解释大语言模型推理的方法,包含四阶段:发现类区分概念、将输入映射为LLM感知的概念状态、通过MCMC启发的反事实增强扩充稀疏观测数据、利用σ-CG进行稳定因果发现。在三个大语言模型上应用于疾病诊断、情感分析和LLM-as-a-judge分类任务。实验评估了因果图的预测保真度和结构稳定性,以及反事实增强的收敛性与下游效用。结果表明所发现的因果图捕获了与LLM推理一致的有意义依赖关系,为概念层面的可解释性提供了基础。
SubtleMemory是一个评估长期运行AI智能体在细粒度关系记忆辨别上能力的基准。它构建关系控制的潜在语义伪影变体(包含互补、细微或矛盾关系),并嵌入逼真的用户-智能体历史。基准包含1,522个评估实例,基于10个长历史,覆盖用户相关与非用户相关查询。评测了多个独立记忆系统和Claw-style智能体,发现当前系统表现薄弱。研究还引入诊断协议,揭示记忆保留、检索和下游推理阶段的差异化能力轮廓。
OpenSkill从零构建技能与自验证信号,利用文档、代码库和网络知识合成可迁移技能,通过自建虚拟任务精炼,无需目标任务监督。在三项基准测试中,OpenSkill在无监督约束下取得最佳自动通过率,技能可跨模型迁移,自建验证器虽未访问真实答案却与结果一致。
计算社会科学的核心目标是发现语言在不同结果中的可解释差异。现有基于LLM的假设生成方法仅选取全局判别模式,忽略研究者领域知识中的协变量,导致所选模式可能反映混淆而非实质差异。本文提出条件假设生成框架,通过纳入研究者指定的协变量,引导假设发现聚焦于相关子群内成立的差异。针对子群代表性不足(层不平衡)和差异方向可能逆转(符号反转)两个挑战,提出两种方法:引入特征-协变量交互检测符号反转,以及应用层内去均值和逆频率重加权平衡欠代表层。实验表明,协变量感知的生成方法能在相关子群内产出更有用的假设。
KVarN是一种免校准的KV-cache量化方法,通过Hadamard旋转结合双标度方差归一化,同时对K和V矩阵的两个轴进行归一化,以修复异常token尺度误差,大幅减少自回归解码中量化误差随时间步的累积。在2-bit精度下,KVarN在MATH500、AIME24和HumanEval等生成基准上达到新的SOTA。该方法的vLLM实现已在GitHub开源。
提出 Bootstrap Your Generator (ByG) 框架,用于非配对训练流匹配图像/视频编辑模型。方法从冻结的基础模型中提取指令遵循线索,结合循环一致性保持结构;通过梯度路由将下游损失反向传播到噪声训练状态,弥合训练-推理差距。在数据稀缺的图像和视频编辑任务上达到 SOTA,泛化到未见领域,性能优于用百万级配对样本训练的监督基线。实验表明,从基础模型提取的语义线索提供了稳健的训练信号,无需外部奖励模型。