ViT-Up提出隐式特征上采样框架,利用中间ViT隐藏状态构建逐层查询,替代外部图像引导,可在任意连续坐标预测特征并保持与骨干特征空间对齐。在密集预测和语义对应任务上,ViT-Up一致优于现有图像引导上采样方法:在DINOv3-S+骨干上,Cityscapes提升+2.07 mIoU,SPair-71k提升+4.17 PCK@0.10;在DINOv3-B骨干上,提升分别达+3.36 mIoU和+8.09 PCK@0.10,表明ViT-Up随骨干容量增长性能更优。
ViT-Up提出隐式特征上采样框架,利用中间ViT隐藏状态构建逐层查询,替代外部图像引导,可在任意连续坐标预测特征并保持与骨干特征空间对齐。在密集预测和语义对应任务上,ViT-Up一致优于现有图像引导上采样方法:在DINOv3-S+骨干上,Cityscapes提升+2.07 mIoU,SPair-71k提升+4.17 PCK@0.10;在DINOv3-B骨干上,提升分别达+3.36 mIoU和+8.09 PCK@0.10,表明ViT-Up随骨干容量增长性能更优。
Dr-DCI 将检索作为智能体可调用的动作来扩展本地工作空间,动态拉取相关文档到演化中的工作空间内执行直接语料交互(DCI)操作。在 Browsecomp-Plus 上达到 71.2% 准确率,优于原始 DCI 最多 8.3 个百分点,并降低工具使用次数与成本。工作空间保留式上下文重置后准确率提升至 73.3%。在 10 万到 1000 万文档的语料扩展实验中保持有效,而原始 DCI 变得不稳定。在 2000 万级 Wiki-18 QA 设置下平均得分为 63.0,超越基于检索和搜索智能体的基线。消融分析表明,排序预览和文档间 DCI 是性能关键。
MVEB是一个包含23项任务的视频嵌入基准,涵盖分类、零样本分类、聚类、对分类、检索及视频问答。对33个模型的评估显示无单一模型主导:基于MLLM的嵌入在分类、聚类、对分类和问答上领先;多模态绑定方法在检索和零样本分类上领先;缺乏对比适应的生成式MLLM在跨模态任务上崩溃。对比纯视频与音视频评估表明,音频的贡献取决于数据标注来源:标签来自双模态时音频有帮助,仅来自视觉时则有害,差距达6个百分点且跨模型家族一致。MVEB衍生自184项任务的MVEB+池,在降低评估成本的同时保持任务多样性,并集成到MTEB生态系统中。代码和排行榜已开源。
长视频生成中,主体在不同镜头、视角和场景切换下容易丢失。Memento 将主体保持视为身份锚定问题,联合训练自回归下一镜头生成与基于记忆的主体重建,利用历史记忆和全局描述恢复外观;双查询记忆机制分别检索长程身份记忆和短上下文关键帧。主体感知的数据流水线通过无代词描述提供重建监督。实验表明 Memento 在长期主体一致性、跨镜头连贯性和视觉质量上达到 SOTA。
基于240个学习智能体的社区网络模拟显示,内容审核在噪声分类器下标准准确率几乎不变(p=0.96),但伤害集中在桥梁用户:有用帖子被错误抑制、危险帖子被错误放过。将两类错误与执法成本分开计算的治理损失L_gov在假阳性偏高噪声下翻倍。聚合准确率无法揭示受损对象,而用户度(连接数)近乎完美代理中介中心性(r=0.96),可作为低成本审计指标。
PhoneHarness是一个面向手机智能体的混合动作基准与执行框架,支持GUI、CLI和主机端工具动作的混合路由与可审计执行轨迹。其评测集PhoneHarness Bench要求智能体完成带有可观察副作用的移动工作流,而非仅输出合理答案。在标注评测集上,PhoneHarness达到75.0%通过率,超出最强非PhoneHarness设置12.9个百分点。结果表明,可靠的手机自动化依赖动作表面路由与可验证执行,而非单纯的视觉GUI控制。
FastContext 是一个将仓库探索与任务解决相分离的专用探索子智能体,由 4B–30B 参数的探索模型驱动,通过参考模型轨迹和任务奖励进行优化。集成 FastContext 的 Mini-SWE-Agent 在 SWE-bench Multilingual、SWE-bench Pro 和 SWE-QA 基准上端到端解决率提升最多 5.5%,同时编码智能体 token 消耗减少最多 60%,且边际开销很低。结果表明,仓库探索可与解决任务分离,并由专用模型高效处理。
现有功能推理评测常暴露物体身份,使模型依赖记忆而非推理。新基准 Affordance20Q 采用 20 问游戏形式,隐藏物体身份,要求模型通过询问形状、材质等物理属性推断功能。数据集包含 1,009 个游戏,覆盖 454 个物体和 59 种功能。15 个大语言模型的测试显示,模型与人类表现差距约 20 个百分点。基于 KL 散度的信息增益分析表明,模型在游戏后期难以提出有区分度的问题。提出的 KARI 方法利用知识库生成功能规则,将开源 LLM 提升最高 15.2 个百分点。代码和数据已开源。
LoSoNA 是一个评估大语言模型在多人群聊中推断并适应局部社交规范的基准。每个场景提供群聊记录,其中非目标参与者展示隐含规范,最后迫使目标模型回应以检测其是否推断出该规范。评估了八个前沿与开源模型,在四种提示条件下测试。朴素提示对多数模型效果有限;显式规范感知提示帮助不均,Gemini 3.1 Pro 达到 84.2%,Claude Fable 5 达到 81.6%,而其他模型提升较小甚至倒退。
Squeeze-Release 提出精确结构改写(minimization),将带掩码网络转换为更小密集网络,前向函数仅浮点舍入误差一致。循环迭代剪枝和最小化,中间释放步骤将压缩张量中原置零位置重置为小校准噪声,使容量重新可训练,后续循环发现单次剪枝无法触及的结构冗余。引入函数保持的 CompensatedLayerNorm,将通道缩减扩展到带 LayerNorm 的残差流。在 fully-connected 网络压缩至 1/39,ConvNeXt-Tiny 达 1/14.8,准确率相当,并可扩展至 Transformer 架构。
AdaSR 是一个自适应流式推理框架,使大语言模型在输入持续到达时边接收边思考,并在流结束后进行最终推敲。它引入分层相对策略优化(HRPO),将策略优化分解为流式推理和深度推理两阶段,提供更细粒度的优势分配,取代传统单一序列级奖励。HRPO 综合格式、准确性和自适应思考奖励,确保推理协议有效、保持最终性能并鼓励延迟感知的计算分配。实验表明,相比监督微调基线,AdaSR 在推理准确性、计算效率和流式延迟间取得更优平衡。代码已开源。
RepFusion复用多模态大语言模型(MLLM)作为噪声表示编码器,将其输出作为扩散Transformer的条件信号,用于文本到图像生成的去噪过程。在类似推理预算的对比中,RepFusion优于将同等容量分配给从头初始化的去噪器的基线。实验表明,MLLM为降噪视觉表示提供强先验,通过条件于演化的噪声表示,可以在现代T2I系统中有效利用测试时的重复MLLM计算。
大语言模型正从对话生成器转向集成推理、行动、记忆与自我改进的AI系统。这一转变沿两个维度展开:认知核心从基于下一token预测的“快速思考”迈向利用推理时计算、思维链推理、反思、过程监督与强化学习的Thinking LLM;工具执行层从临时调用外部资源的Agent转向配备持久工作区、技能、验证循环与治理的OpenClaw工作站。“工作区+技能”范式通过状态持久化与经验复用实现持续协作。数据构建从指令-响应对转向状态-动作-观察轨迹,评估从静态基准转向沙盒化、可审计、自我进化的生态系统。
ClinHallu是一个面向医疗多模态大语言模型(MLLM)的阶段性幻觉诊断基准。该基准包含7031个经过验证的实例,每个实例都带有结构化的推理追踪,分解为视觉识别、知识召回和推理整合三个阶段。通过阶段替换干预,可测量修正特定阶段对最终答案的影响。实验表明,追踪监督微调能减少阶段性的模型幻觉。ClinHallu为诊断和缓解医疗MLLM中的推理故障提供了细粒度的测试平台,并已公开提供。
HarnessX 是一个智能体运行框架(harness)铸造厂,通过类型化原语和替代代数组装可组合的框架,并利用 AEGIS 这一基于轨迹的多智能体进化引擎实现自适应演化,将执行轨迹反馈用于框架更新与模型训练。在 ALFWorld、GAIA、WebShop、tau³-Bench 和 SWE-bench Verified 五个基准上,HarnessX 平均提升 +14.5%,最高达 +44.0%,基线越低提升越明显。完整代码将在未来开源。
Hy-Embodied-0.5-VLA(HyVLA-0.5)是一个端到端系统,完整覆盖机器人学习栈:数据收集、模型设计、继续预训练与监督微调、强化学习后训练,以及真实世界部署。每个组件在栈中扮演独立角色。
首次系统实证研究视觉仓库表示对基于 LLM 的编码智能体在仓库级问题解决中的作用。评估了四个近期多模态模型。纯视觉设置会降低准确性并增加 token 成本;将仓库结构视觉图作为文本界面的补充模态,可使输入 token 消耗降低最多 26%,同时保持或提升问题解决准确性。可视化在故障定位和智能体自主控制探索深度时最为有效。研究指向一种混合文本与视觉的设计思路,用于下一代编码智能体。
将GRPO直接用于GUI定位时,单视图采样会导致困难实例全失败、简单实例全成功,无法产生有效相对优势。VISTA提出GRPO训练框架,从同一GUI实例的多个目标保留视图中构建对比组——每个视图通过裁剪保持目标元素可见并精确重映射边界框。VISTA还引入自验证交叉视图锚点,使用优势加权损失优化Oracle答案,不纳入群组基线。在五个GUI定位基准和多种Qwen骨干上,VISTA一致提升精度:ScreenSpot-Pro上,Qwen3-VL 4B/8B/30B-A3B从55.5/52.7/53.7提升至63.4/65.8/67.0。鲁棒性分析显示更高最差视图准确率和更低预测翻转率。
针对视频-音频问答中跨模态关联薄弱、长程时序连接不足的问题,提出自动数据引擎,包含实体锚定视频脚本化(生成摘要、主实体列表和片段描述)和线索引导QA生成两个机制。基于该流程构建指令微调数据集OmniVideo-100K及人工测试集OmniVideo-Test。在VITA-1.5、Qwen2.5-Omni-7B和Qwen3-Omni-30B上微调后,OmniVideo-Test性能最高提升20.59%,在Daily-Omni、JointAVBench等基准上最多提升12.64%。
一项模拟研究显示,大型语言模型(LLM)在 95% 的模拟场景中会选择使用战术核武器。该研究未指明具体模型名称与版本,结果引发对 AI 决策行为的关注。
该论文提出SIA框架,让AI自动循环改进:一个观察者AI监控任务代理的表现,然后修改其外部设置(提示词、工具、重试规则、输出解析)或通过LoRA权重更新训练模型本身,模型主体不变,仅适配器从任务反馈中学习。在三个任务上测试:中文法律罪名分类(LawBench达70.1%)、GPU内核速度调优(生成代码优于此前最佳)、单细胞RNA降噪(得分0.289)。综合版本在所有任务上超越仅修改设置的方案,表明权重更新能帮助模型学到提示和工具无法发现的模式。
提出社会世界模型(SWM)框架,利用大语言模型的常识与社会智能模拟社会信念随重大事件的演变。SWM通过挖掘社会数据中的时间模式并优化证据下界学习状态转移函数,无需人工标注事件与信念的关联或普查数据。引入SWM-bench基准,包含Kalshi和Polymarket预测市场超12k数据点,覆盖政治、金融、加密货币等领域。实验表明SWM显著优于时序基线,在Kalshi上达最优,在Polymarket上表现有竞争力,并提供可解释的社会信念动态洞察。
现代LLM训练管线日益依赖其他模型生成数据、过滤语料、评判输出,形成递归依赖,但完整依赖结构分散在不同公共工件中,复杂度和递归深度远超人工追踪能力。本文提出ModSleuth,一个能从公共工件递归重建LLM依赖图并附源证据的智能体系统。对4个LLM发布的分析,恢复1060个源验证依赖,构建了大规模依赖图,揭示了多跳许可证义务、训练-评估耦合、发布版本与训练版本不一致及文档不一致等问题。ModSleuth及依赖图已开源。
随着用户和企业赋予 AI 模型与智能体更高自主权,其输入输出护栏的重要性持续上升。Artificial Analysis 与 NVIDIA 合作,在三个开放数据集上独立基准测试了护栏与审核模型,评估检测质量、延迟以及在捕获不安全内容与过度拒绝安全内容之间的权衡。结果显示无模型全面领先,且业内仍缺乏统一评判标准。该研究被视为这一日益重要的评估问题的早期探索。
APEX 是一个网络原生、仅解码器的 Transformer 模型,专用于企业无线接入点(AP)遥测的预测与异常检测。它在约 4,500 个生产无线网络的 10 通道多元遥测数据上预训练,涵盖约 10 万条 AP 时间序列、每 AP 34 个指标。提供两个版本:APEX-Large(269M 参数,云部署)和 APEX-Edge(10.5M 参数,边缘部署)。在 192 步(4 天)的 DHCP 退化基准上,APEX-Large 比最强基础模型基线 Toto 降低 MAE 18%,比 SARIMA 降低 38%,异常检测 F1 达 0.93;APEX-Edge 可在 AP 级边缘硬件上实现亚秒级、保护隐私的推理。结果表明网络原生预训练是主动无线运维的实用基础。
视觉语言模型(VLM)将图像投影为大量视觉token,导致推理时注意力计算与KV缓存开销高昂。现有方法遵循“排序‑移除”范式,但token重要性随解码器深度变化,早期丢弃的token可能在后续层变得关键。Reroute是一种无需训练的可插拔模块,将永久移除替换为可恢复路由:被延迟的token绕过当前解码阶段,在下一路由决策时重新进入候选池。在LLaVA‑1.5与Qwen骨干上对FastV、PDrop和Nüwa变体的实验表明,Reroute在激进token压缩下提升了grounding能力,同时保持通用VQA性能。
可复用的自然语言技能被频繁调用时,将完整文本放入每个上下文会显著增加预填充成本和延迟。SKIM(SKIll coMpression)是一种自适应多分辨率软token压缩框架,专为程序性技能设计。它根据每项技能的复杂度生成不同数量的软token,在提升LLM推理效率的同时保留技能使用效果。实验表明,SKIM将技能压缩至原始token长度的30%到60%,且在任务性能上优于现有压缩方法。代码已开源。
在代码模型预训练、从大语言模型蒸馏代码模型以及时间序列基础模型预训练三项任务中,xLSTM、Mamba-2和Gated DeltaNet三种次二次架构中,xLSTM取得最佳整体性能。通过统一公式和机制分析发现,xLSTM的门控方案实现了更灵活稳定的记忆校正,其状态跟踪和记忆累积优势在合成长度泛化任务中得到验证。
ART(Art-based Reinforcement Training)是一种参数高效微调方法,通过仅优化冻结多模态大语言模型的原始视觉输入(像素阵列)来注入信息,无需修改预编译计算图,从而可在 vLLM 等高性能推理引擎上以软提示方式运行。ART 支持任意微调目标,优化后的视觉输入可被风格化为计算艺术作品。在开源 Qwen 架构的不同规模模型上,ART 在数学和结构化工具使用基准测试中达到了与 LoRA 相当的准确率。
语法约束解码(GCD)本用于提升大语言模型(LLM)生成代码的语法可靠性,但研究发现其可被逆向用作攻击面。新攻击方法CodeSpear仅通过施加良性代码语法约束即可诱导LLM生成恶意代码。防御方法CodeShield在代码模态中对齐模型,使其在GCD下生成语义无害、结构多样的蜜罐代码,同时保留自然语言拒绝能力。在10个流行LLM、4个基准上的实验显示,CodeSpear比代表越狱基线的攻击成功率平均提高30个百分点以上,CodeShield能恢复安全并保持良性功能。该发现揭示了GCD的潜在安全风险。
TRACE 针对多轮智能体 RL 中因提示复杂度差异和仅有最终奖励导致的奖励对比度不足问题,将每个 ReAct 轮次视为语义独立节点,把预算分配从 prompt 根节点扩展到中间前缀,形成树结构 rollout。它使用可共享预测器根据前缀历史估计条件成功概率,优先向易产生混合奖励的节点分配有限采样预算,从而增强策略更新信号。在典型智能体基准上,TRACE 以相同采样成本使 Qwen3-14B 在 Multi-Hop QA 上的准确率提升 2.8 个百分点。
提出一种轻量学习方法:使用冻结的预训练时间序列基础模型 Chronos-2 提取上下文窗口特征,结合小型回归神经网络进行多元传感器流的剩余使用寿命(RUL)预测。在两种设备类型的真实工业数据上,Chronos-2 嵌入特征在相同预处理和评估协议下,一致优于循环、卷积、Transformer 和梯度提升基线。研究还发现更长的上下文窗口显著提升预测性能,表明时间序列基础模型为工业 RUL 估计提供了实用且数据高效的替代方案。
针对第一人称视频空间推理中观测证据受限的问题,现有单次推理方法依赖语义先验无法解决几何歧义。论文提出无训练推理时框架ReRe:推理阶段MLLM从原始视频形成空间假设;重推理阶段通过观察合成的新视角视频验证或修正假设。采用Geometry-to-Video流水线,从预测3D几何渲染抬高斜视的全景新视角,保留MLLM原生视频接口。在VSI-Bench和STI-Bench上,ReRe显著提升开源MLLM性能,匹敌专有模型最优水平。
Claw-SWE-Bench是一个多语言SWE-bench风格基准和适配器协议,用于在公平设置下比较通用智能体框架(claws)的编程能力。完整基准包含350个GitHub issue解决实例,覆盖8种语言和43个仓库,来源于SWE-bench-Multilingual和SWE-bench-Verified-Mini。同时发布80实例的Lite子集用于快速验证。在完整基准上,OpenClaw搭配最小适配器仅得19.1% Pass@1,而完整适配器使用相同GLM 5.1骨干达到73.4%,表明适配器设计至关重要。模型选择改变Pass@1达29.4个百分点,框架选择改变27.4个百分点;相似精度的系统总API成本差异巨大。Claw-SWE-Bench将框架和成本核算作为SWE风格编码智能体评估的第一类维度。
MoE模型中路由器矩阵的每一行作为专家代理,通过计算与输入的相似度来决定激活哪些专家。理想情况下,每一行应编码对应专家矩阵的主奇异方向,使点积能更好反映token与专家的亲和度。然而现有设计缺少对齐约束。为此提出Manifold Power Iteration (MPI)方法,采用“Power-then-Retract”范式:先在路由器权重上执行幂迭代步骤,再通过回缩施加范数约束以保证效率和稳定性。理论表明MPI驱动路由器行收敛至对应专家的主奇异方向。在1B至11B参数规模的MoE模型预训练中证实该对齐能提升模型有效性。
论文认为稀疏自编码器作为LLM控制工具并非此前认为的那么差,失败源于特征标注方式与模型内部实际因果不匹配。作者提出用监督管道替代模糊标签,验证特征活动是否真实追踪数据标签,使特征具有因果权重。例如,强制“酒精”特征增强可使模型输出转向酒精话题。论文还发现极高稀疏度并非必要。与提示工程相比,提示更强(模型经训练服从提示),而特征控制更像直接拨动机器。