MyPCBench在预置17个模拟真实网页应用及完整桌面栈的Linux环境中,基于《办公室》角色Michael Scott单一画像生成184个任务,测试电脑使用智能体的个人助手能力。6款闭源与开源模型在同一“电脑+bash”工具界面下评测,最佳模型Claude Opus 4.6仅完全解决55.4%任务,是唯一超过50%的模型。失败集中在跨多应用与长轨迹任务。环境、任务集与智能体框架已开源。
MyPCBench在预置17个模拟真实网页应用及完整桌面栈的Linux环境中,基于《办公室》角色Michael Scott单一画像生成184个任务,测试电脑使用智能体的个人助手能力。6款闭源与开源模型在同一“电脑+bash”工具界面下评测,最佳模型Claude Opus 4.6仅完全解决55.4%任务,是唯一超过50%的模型。失败集中在跨多应用与长轨迹任务。环境、任务集与智能体框架已开源。
LOGOS 是一个科学生成语言模型,将自然科学的异构任务统一到同一自回归框架和共享科学语法中。它把科学对象及其空间交互编码成 token 序列,无需依赖坐标或几何神经网络,即可用纯序列方式捕获复杂结构相互作用。该统一表示使得多领域持续预训练与下游任务高度对齐。在多个任务上,LOGOS 匹配或超越领域专用基线,且 1B、3B、8B 三种参数规模与性能呈正相关。模型权重已开源以促进后续研究。
ProCUA-SFT 是一个包含 3.1M 步级 SFT 样本的数据集,从 93K 合成轨迹蒸馏得到,覆盖 2,484 种应用组合。数据由单一 VLM(Kimi-K2.5)在搭载真实内容(912 个电子表格、约 10K 演示文稿等)的实机环境中自动生成并验证。使用该数据集对 UI-TARS 7B 微调一个 epoch,OSWorld 成功率达 45.0%,比基线高 18.7 个百分点,比 AgentNet 训练的模型高 35% 以上。子集已纳入 Nemotron 3 Nano Omni 模型的训练数据。
Iterative-Contextual-Refinements框架使Qwen3.6-27B在CGRE测试中获95.5分,超越Anthropic Fable5(Mythos)的94.1分。该框架通过BFS探索多种方案(如KMP、滑动窗口)、DFS结合性能工具迭代优化代码,以及路由统筹形成闭环,克服小模型易陷入局部最优的弱点。代价是token消耗增加25-40倍。框架与论文已开源。
一项研究分析了10年间320万条ALEKS数学学习记录,发现ChatGPT普及后,高中和大学生完成AI友好型文字题的速度显著加快,但学习效果反而下降。监考环境下时间缩短现象消失,说明快速完成并非能力提升或平台变化所致。后续监考的保留测试中,学生对AI友好题的正确率降低约25%,而难以用AI代劳的图形题未受影响。
MIT、Stanford、New York Univ、Princeton 联合论文发现,AI 会让用户产生“效率幻觉”——感觉使用 AI 后更高效,但实际提升极小甚至为负。三项预注册研究涉及 2691 名参与者,在算术、拼写、记忆和短文改写任务中,用户实际使用 AI 的比例高于其预测,且平均预期节省 55.7 秒,实测仅 7.5 秒。简单任务的隐藏成本是界面摩擦:写提示、等待、阅读、检查、判断答案是否可接受。这一循环形成后,用户会更倾向再次使用 AI,即使自己完成更快。研究指出,AI 使用会自我强化,导致用户逐渐丧失对“何时自己更快”的判断力。论文链接:arxiv.org/abs/2605.22687。
LaWAM是一种潜在世界动作模型,通过在预训练视觉基础模型的特征空间中训练潜在动作模型,并利用其前向解码器预测未来观察特征,从而将预测动力学引入机器人策略,而非依赖高计算开销的未来视频重建。LaWAM在LIBERO上取得98.6%成功率、RoboTwin上取得91.22%成功率,在真实世界操作任务中也达到竞争性表现。其推理延迟为每个动作块预测187毫秒,比像素空间WAMs降低24倍壁钟延迟。
针对视频目标中心学习中密集对齐策略传播各模块弱点且计算代价二次增长的缺陷,提出 Selectice Synergistic Learning (SSync)。该方法避免穷举对齐,而是选择性蒸馏最可靠线索:编码器用于边界细化,解码器用于内部去噪。通过线性复杂度的伪标记实现,并引入传递式伪标记合并以消除重叠 slot 冗余。实验表明 SSync 显著提升分解质量,作为即插即用模块对 slot 配置具有强鲁棒性。代码已开源。
提出检索增强的视觉-语言-动作(VLA)策略,训练一次后冻结,新任务通过在检索池中追加演示数据来适应,无需逐任务微调。在基于视频生成的世界动作模型(WAM)Cosmos Policy上效果尤其显著,检索提供粗粒度任务推进,未来图像目标补充视觉一致性信号。在PushT和RoboTwin 2.0上超越跨体现基线,并在真实机器人上完成验证。
论文提出HLL基准,测试AI智能体解决10种CAPTCHA任务的能力。任务要求智能体查看页面、正确点击或拖动、跟踪状态变化并提交答案,同时需在混乱页面中找到交互元素、理解指令、恢复错误并留下一致的操作轨迹。实验显示,即使是当前最强的智能体,在静态任务上表现良好,但在页面杂乱、任务难度增加或系统验证动作有效性时仍会失败。
Nvidia发布Cosmos 3——一种全模态世界模型,将语言、图像、视频、音频和动作整合到同一系统,使物理AI能跨越“理解、模拟、行动”三大任务。它把动作视为世界的第一类语言,通过动作token设计,让模型可基于视频推断动作,或同时生成未来场景及对应运动。这使机器人从“识别物体”升级为预测“移动、抓取、滑动”等交互后果。相关论文《Cosmos 3: Omnimodal World Models for Physical AI》已发布于arXiv。
美团 LongCat 团队推出 WBench,首个面向交互式视频世界模型的系统性多轮评测基准。包含 289 个测试案例、1058 个交互轮次,覆盖导航、主体动作、事件编辑、视角切换四种交互方式,从视频质量、设定遵循度、交互遵循度、一致性、物理真实性五维度评测 20 个前沿模型(包括 Kling 3.0、HY-World 1.5、Genie 3 等)。核心发现:无全能模型,导航能力与画质无关;多轮交互后所有模型性能下降,导航平均分下降 33 点;开源模型 HY-World 1.5 导航能力突出;视角切换最难(平均分 30.7)。WBench 已开源。
RL4IL是一种强化学习引导的模仿学习方法,通过近端策略优化对广度优先搜索候选集排序,并利用软交叉注意力融合头部聚合
研究团队推出XBCP基准测试,用于评估深度研究AI智能体在证据语言与用户查询不一致时的表现。XBCP保留BrowseComp-Plus的英文问答空间,将支持文档改为跨语言(单语言证据)和多语言(12种语言均匀分布)两种设置。评估四种AI智能体使用稀疏和密集多语言检索器。结果显示,证据翻译后准确率、证据召回率和引用可靠性显著下降,且即使直接提供所有黄金证据,准确率仍然较低。这表明跨语言深度研究不仅存在检索失败,智能体在整合语言不匹配的证据时还有独立困难。
交互式LLM智能体的用户偏好修正常被遗忘,Mem0记忆仍有57.5%相关偏好检查被违反。研究提出TRACE,一种即插即用的技能层管道,从用户聊天修正中挖掘原子规则并编译为运行时检查。在ClawArena上,分布内违规从100.0%降至37.6%,分布外从100.0%降至2.0%;在MemoryArena上,分布内从100.0%降至60.5%,任务通过率匹配或超越最强记忆基线。实验代码已开源。
IndustryBench-MIPU是首个大规模多图像工业产品理解基准,聚焦结构化属性提取——从产品图像中恢复属性-值对。基准涵盖18个工业类别、4,559个产品、27,652张图像和103,703条标注,通过多模型共识与三级质量审核构建。在9个多模态大语言模型上的评估显示:单图像属性提取精度达86–94%,但产品级多图像召回最高仅49.9%;从单图像转向多图像提取时,召回率下降15–34个百分点。多图像完整性是核心瓶颈,而非单图像准确率。数据集与代码已公开。
HYDRA-X 是首个在单个 Vision Transformer (ViT) 中统一图像与视频 tokenization 的统一多模态模型。通过帧级因果时间注意力实现视觉重建,并采用层级时间压缩替代单步压缩。轻量级解压器在联合图像-视频教师监督下上采样时间压缩特征。编辑管线中,源-目标交互在分词器内部潜在层面而非 LLM 语义层面进行,提升编辑一致性与收敛速度。7B 密集模型在图像与视频理解及生成任务上表现强劲。
EvoBrowseComp 提出包含 400 英文和 400 中文无污染复杂问题的动态基准,问题通过实时网络遍历合成。其采用三智能体协作框架:QA 合成智能体从实时网页检索知识生成问答对;信息过滤智能体按可信度和流行度过滤以阻止参数捷径;高层指导智能体将问题形式化为推理图减少逻辑冗余。该框架支持自动合成与定期更新,防止污染并保持时效性。实验表明该基准难度极高,需广泛横向搜索能力,为可自动更新的高难度评测建立了可扩展范式。
EurekAgent 是一个环境工程化的大语言模型智能体系统,专为度量驱动的自主科学发现设计。它从权限工程(可控执行与隔离评估)、产物工程(文件系统与 Git 协作)、预算工程(成本感知探索)和人在回路工程(简便监督干预)四个维度构建执行环境。EurekAgent 在数学、内核工程和机器学习任务上取得新 SOTA,包括以不到 11 美元总 API 成本发现新的 26 圆填充结果。代码与结果已开源。
WEAVER是一种多视图世界模型架构,通过流匹配损失训练预测未来潜变量和奖励值,满足保真度、一致性和效率三个要求。在机器人操作任务上,WEAVER在政策评估中与真实成功率的相关系数ρ=0.870,在π₀.₅基础模型基础上实现政策改进成功率提升38%,测试时规划成功率提升14%,且速度比先前世界模型快5–10倍。在分布外场景下表现也优于先前世界模型。代码、模型和视频已开源。
SWITCH利用一对显式边界token(<swi>入口和</swi>出口)将隐藏状态递归块与标准同策略RL(GRPO)兼容。模型通过可见到潜在的课程学习和Switch-GRPO目标训练,在类似规模下一致优于先前隐藏状态递归潜在推理方法。机制分析通过边界token揭示三个发现:入口token是学习到的局部切换策略而非风格化伪影;打开的潜在步骤执行问题特定且因果重要的计算;该计算集中在进入时的单个隐藏状态转换上。表明隐藏状态递归潜在推理既可同策略RL训练也可进行直接机制分析。
RepWAM是一种表征中心的世界动作模型(WAM),构建在表征视觉-动作tokenizer上。现有WAM沿用重建导向视频tokenizer,但像素重建对学习指令跟随动力学帮助有限。为此,研究训练表征视觉-动作tokenizer将视觉输入映射为对齐的视觉和潜在动作token,预训练WAM联合建模未来视觉状态及连接它们的潜在动作,再适配真实机器人轨迹实现闭环操作。实验表明RepWAM在多种操控场景表现强劲,消融实验凸显语义视觉-动作tokenizer的优势。代码与权重将开源。
基于240个学习智能体的社区网络模拟显示,内容审核在噪声分类器下标准准确率几乎不变(p=0.96),但伤害集中在桥梁用户:有用帖子被错误抑制、危险帖子被错误放过。将两类错误与执法成本分开计算的治理损失L_gov在假阳性偏高噪声下翻倍。聚合准确率无法揭示受损对象,而用户度(连接数)近乎完美代理中介中心性(r=0.96),可作为低成本审计指标。
Squeeze-Release 提出精确结构改写(minimization),将带掩码网络转换为更小密集网络,前向函数仅浮点舍入误差一致。循环迭代剪枝和最小化,中间释放步骤将压缩张量中原置零位置重置为小校准噪声,使容量重新可训练,后续循环发现单次剪枝无法触及的结构冗余。引入函数保持的 CompensatedLayerNorm,将通道缩减扩展到带 LayerNorm 的残差流。在 fully-connected 网络压缩至 1/39,ConvNeXt-Tiny 达 1/14.8,准确率相当,并可扩展至 Transformer 架构。
ClinHallu是一个面向医疗多模态大语言模型(MLLM)的阶段性幻觉诊断基准。该基准包含7031个经过验证的实例,每个实例都带有结构化的推理追踪,分解为视觉识别、知识召回和推理整合三个阶段。通过阶段替换干预,可测量修正特定阶段对最终答案的影响。实验表明,追踪监督微调能减少阶段性的模型幻觉。ClinHallu为诊断和缓解医疗MLLM中的推理故障提供了细粒度的测试平台,并已公开提供。
HarnessX 是一个智能体运行框架(harness)铸造厂,通过类型化原语和替代代数组装可组合的框架,并利用 AEGIS 这一基于轨迹的多智能体进化引擎实现自适应演化,将执行轨迹反馈用于框架更新与模型训练。在 ALFWorld、GAIA、WebShop、tau³-Bench 和 SWE-bench Verified 五个基准上,HarnessX 平均提升 +14.5%,最高达 +44.0%,基线越低提升越明显。完整代码将在未来开源。
首次系统实证研究视觉仓库表示对基于 LLM 的编码智能体在仓库级问题解决中的作用。评估了四个近期多模态模型。纯视觉设置会降低准确性并增加 token 成本;将仓库结构视觉图作为文本界面的补充模态,可使输入 token 消耗降低最多 26%,同时保持或提升问题解决准确性。可视化在故障定位和智能体自主控制探索深度时最为有效。研究指向一种混合文本与视觉的设计思路,用于下一代编码智能体。
该论文提出SIA框架,让AI自动循环改进:一个观察者AI监控任务代理的表现,然后修改其外部设置(提示词、工具、重试规则、输出解析)或通过LoRA权重更新训练模型本身,模型主体不变,仅适配器从任务反馈中学习。在三个任务上测试:中文法律罪名分类(LawBench达70.1%)、GPU内核速度调优(生成代码优于此前最佳)、单细胞RNA降噪(得分0.289)。综合版本在所有任务上超越仅修改设置的方案,表明权重更新能帮助模型学到提示和工具无法发现的模式。
TRACE 针对多轮智能体 RL 中因提示复杂度差异和仅有最终奖励导致的奖励对比度不足问题,将每个 ReAct 轮次视为语义独立节点,把预算分配从 prompt 根节点扩展到中间前缀,形成树结构 rollout。它使用可共享预测器根据前缀历史估计条件成功概率,优先向易产生混合奖励的节点分配有限采样预算,从而增强策略更新信号。在典型智能体基准上,TRACE 以相同采样成本使 Qwen3-14B 在 Multi-Hop QA 上的准确率提升 2.8 个百分点。
一项新研究指出,用大语言模型评判其他模型回答是否安全的“LLM安全法官”存在严重不稳定:将相同回答翻译或改写后,法官可能给出不同安全判定。在暴力、极端内容等明显危害场景下表现较好,但在需结合上下文判断的金融建议、信用评估、文化敏感回复等场景中可靠性显著下降。不同法官之间也常出现分歧,高原始一致性有时会掩盖低真实可靠性——因为许多法官默认选择同一标签。论文标题为“LLM Judges Inconsistently Disagree Across Safety Criteria and Harm Categories”。
研究引入 RQ-Bench 基准,基于 arXiv 论文构建作者锚定的研究问题(RQ),用于测试新颖性判断。使用大语言模型进行独立或对比评审时,LLM 一致将模型生成的 RQ 评为高度新颖,产生“新颖性幻觉”,在对比评估中偏好更强。但领域专家得出相反结论,更偏好作者锚定的参考问题。许多生成 RQ 狭窄或受限于来源,LLM 评审常忽略该维度。LLM 评审与人类专家的矛盾结论对基于 LLM 评估科学新颖性的可靠性提出严重质疑。
一篇新论文提出“Agents’ Last Exam”基准,测试 AI 智能体完成真实专家工作的能力。任务来自工程、金融、医学、法律、媒体、科学等 55 个数字工作领域的实际项目,要求智能体使用文件、浏览器、命令行、桌面软件等常规工具产出可交付成果。评测采用自动检查或严格评分标准。结果显示,当前最强智能体在最难任务层级的平均完全通过率仅 2.6%,远低于其基准测试分数所暗示的水平。论文指出,基准成功尚未转化为广泛的职场能力。
研究提出对抗性重新包装攻击,在不改动科学证据(方法、实验、数据等)的前提下,仅修改摘要、贡献定位、相关工作、讨论和叙事结构等呈现层内容,并利用AI审稿人反馈进行闭环搜索。在三种主流AI审稿系统上,攻击成功率达75.1%,平均得分提高+1.21/10。策略中,相关工作重定位和分析性讨论扩展等结构性改动效果显著优于表面编辑。分析揭示两种失败模式:AI审稿人更易被亮点打动而非被说服,且会将“看起来解决了限制”与“实际解决”相混淆。研究发布了无污染滚动基准和攻击框架用于测试内容锚定性。
从参考视频克隆相机运动是视频生成的重要任务。现有方法依赖参数化表示或合成交叉配对数据,难以处理多镜头生成且数据稀缺。OmniDirector将相机参数编码为网格运动视频作为通用表示,支持多镜头轨迹整合。框架在百万级相机网格-视频对上训练,采用多模态扩散Transformer,协调角色、动作和相机。同时设计层级提示扩展智能体,通过理解信号关系系统描述相机运动和视觉内容,集成不同控制信号。实验证明其在复杂相机运动克隆上性能优越、可控性强。
研究揭示,LoRA中缩放因子α与学习率作用不同,α才是有效优化的主导因素。通过Signal-Drift框架与实证,发现三个机制:LoRA的光谱抑制平滑优化面,使标准超参数过于保守;α放大任务信号而不增加漂移比,比学习率更有效加速收敛;最优α与秩呈平方根律次线性关系,现有秩绑定启发式缩放不足。基于此提出LoRA-α框架,将α恢复至原则性区间,兼容标准小学习率,持续提升性能并简化超参数搜索。
现有PPO风格信任区域机制对所有token施加统一阈值,忽视自回归生成的非对称性和累积前缀漂移。CPPO通过位置加权阈值和累积前缀预算两种耦合机制进行优化:早期位置限制更严格以抑制序列级漂移,后期位置放宽约束以保障探索;同时动态追踪历史偏差,防止前缀沿累计误差。实验表明,该方法在不同模型规模下均能提升训练稳定性并显著提高推理准确率。
现有智能体强化学习多基于工具调用边界等粗粒度单元分配回报。APPO将分支与信用分配迁移至序列中的细粒度决策点:通过分支分数(结合token不确定性与后续延续的策略诱导似然增益)选择分支位置,过滤高熵噪声;引入过程级优势缩放优化分支轨迹间的信用分布。在13个基准测试上,APPO在保持工具调用效率和行为可解释性的前提下,将强基线性能平均提升近4个点。
Next Forcing 提出多块预测(MCP)框架,受大语言模型多 token 预测启发,在主模型上添加轻量级辅助 MCP 模块,同时对多个未来时间步的视频块去噪。50fps 下训练 5k 步时相对 LingBot-VA 提升 93.1%,收敛速度加快 2.3 倍;在 RoboTwin 基准上达 94.1%(Clean)/93.5%(Random)新 SOTA。推理时保留 MCP 模块可实现 2 倍加速。在物理规律基准 PhyWorld 上也有显著提升,通用视频预训练 FVD 降低超 50%。
自蒸馏通过匹配学生(仅看问题)与自教师(还看上下文)的输出分布,使模型在无上下文时仍保持改进。研究比较三种上下文设计:二值奖励(GRPO)、参考解、以及步骤对齐的批评。步骤对齐批评效果最佳,Avg@12上比GRPO高16.11分,比参考解条件高5.27分。逐token优势分析表明,步骤对齐反馈仅针对推理失败的token,而参考解强制模型改变所有token行为,包括正确步骤。这说明反馈与推理步骤的结构对齐是自蒸馏效果的关键驱动因素。
PsychoSafe 是一种心理学导向的拒绝框架,将大语言模型的拒绝行为重构为结构化支持性沟通,基于循证干预策略。研究构建了包含8019条提示-响应对的语料库,覆盖五个高风险心理领域,采用提示工程和参数高效微调训练 Qwen 3.5 27B。在500条提示的验证集上,PsychoSafe 提示使拒绝质量较通用基线提升28.1%,其中外部资源转介提升46.8%、心理基础性提升34.8%,且不损害非拒绝任务性能。微调实现了近乎完美的拒绝与资源转介率,但降低了回复相关性。在 SORRY-Bench 和 XSTest 上表现强域内鲁棒性,但跨域泛化有限。