Workflow-GYM是专门评估AI智能体在专业领域和专用软件环境下执行长周期GUI任务的基准。实验表明,即使是最强模型,成功率也仅略高于30%,凸显出专业长周期GUI工作流对当前智能体的巨大挑战。进一步分析发现,智能体难以维持工作流一致性,频繁出现阶段遗漏、错误传播、目标漂移以及对专业软件环境理解不足等问题。这些发现揭示了当前智能体的局限性,并为下一代GUI智能体研究指明了关键方向。
Workflow-GYM是专门评估AI智能体在专业领域和专用软件环境下执行长周期GUI任务的基准。实验表明,即使是最强模型,成功率也仅略高于30%,凸显出专业长周期GUI工作流对当前智能体的巨大挑战。进一步分析发现,智能体难以维持工作流一致性,频繁出现阶段遗漏、错误传播、目标漂移以及对专业软件环境理解不足等问题。这些发现揭示了当前智能体的局限性,并为下一代GUI智能体研究指明了关键方向。
SCAIL-2 提出绕过姿态骨架等中间表示的端到端角色动画框架,通过直接拼接驱动视频获取全部视觉信息。为解决端到端数据匮乏,用解耦条件统一子任务,构建异构运动迁移数据集 MotionPair-60K。采用上下文掩码条件与模式特定 RoPE 作为软引导,并引入 Bias-Aware DPO 构建偏好对以缓解合成数据在细节区域的误差。实验表明,该方法在多个任务中显著优于现有 SOTA。部分合成数据与模型权重将开源。
大语言模型长上下文扩展受限于标准注意力的二次复杂度。现有线性注意力多状态方法采用固定合并策略,无法适应token动态重要性,造成关键token丢失。DLA提出信息感知动态状态合并,根据token级信息变化自适应确定状态边界;并引入容量有界记忆建模,通过选择性合并相邻低信息状态维护固定大小缓存。DLA在两个线性注意力模型上预训练,在16个数据集上超越现有最优方法。
ARM是一种基于离散表示的自回归模型,将图像理解、生成与编辑统一在下一个token预测框架中。首先训练离散语义视觉tokenizer,通过多目标监督实现语义判别、语言对齐与忠实重建;然后在文本与图像token序列上训练7B自回归模型,自然融合视觉语言感知与生成能力;最后用强化学习优化文本到图像生成与指令引导编辑的偏好对齐,使WISE整体得分从0.50提升至0.56,GEdit-Bench-EN的G_O评分从5.75提升至6.68,并观察到跨任务协同效果。
FlowTracer是一个针对大语言模型强化学习的框架,在注意力诱导的有向无环图上追踪从问题到正确答案的推理流。边容量来自聚合注意力权重,通过重新加权仅保留能到达答案区域的影响,并强制执行局部流守恒。提取信息流骨干,按流吞吐量对token评分,揭示高影响枢纽。重要性得分用于塑造token级奖励,使学习信号聚焦于路由信息的关键token,在多个推理任务上取得一致性能提升。
一项研究将大型语言模型(LLM)应用于超参数优化任务,并与经典算法进行对比实验,检验 LLM 在该场景下是否具备超越传统方法的表现。
Notes2Skills是一个两阶段框架,旨在将实验笔记转化为可验证的科学AI智能体技能,同时保留作者对观测结果的不确定性。在七个条件和三次湿实验室实验中,Notes2Skills是唯一既不会将不确定的笔记误认为明确指令、也不会丢弃明确指令的配置。研究表明,确定性保留是连接实验笔记与可靠智能体技能之间缺失的关键环节,为开发更安全的AI合作科学家系统提供了新路径。
研究团队开发了一款兼容开源核心网 Free5GC 的 NWDAF 实现,集成了大语言模型接口,支持操作员通过自然语言与网络交互。系统利用语义嵌入模型将用户意图编码并映射到 7 个预设意图类别,触发分析查询或事件订阅命令,简化传统接口的复杂性。该 NWDAF 支持 AMF 和 SMF 事件订阅、通过 Prometheus 进行实时监控与分析检索,所有功能均可通过对话式界面访问。项目代码与数据集已在 GitHub 开源。
稀疏自编码器(SAE)广泛用于解释神经网络表征,但特征是否跨训练运行可复现影响其效用。研究者通过特征稳定性量化每个特征在独立训练中再次出现的概率。大规模实验显示,稳定特征承载大部分重建与预测相关信号;不稳定特征个体影响微弱,主要由低频表面形式触发,主导自动解释结果。几何上,不稳定特征集中于可复现的低秩子空间,表明种子依赖性反映激活空间共享区域内的基模糊性而非纯噪声。通过合并跨种子独特特征,可构建更稳定SAE并保持解释方差。
开源Lean定理证明器家族Pythagoras-Prover包含4B和32B自回归模型及4B扩散模型。训练采用课程式SFT,通过动态证明推理过滤将每条样本控制在8k token上下文预算内,并引入增强型Lean形式化(ALF)将稀缺验证语料扩展为变体语句,以自蒸馏提供额外训练信号。Pythagoras-Prover-4B在MiniF2F-Test上以86.1% pass@32超越DeepSeek-Prover-V2-671B(82.4%),参数量减少约167倍;Pythagoras-Prover-32B以93.0%创下开源SOTA,并在PutnamBench上解决93/672题。项目同步发布MiniF2F-ALF基准。
视觉-语言-动作(VLA)模型将预训练VLM与连续动作专家结合,但在分布外语言指令上泛化差——原因是数据中语言多样性低且动作专家随机初始化导致梯度噪声削弱VLM。APT从贝叶斯视角将策略分解为语言无关的视觉-动作(VA)先验和语言条件VLA似然,采用两阶段训练:阶段1冻结VLM,在视觉-动作对上预训练动作专家作为VA先验;阶段2通过门控融合注入语言token,保留已学习的视觉运动先验。APT适用于π和GR00T风格架构,在未见指令和组合任务上实现一致提升。
大语言模型在医学考试中已达专家级水平,但MedMisBench基准测试揭示其结构性脆弱:在误导性上下文中,模型平均准确率从原题的71.1%骤降至38.0%,攻击成功率达51.5%。MedMisBench包含10,932道医学题和48,889组误导性上下文–选项对,覆盖医学推理、智能体能力和患者旅程评估。最有效的攻击是权威式虚假陈述(69.5%)和例外投毒声明(64.1%)。来自7国的14名临床医生评审认定38.2%的案例存在严重潜在危害。
为填补现有AI智能体在真实科研场景中评估的空白,SciAgentArena被提出,包含约200个跨领域科学任务,支持逐步验证与交互式评估。测试发现,当前AI智能体在任务结构与评价标准明确的特定数据分析流程中能有效发挥作用,但在生成新颖见解、持续自主探索以及为开放式科研问题构建稳健方案方面仍表现不均。该基准为衡量科学领域AI智能体的进展提供了实用框架,相关代码、任务与数据集已开源。
用户依赖执行轨迹观察AI智能体行为并确保问责,但轨迹细节可能泄露私有过程技能(公式、阈值、策略)。为此,研究构建了CapTraceBench基准(75个长周期任务、154个跨领域技能)来量化风险,并推出RedAct保护框架。该框架定位关键信息、重写轨迹并保留验证器证据,同时嵌入行为水印用于溯源。在代表性轨迹复用方法上,RedAct将标准化技能转移(NST)从原始轨迹的44.7–67.1%降至无技能基线以下,同时保留审计证据。其行为水印真阳性率达93.6–100%,假报警率至多1.9%。结果表明选择性编辑可在不删除审计证据的前提下减少过程能力泄露。
过去十年,人类级通用人工智能从遥远猜测变为多家机构的下个十年目标。这份报告探讨后AGI世界中AI沿机器智能连续体的发展,重点是从人类级AGI到通用超智能(ASI)的过渡。ASI被定义为比人类大型组织更智能的系统。报告描述了四条潜在路径:扩展AGI、AI范式转变、递归改进及大规模多智能体集体涌现,并分析了路径上的摩擦与瓶颈。由于预测ASI进展存在巨大不确定性,不能排除AI发展持续加速的可能,社会面临的或是一系列由AI驱动的科技连锁变革,需全球跨学科努力应对。
Orchestra-o1是一种全模态智能体编排框架,支持文本、图像、音频和视频等多模态输入的统一理解与协调。其引入统一编排机制,实现模态感知的任务分解、在线子智能体专化及并行子任务执行。在OmniGAIA基准上,Orchestra-o1超越第二名10.3%的准确率。研究还提出决策对齐的组相对策略优化(DA-GRPO),一种高效智能体强化学习方法,用于训练Orchestra-o1-8B,该模型在所有现有开源全模态智能体中达到最优性能。
激活引导是一种推理时轻量控制大语言模型行为的方法,但成功率高度依赖提示词、概念、模型和引导配置。为预测引导效果,研究者构建了含140万次引导生成、覆盖150个概念的ASTEER测试集,并提取跨层与初始解码步的隐藏状态特征。基于梯度提升决策树(GBDT)分类器,该模型可在未完成全部自回归生成时判断引导是否欠调、成功或过调,在未见概念上达到约0.7 macro-F1分数。进一步利用该预测器指导引导强度搜索,仅需少量解码成本即可接近最优效果。
本研究对比大五人格与计划行为理论(TPB)在LLM自我报告与行为一致性上的表现。在四项行为任务与11个前沿LLM中,同一对话内TPB达到人类水平一致性,大五不能;跨对话时,仅对训练形成的隐性偏见等行为保持一致性,对上下文启动的谄媚等行为则崩溃;角色提示使自我报告更一致,但不改变行为。结论:粗粒度人格框架(如大五)不适合测试部署行为。
学习兼容表示旨在使模型更新后的特征表示可互换使用。实验证明,d-Simplex固定分类器学习的静态表示天然满足兼容性定义。针对顺序微调场景,交叉熵损失仅对齐一阶统计量,无法充分捕捉高阶依赖。通过交叉熵与对比损失的凸组合训练模型,既能捕捉高阶依赖,又等价于兼容约束下的交叉熵学习。实验表明,静态表示可在模型更新和替换时不需重新处理图库图像,实现无中断检索服务,并达到当前最优性能。
TreeSeeker是一种推理时框架,通过树结构状态组织深度搜索中的分支与回退。每回合利用文本UCB信号(价值、不确定性、风险)选择利用有前途的分支、探索不确定替代或剪枝无效路径并返回早期分支点。TreeMem将证据、不确定性、冲突、进度和失败线索附加到产生它们的分支上。在XBench-DeepSearch、BrowseComp和BrowseComp-ZH基准上,TreeSeeker持续优于强开源基线,表明显式的分支-回退控制可增强更强推理与工具执行能力。
推测解码(SD)通过轻量草稿模型并行生成候选项、由大型验证器校验来降低LLM推理成本。现有方法采用二元决策:接受或完全重算。VIA-SD提出多层级框架,利用模型内路由从完整验证器中提取轻量子模型(slim-verifier),对中等置信度的草稿token进行再生,仅在不确定时调用完整模型。在四个代表性任务和多种模型族上,VIA-SD将拒绝率降低0.10–0.22,相比强SD基线实现10–20%加速,相比非推测解码实现2.5–3倍加速。该方法兼容现有SD框架,无需修改训练过程。
多模态图像融合现有方法基于2D特征网格,局部建模强但全局外观控制有限。本文引入紧凑1D token接口,基于冻结预训练图像tokenizer作为全局载体,同时保留2D空间路径恢复局部结构。提出选择性token编辑(STE),稀疏更新或替换关键token,在不改变融合主干、不引入额外损失下引导全局一致性。在四个基准上取得最佳整体性能,全局一致性和局部保真度均提升。
PianoKontext 是一种流匹配渲染模型,专为古典钢琴音乐设计,在预训练 Music2Latent 模型的潜在空间中生成可变长度的富有表现力演奏。该方法将 MIDI 乐谱合成为平淡音频,利用动态时间规整(DTW)在潜在空间中对齐乐谱与演奏数据,并将对齐的嵌入拼接至 DiT 块中,以简单有效的方式学习乐谱与演奏之间的依赖关系。演示音频见项目页面。
Z-Image Turbo++是从8步教师模型Z-Image Turbo蒸馏得到的2步图像生成模型。针对两步生成中任务难度提升和模型容量有限的瓶颈,提出三项设计:分布对齐对抗学习(以教师生成图像而非真实图像作为GAN训练的真样本)、步骤分离参数化(两个去噪步独立参数)、以及带迭代正则化的端到端训练(第一步接收最终图像质量梯度并保留有意义的中间生成)。这些策略显著缩小了2步与8步生成的质量差距。
FORT-Searcher 提出抗捷径训练数据合成框架 FORT,识别证据共覆盖、单线索选择性、暴露常数和先验知识绑定四种捷径风险,在实体选择、证据图构建、问题生成和对抗性精炼环节控制。实验表明,FORT 生成的数据比现有开源深度搜索数据集诱导更长的搜索路径和更少的捷径模式。仅用监督微调(SFT)训练的 FORT-Searcher 在多个深度搜索基准上达到同类开源搜索智能体的最佳整体性能。资源即将开放。
Evoflux是一种推理时进化搜索方法,通过结构化编辑、执行反馈、自适应强度、元引导重设计和多样性剪枝,将紧凑型语言模型的可执行工具工作流修复为可运行图。在覆盖250个工具和MCP服务器的MCP-Bench任务上,Evoflux将小型规划器的执行可行性从约3%提升至17-24%。相比之下,同一数据上的SFT和SFT+DPO表现持平、不如或崩溃至低于零样本水平;ReAct可达更高峰值但方差和token成本更高。结果表明,在稀缺教师轨迹预算下,基于执行反馈的搜索更可靠。
将Kolmogorov-Arnold Networks(KAN)部署于FPGA,实现超高速机器学习推理。
无参考忠实度度量仅衡量精确率(陈述是否被支持),鼓励模型少说甚至不说以获得高分。本研究利用F1遥测(确定性完整ground truth)和NOAA天气预报两个完整Oracle领域,证明此盲点:在多语言(EN/ES/PT)共7253个决策实例(覆盖150场比赛)的基准上,最精确的前沿模型仅覆盖不到一半相关事实,按F1排名垫底。引入覆盖度(召回率)后系统排序改变;显式要求详尽也无法弥补差距。作者提出将忠实度与覆盖度合并为单一分数,并给出无参考验证器引导生成方法,同时提升精确率和召回率。相关基准、标注、度量、基线及交互演示已开源。
该研究质疑在基于代理的搜索(agentic search)中“grep 是否足够”这一假设,并分析代理框架(agent harnesses)如何重新定义智能体搜索的交互方式与能力边界,推动搜索范式从简单工具调用向结构化代理行为演进。
当前多数智能体脚手架(scaffold)构建后保持静态。新研究Self-Harness将harness(提示词、工具、控制流)作为可学习的工件,通过自身运行迭代改进,而非手动维护的固定包装器。运行长周期智能体时,自我修改的harness将维护工作转化为系统自动获得的能力。论文:arxiv.org/abs/2606.09498。
Anthropic 发布了 Claude Fable 5 和 Claude Mythos 5 的系统卡(System Card),以 PDF 格式公开,内容涵盖两个模型的架构、安全评估与部署限制。
同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》针对文本到图像Flow Matching模型与人类偏好对齐时,完整采样轨迹无法存储及跨步雅可比积导致梯度膨胀的问题,FlowBP提出统一代理轨迹框架,将反向轨迹本身作为设计对象。该框架分离奖励模型输入、活跃集、积分权重和桥耦合四个选择,并实例化三个变体:FlowBP-Sparse(稀疏Euler重建)、FlowBP-Bridge(受控桥耦合)和FlowBP-Lagrange(高阶跳跃求积)。三者通过活跃集大小限制内存,梯度链至多含一个雅可比因子。在SD3.5-M、FLUX.1-dev和FLUX.2-Klein-base上,三个变体在偏好、质量和组合指标上均优于直接梯度基线。
美国宾夕法尼亚州立大学研发出光忆阻器,模拟人眼适应机制,解决自动驾驶汽车在光线剧烈变化时失去感知的问题。该器件将氧化钛与塑料PEDOT:PSS结合,通过类似“出汗”和膨胀自动调节感光,数秒完成强光到暗光切换(人眼需20-30分钟)。4×4阵列与AI神经网络测试,在极亮背景中识别暗光字母“F”,7轮训练后准确率达95%。已申请临时专利,未来可用于工厂机器人和视障人士人工视觉设备。
一项在塞拉利昂等地开展的随机对照试验显示,Gemini 的 Guided Learning 功能能够提升学生参与度并加速学习。