研究指出,在编码智能体需精确定位证据(如符号、函数名、错误信息)的任务中,基于grep的精确字符串搜索比向量检索更具优势。关键在于,检索性能高度依赖智能体的设计框架——结果呈现方式(内联、文件或CLI)会极大影响搜索效果。论文挑战了“智能体栈必须始于嵌入”的默认假设,强调应区分任务类型:是语义发现问题,还是证据定位问题。对于后者,为模型提供原始工具、清晰上下文和精确搜索的框架,往往比构建复杂索引更有效。向量数据库在模糊语义搜索和大规模场景中仍有价值。
研究指出,在编码智能体需精确定位证据(如符号、函数名、错误信息)的任务中,基于grep的精确字符串搜索比向量检索更具优势。关键在于,检索性能高度依赖智能体的设计框架——结果呈现方式(内联、文件或CLI)会极大影响搜索效果。论文挑战了“智能体栈必须始于嵌入”的默认假设,强调应区分任务类型:是语义发现问题,还是证据定位问题。对于后者,为模型提供原始工具、清晰上下文和精确搜索的框架,往往比构建复杂索引更有效。向量数据库在模糊语义搜索和大规模场景中仍有价值。
谷歌新论文提出Nexus框架,将预测重构为推理问题,强调结合事件背景而非仅依赖历史数据。该框架采用多智能体分工:一个从文本中提取清晰事件时间线,一个分析宏观态势,另一个追踪局部冲击,最后由合成器结合时间序列进行校准。在Zillow的测试中,基于Claude的某个版本将平均绝对百分比误差降低了86.6%。研究表明,结构化的上下文能帮助语言模型有效利用信息而不丢失时间序列特性。尽管当前证据仅涵盖房地产数据和少数股票,但方向明确:未来预测不仅会推断曲线,还将解释曲线变动的原因。
Soap2Soap是一个用于系列级长视频重制的多智能体框架,旨在解决其中的身份漂移、背景突变与语义侵蚀等问题。该框架通过一个双桥一致性机制来维持长期一致性:使用场景感知的JSON剧本作为持久的语义骨架,并在场景和镜头层级动态分配视觉参考锚点。它通过批量关键帧一致性技术在合成前抑制漂移,并利用闭环验证智能体对身份、稳定性和对齐进行审计。实验表明,该方法在长程一致性与叙事保真度上显著优于商业视频生成API。
现有研究缺乏对实时双工全模态交互的系统评估。为此,本文提出Omni-DuplexEval基准,包含660个带人工标注的视频,涵盖实时描述和主动提醒两大场景共9个现实任务,所有问题均为开放式。研究同时引入了基于LLM-as-a-Judge的自动评估框架,能够联合评估响应内容与时机。实验表明,当前最优模型在主动提醒任务上表现不佳,最佳模型总体得分仅39.6%,揭示了模型在协调响应时机与内容质量方面的核心挑战。
针对编码智能体生成的Web应用超70%不满足需求的问题,本文提出TDDev框架。该框架通过三阶段实现自动化闭环:先将需求转化为结构化测试,再通过浏览器模拟交互验证应用,最后将故障转化为修复报告。首次针对Web应用生成的TDD实证研究发现,引入TDD基础设施可提升质量34-48个百分点。关键结论是最佳协议需与模型生成风格匹配,不匹配将完全抵消TDD优势并最多增加25倍Token消耗。用户研究证实,该框架使人工干预降为零,开发转向自主反馈优化。
大型推理模型通过生成长链式思考实现高性能,但常在推理已收敛后仍继续生成冗余思考,导致计算资源浪费与延迟增加。现有早退方法主要依赖答案级信号(如置信度),无法准确判断推理过程是否真正完成,易引发过早退出而影响答案准确性。新研究提出PUMA框架,通过轻量冗余检测器识别推理链中不再产生新进展的冗余步骤,结合答案验证机制,在确保答案正确性与推理链完整性的前提下实现智能截断。实验表明,该方法在五类模型与五个复杂推理基准上平均减少26.2%的生成token,同时保持推理质量,且该原理在代码生成、视觉语言推理等场景中具有可迁移性。
杜克大学团队提出一种高效训练扩散语言模型的新方法。核心观点是无需从头训练,而是将现有强大的预训练自回归语言模型作为知识源。他们提出的REPR-ALIGN方法,在掩码扩散训练过程中,通过余弦相似度逐层将扩散模型的隐藏状态与冻结的自回归教师模型对齐。该方法无需添加适配器或改变架构,仅调整注意力掩码。实验结果显示,训练速度最高可提升4倍,在低数据场景下效果提升尤其显著。
How to Train Diffusion LLM more efficiently? Our paper has an answer for you: Don't Retrain, Align: Adapting Autoregress...
艾伦人工智能研究所和加州大学伯克利分校的研究团队开发了名为EMO的混合专家模型。该模型创新性地让专家模块专注于内容领域而非词汇类型,从而在移除75%专家模块的情况下,性能损失仅约1个百分点。这一突破使混合专家模型首次有望应用于内存受限的实际场景,大幅提升了部署效率。
论文提出EVA01框架,扩展多模态大语言模型以原生方式整合3D网格理解、生成和上下文感知编辑。它基于Mixture-of-Transformers架构,将模型解耦为预训练的理解专家和结构镜像的生成专家,通过共享的全局自注意力与硬模态路由进行耦合。结果显示,EVA01在文本到3D生成保真度上达到最先进水平,并解锁了具有身份保持能力的鲁棒长上下文多轮几何编辑功能,这是无状态重建流程无法实现的。
本研究针对现有查询聚类方法因依赖表面语义而无法准确捕捉LLM潜在能力需求的问题,提出了证据校准查询聚类(ECC)算法。ECC通过有限的模型后验比较校准语义嵌入,弥合表面语义与实际能力要求的差距。它利用Bradley-Terry模型参数化的能力画像描述聚类,并通过可训练的混合权重处理混合能力需求的查询,从而构建灵活的、能力感知的聚类结构。实验表明,ECC显著提升了LLM能力排序质量,相比人工标注和嵌入基线方法平均提升17.64和18.02个百分点,并在查询路由等下游任务中表现有效。
研究发现,可验证奖励强化学习虽能提升语言模型的推理能力,但存在一种反直觉现象:在模型初始难以处理的困难样本中,有相当一部分即使提供正确答案也无法被学习。通过跨样本梯度分析,研究揭示了不可学习样本的根本性表征缺陷,其特征是与其他样本梯度相似性低且推理模式难以泛化,而数据增强无法改善这一问题。该研究首次系统描述了训练中的不可学习数据现象,并指出当前强化学习方法在推理任务上存在根本性局限。
针对多智能体共享状态时因并发写入和过时读取导致的结构化竞态条件,本研究提出S-Bus,一种无需修改现有框架SDK的HTTP中间件。其核心是服务端的DeliveryLog机制,能自动重建智能体的读集,提供“可观测读隔离”一致性模型。实验在427,308次并发冲突场景中,与PostgreSQL及Redis均实现零数据腐败;形式化验证覆盖超2076万状态无违规。同时指出,该机制的适用性与系统拓扑相关,在单分片协作写入中可能传播矛盾。
现有稀疏注意力方法难以高效适配长上下文大语言模型的分块预填充。CompactAttention机制将二维块稀疏掩码转化为适用于分组查询注意力的键值块表,通过联合选择生成最小化块表,实现所选键值块的原地访问,避免了显式压缩开销。该方法在LLaMA-3.1-8B-Instruct模型上,在128K上下文中实现了接近密集注意力的精度,同时带来最高2.72倍的注意力计算加速。
AgentKernelArena是一个开源基准平台,专门用于系统评估AI编程代理在GPU内核优化任务上的能力。平台包含196个任务,涵盖HIP到HIP、Triton到Triton优化以及PyTorch到HIP翻译三大类。它采用隔离工作空间和分级评估(编译、正确性、性能)来测试代理的完整工作流,并创新性地引入了“未见配置”泛化测试。基准测试发现,主流AI代理在大多数任务上能近乎完美地编译和正确完成,并在PyTorch到HIP任务上实现高达6.89倍的平均加速。然而,泛化测试显示,从零生成内核的代理(PyTorch到HIP)在新配置下正确率显著下降,表明其常固化特定形状假设。该平台为严谨评估不同代理、任务和硬件目标提供了模块化框架。
预印本平台arXiv近期宣布实施一项新的提交政策。该政策针对上传由AI生成的低质量或无意义内容的用户,一经核实,将禁止其在未来一年内向平台提交任何论文。平台一位管理员已在社交媒体上公布了此项新规,旨在打击利用AI工具进行滥竽充数式提交的行为,维护学术交流环境的质量。
针对传统RLVR在难题上样本效率低的问题,研究团队提出了少样本演示指导的强化学习算法FEST。该方法仅需从监督微调数据集中随机选取128个演示样本,即可取得显著效果。其成功关键在于结合了监督信号与同策略信号,并通过对少样本SFT数据集设置衰减权重来防止多轮训练中的过拟合。在多个基准测试中,FEST以远少于基线方法所需的SFT数据量实现了更优性能,甚至在使用完整数据集时也能达到与之匹配的水平。
全球重要的预印本服务器 Arxiv 正在收紧对 AI 生成内容的规则。该平台要求研究人员在提交论文时,必须对使用 AI 工具(如 GPT、Claude、LLaMA)生成或大幅修改的文本、代码、图表等内容进行明确声明和核查。新政策旨在遏制未经检查的 AI 内容流入学术文献,以维护研究质量与诚信。违规论文可能面临撤稿或作者提交权限受限等处罚。
研究团队推出了首个系统评估前沿模型视频潜文本理解能力的基准ViMU。该基准旨在测试视频理解模型能否超越对物体、动作等表层内容的识别,推断视频中蕴含的隐喻、讽刺与社会意义。ViMU要求模型基于多模态证据进行推理,回答开放式与选择题,且所有问题均设计为无提示类型,确保模型在作答前无法获取关键证据。这标志着视频理解评估从字面感知迈向深层语义解读的重要一步。
视觉-语言-行动模型因单帧观测训练范式而缺乏时序动态感知能力,在非平稳场景中性能严重下降。本研究提出一种免训练的推理时校正算子,可封装任何分块动作的VLA模型。该方案通过单一二次成本联合优化,分解出正交的步调与路径两个通道:前者沿规划方向压缩执行,后者施加正交空间偏移,共同吸收动作块窗口内的动态变化。在运动控制诊断基准MoveBench上的评估表明,该方法显著优于现有免训练封装器与动态自适应方法,在纯动态及动静混合环境中,将基础VLA模型的成功率绝对提升了28.8%和25.9%。
本文提出VGGT-Edit,一种基于文本指令的前馈式原生3D场景编辑框架。该方法通过深度同步文本注入技术,将语义引导与主干网络的空间姿态对齐,确保指令的稳定理解。其核心是一个残差变换头,直接预测3D几何位移来变形场景,同时保持背景稳定。框架采用多目标损失函数进行监督,以保障几何精度与跨视角一致性。团队还构建了经过3D一致性过滤的大规模DeltaScene数据集。实验表明,该方法显著优于基于2D提升的基线,能生成更清晰的细节、更强的多视角一致性,并具备接近实时的推理速度。
本研究探讨纯合成数据对平面设计分层解构的效用。基于前沿的CLD框架,团队构建了合成数据集SynLayers,并利用视觉语言模型生成文本监督与自动化推断输入。关键发现包括:纯合成数据训练效果优于PrismLayersPro等非可扩展方案;性能随数据规模增加持续提升,在约5万样本处增益趋于饱和;合成数据能平衡控制图层数量分布,避免现实数据中的图层失衡问题。这项以数据为中心的研究为可扩展的分层设计编辑系统提供了实践基础。
DiffusionOPD 提出一种基于在线策略蒸馏的扩散模型多任务训练范式,以解决多任务强化学习中的交叉干扰与失衡问题。该方法先独立训练任务专属教师模型,再沿学生自身采样轨迹将能力蒸馏至统一学生,从而解耦单任务探索与多任务整合。理论层面,研究将 OPD 框架从离散标记推广至连续状态马尔可夫过程,推导出闭式逐步 KL 目标,通过均值匹配统一随机 SDE 与确定性 ODE 优化,其解析梯度相比传统 PPO 类策略梯度具有更低方差与更好泛化性。实验表明,DiffusionOPD 在训练效率和最终性能上均超越多奖励强化学习与级联强化学习基线,并在全部评估基准上取得领先结果。
研究团队推出FutureSim基准,通过按时间顺序重放真实世界事件(如新闻文章),评估AI智能体在动态开放环境中的长期适应能力。智能体需在模拟的2026年1月至3月期间,基于实时信息预测未来事件。测试结果显示,前沿智能体表现差异显著,最佳预测准确率仅为25%,多数模型的评分甚至低于不作预测的基准。该基准为研究长时域测试时适应、搜索、记忆及不确定性推理等方向提供了真实场景,旨在推动衡量AI在现实世界中长期开放适应能力的进展。
针对视觉推理中直接生成图像计算成本高、代理方法存在切换延迟、潜在方法泛化性差等问题,本研究提出ATLAS框架。其核心是引入“功能词元”这一离散单元,它同时作为智能体操作和潜在视觉推理单元。每个词元对应一个内化的视觉操作,无需视觉监督,仍作为标准词元存在于词表中,可通过下一词元预测生成。这避免了生成冗余的中间视觉内容,且与标准的可扩展SFT和RL训练兼容。为应对RL中功能词元的稀疏性问题,研究引入了潜在锚定GRPO(LA-GRPO)以稳定训练。实验表明,ATLAS在多项挑战性基准测试中取得了优异性能,并保持了良好的可解释性。
针对生成视频模型作为隐式世界模型时几何一致性评估的挑战,研究团队提出了PDI-Bench定量评估框架。该框架通过分割与点追踪获取物体中心观测,利用单目重建将其提升至3D世界坐标,并通过计算投影几何残差来量化评估尺度-深度对齐、3D运动一致性与3D结构刚性三个关键维度。团队构建了PDI-Dataset以支持系统评测。测试表明,PDI能一致地揭示当前先进视频生成模型中未被常见感知指标捕获的几何缺陷,为推进物理基础视频生成提供了诊断工具。代码与数据集已开源。
针对多模态智能体长期记忆评估中视觉证据留存与使用不足的问题,本文提出MemEye评估框架。该框架从视觉证据粒度(场景级至像素级)与证据使用方式(单一至演化合成)两个维度构建评估体系,并建立了涵盖8个生活场景任务的新基准。通过对13种记忆方法与4种视觉语言模型的评估,研究发现现有架构在保留细粒度视觉细节及对状态变化进行时序推理方面仍存在困难。结果表明,有效的长期多模态记忆依赖于证据路由、时序跟踪与细节提取能力。
本文提出实时自回归视频外推网络RAVEN,通过将自生成内容重组为干净历史端点与噪声状态的交织序列,对齐训练与推理时的历史分布,从而提升长序列生成质量。同时,提出一致性模型组相对策略优化方法,将一致性采样步骤重构为条件高斯转移,并直接对其应用在线强化学习,避免了先前方法中的辅助过程。实验表明,RAVEN在多项评估指标上超越近期因果视频蒸馏基线,结合CM-GRPO可进一步获得性能提升。
为解决将自然语言设计规则转换为可执行DRC脚本过程中成本高、专业门槛高的问题,研究团队提出了Rule2DRC大规模基准测试集。该基准包含1,000个规则到脚本的映射任务及13,921个用于执行评分的芯片布局,并提供基于DRC执行结果的功能正确性评估流程,无需将评估布局作为智能体输入。同时,研究设计了SplitTester测试智能体,它利用执行反馈生成有区分性的测试用例,有效分离先前难以区分的候选脚本,显著提升了该领域中Best-of-N选择策略的性能,为相关研究与开发提供了重要工具。
本文从理论上证明了旋转位置编码在长上下文Transformer模型中的根本缺陷。研究发现,随着上下文长度增加,RoPE的注意力机制会变得不可预测并丧失两大核心特性:局部性偏置和标记相关性一致性,其失效概率趋近0.5,等同于随机。实验进一步证实,当键被移动或替换时,注意力得分可能保持不变,表明其无法有效区分位置与标记。虽然增大RoPE基础参数有助于区分标记,但不可避免地会牺牲位置区分能力,且多层多头架构无法克服这些内在限制。这表明未来可能需要全新的位置编码机制。
本文针对成对排序提示(PRP)框架中LLM生成成对偏好判断时存在的噪声、顺序敏感性和不可传递性问题,指出传统排序算法在这些条件下性能受限。作者将PRP重排问题重构为从噪声成对比较中主动学习的过程,提出主动排序器作为即插即用的替代方案,在调用次数受限场景下显著提升NDCG@10指标。此外,引入随机方向预言机机制,每次比较仅需一次LLM调用,将系统位置偏差转化为零均值噪声,实现无偏聚合排序并降低计算成本。
现有无训练长视频生成方法因历史KV状态功能纠缠,在处理提示切换、场景遗忘与召回等交互式场景时存在瓶颈。为此,本文提出Echo-Forcing框架,包含三个核心机制:分层时间记忆、场景回放帧与差异感知记忆衰减,分别用于解耦和管理历史信息、压缩长期场景、以及自适应遗忘冲突内容。该框架能在有限缓存预算下,支持视频的平滑过渡、硬切与长程召回。在VBench-Long上的评估表明,Echo-Forcing在长视频与交互式视频生成任务中均取得了最佳整体性能。
针对CLIP在微调时易因分布偏移而鲁棒性下降的问题,本文提出SAE-FT方法。该方法仅作用于视觉表征,利用稀疏自编码器识别预训练模型中的语义特征,并在微调中约束这些特征的变化,从而在防止灾难性遗忘的同时提升可解释性。实验表明,SAE-FT计算高效且透明,在ImageNet及相关分布偏移基准上达到或超越现有最优性能,代码已公开。
本文提出FashionChameleon,一个用于自回归视频生成的实时交互式人体-服装定制框架。它仅需单服装视频数据训练,通过三项核心技术实现:采用上下文学习的教师模型,在参考与服装图像不匹配时隐式保持运动连贯性;通过流式蒸馏与上下文学习提升生成一致性与效率;引入无需训练的KV缓存重调度机制,支持生成中多服装交互切换。该系统在单GPU上实现23.8 FPS的实时生成,速度比现有基线快30-180倍,并支持交互式定制与长视频一致性外推。
一篇立场论文认为,实现通用人工智能(AGI)最可预见的途径是智能体AI系统,而非单纯扩大基础模型规模。作者将“智能体”能力形式化为超越基础模型的几个可分离维度:记忆、推理、工具使用、自我改进和对齐。每个维度都存在自身瓶颈,如长程连贯性、信用分配和安全审计。这些瓶颈无法仅通过增加一个数量级的预训练计算来解决。论文回应了关于AGI路径的争论,即究竟是单一大型模型还是多智能体系统更有效。
RealICU是一个基于后见之明标注的基准,用于在真实ICU条件下评估大语言模型。它包含由资深医师审阅完整病程后创建的四项临床任务标签,并发布了RealICU-Gold(930个标注)和RealICU-Scale(11,862个标注)两个数据集。测试发现,现有LLM(包括记忆增强模型)表现不佳,暴露出临床推荐中的召回-安全权衡问题及对早期患者状态的锚定偏差。研究引入的ICU-Evo智能体虽能改进长程推理,但未能完全消除安全失误。该基准为高风险护理中AI序列决策支持提供了临床基础测试平台。
PersonalAI 2.0(PAI-2)是一个集成外部知识图谱的新型框架,旨在提升大语言模型系统的性能。它通过动态多阶段查询处理流程,克服了现有图检索增强生成技术的局限,能基于实体、图节点和线索查询进行自适应迭代搜索。在六个基准数据集上的评估表明,其生成答案的事实正确性平均提升4%,有效降低了幻觉。图谱遍历算法相比标准检索器平均提升6%,而启用的搜索规划机制更带来了18%的性能提升。此外,PAI-2在MINE-1基准上取得了89%的信息保留分数,达到当前最优水平,且仅使用7-14B参数的模型,展现了作为下一代个性化AI基础模型的潜力。
Qwen团队推出Qwen-Image-VAE-2.0高压缩变分自编码器,在重建保真度与扩散适应性上均取得显著提升。该模型采用全局跳跃连接与扩展潜在通道的改进架构,基于数十亿图像训练,并引入合成渲染引擎以增强文本场景处理能力。通过增强语义对齐策略解决高维潜在空间收敛难题,并利用非对称无注意力编码器-解码器降低计算开销。在公开重建基准及新提出的文本场景基准OmniDoc-TokenBench上均表现优异,下游DiT实验证实其能显著加速扩散模型收敛。
研究探讨了大语言模型在长上下文窗口下的思维链上下文学习。研究发现,增加思维链示例数量主要惠及推理导向模型,而对非推理模型效果不稳定;基于语义相似性的检索在推理任务中因无法预测步骤兼容性而失效;示例顺序影响显著,性能方差随示例增多而扩大。研究将此过程重新定义为上下文测试时学习,并提出示例应易于理解且有序排列以支持概念平滑递进的原则。基于此提出的曲线演示选择方法,在几何任务中使用64个示例时实现了高达5.42个百分点的性能提升。
本研究通过一维变系数波动方程,探究了傅里叶神经算子与深度算子网络在结构化分布变化下的泛化能力。在输入频率与系数平滑度独立变化的分布外设定中,两种模型对平滑度变化均表现稳定,且FNO误差更低。然而,面对输入频率变化时,FNO在未见高频数据上误差急剧上升,而DeepONet虽整体误差较高,性能下降却更平缓。分析表明,该差异源于两者对频率结构的表示与响应机制不同。结果揭示了神经算子在分布内高性能与分布外泛化间存在根本差距,凸显了架构表示偏差对于开发更可靠、适用于训练分布外物理模拟的神经算子的关键影响。
EverAnimate是一种高效的后训练方法,用于解决长动画视频生成中因分块处理导致的背景质量下降与角色身份不一致问题。该方法通过引入持久的潜在上下文记忆来恢复漂移的流轨迹,包含两个核心机制:持久潜在传播在跨片段间传播身份与动作以减轻时间遗忘;恢复式流匹配在采样时引入隐式修复目标,通过速度调整提升片段内保真度。该方法仅通过轻量级LoRA微调,在短时和长时动画设置下均超越现有最优方案,在10秒和90秒动画上均取得了显著的指标提升。