CocoaBench 基准测试针对统一数字智能体发布,通过人工设计的长程任务评估其灵活组合视觉、搜索与编程能力的实战表现。该基准采用自动评估函数确保跨架构评测的可靠性,同步推出的 CocoaAgent 提供轻量级脚手架以实现模型间的公平对比。测试结果显示,当前最优系统成功率仅为 45.1%,表明现有智能体在推理规划、工具使用及视觉定位等关键环节仍有显著提升空间。
CocoaBench 基准测试针对统一数字智能体发布,通过人工设计的长程任务评估其灵活组合视觉、搜索与编程能力的实战表现。该基准采用自动评估函数确保跨架构评测的可靠性,同步推出的 CocoaAgent 提供轻量级脚手架以实现模型间的公平对比。测试结果显示,当前最优系统成功率仅为 45.1%,表明现有智能体在推理规划、工具使用及视觉定位等关键环节仍有显著提升空间。
研究团队利用物理模拟器生成随机场景与合成问答数据,通过强化学习训练大语言模型,使其掌握物理推理能力。该方法实现了零样本从模拟到现实的迁移,仅在合成数据上训练即可让模型在国际物理奥林匹克(IPhO)问题上提升 5-10 个百分点的准确率。这一突破证明物理模拟器可作为可扩展的数据来源,帮助模型超越互联网问答数据的限制,获得深度物理推理技能。
研究团队提出连续对抗流模型,通过引入学习判别器替代固定的均方误差准则,对现有 flow matching 模型进行后训练优化。在 ImageNet 256px 生成任务中,该方法将 latent-space SiT 的无引导 FID 从 8.26 降至 3.63,pixel-space JiT 从 7.17 降至 3.57;有引导生成下 SiT 的 FID 从 2.06 优化至 1.53。该方法在文生图任务的 GenEval 和 DPG 基准测试上也取得显著性能提升。
SWE-AGILE框架通过动态推理上下文策略解决了多轮软件工程任务中扩展思维链面临的上下文爆炸与重复推理困境。该框架采用"滑动窗口"机制保持近期详细推理以确保连续性,同时将历史推理压缩为精简的Reasoning Digests。实验表明,该方法在SWE-Bench-Verified基准上为7B-8B参数模型创下新纪录,仅使用2.2k条轨迹和896个任务即达到当前最佳性能。
本文提出PersonalAI,一种基于知识图谱的灵活外部记忆框架,由LLM自动构建和更新。该框架在AriGraph基础上引入混合图设计,支持标准边与两种超边,实现丰富的语义和时间表示。系统集成A*、WaterCircles遍历、束搜索等多种检索机制,在TriviaQA、HotpotQA及扩展版DiaASQ基准测试中验证表明:不同任务需配置不同记忆与检索策略。研究还扩展DiaASQ数据集,添加时间注释和矛盾陈述,证明系统在时间依赖管理和上下文感知推理中的鲁棒性。
PokeRL 是基于 PyBoy 的模块化深度强化学习系统,用于训练智能体完成《宝可梦 红》早期任务(离开房屋、探索真新镇、首次宿敌战)。针对 PPO 智能体易陷入动作循环、菜单垃圾信息及无目的漫游等训练脆弱性问题,该系统引入循环感知环境包装器(含地图掩码)、多层反循环与反垃圾机制及密集分层奖励设计。研究指出,这种明确建模失败模式的实用系统,是连接玩具级基准与完整宝可梦联盟冠军智能体的必要中间步骤。
从 Langevin 视角重新思考扩散模型,为理解反向过程如何从纯噪声生成数据提供了更简洁直观的解释。该框架统一了基于 ODE 和 SDE 的扩散模型,阐明了扩散模型在理论上优于普通 VAE 的原因,并证明流匹配在最大似然估计下与去噪和分数匹配本质等价。这一视角弥合了现有扩散模型不同解释之间的鸿沟,展示了各类形式化方法如何在统一框架下相互转化,为初学者和资深研究者提供了更清晰的教学价值和理论直觉。
针对大语言模型推理对齐中同策略蒸馏(OPD)均匀监督导致信号质量被忽视的问题,研究者提出信号校准的双路径框架 SCOPE。该方法将 on-policy rollout 按正确性分流处理:对错误轨迹采用教师困惑度加权的 KL 蒸馏以优先利用可靠纠正信号,对正确轨迹采用学生困惑度加权的 MLE 以强化能力边界处的低置信度样本,并通过组级归一化自适应校准权重分布。在六项推理基准上的实验显示,SCOPE 较竞争基线平均提升 Avg@32 达 11.42%、Pass@32 达 7.30%。
研究团队发布 SciPredict 基准测试,涵盖物理学、生物学和化学 33 个子领域的 405 项实验预测任务。评估显示,主流 LLM 预测准确率仅为 14-26%,虽略高于人类专家的 20%,但远未达到可靠指导实验的标准。更关键的是,模型无法校准预测置信度,无论自信与否,准确率均维持在 20% 左右;而人类专家在认为可预测时的准确率可从 5% 提升至 80%。研究表明,实现超人类科研能力不仅需要提升预测精度,更需建立对预测可靠性的准确认知。
研究团队提出自动化多智能体框架,将数据谱系概念引入 LLM 领域以重建数据集演化图谱。大规模分析揭示了数学数据集的垂直细化与通用语料的水平聚合模式,同时发现隐式交集导致的结构冗余及基准污染沿谱系传播等系统性问题。基于该框架,团队构建出谱系感知多样性数据集,通过在上游根源头锚定指令采样缓解下游同质化与隐藏冗余,为大规模数据生态提供了比样本级比较更高效的拓扑分析方案。
本文提出EEG-tGAT模型,针对affordance分类任务对GATv2进行时间增强。通过引入时间注意力机制动态调节不同时间段贡献,并采用时间dropout正则化时序相关观测,以应对affordance数据中判别信息时间分布不均的特点。实验结果表明,相比GATv2,该模型在affordance数据集上实现了更优的分类性能,证明显式编码时间重要性和增强时间鲁棒性能够更好对齐affordance驱动交互数据的结构特性。
视觉语言模型虽擅长复杂推理,却在简单物体计数上频繁失败。研究发布COUNTINGTRICKS评估套件,通过注意力分析与分层探测发现,计数相关的视觉证据在模态投影阶段最强,但在后续语言层显著退化,导致模型过度依赖文本先验。基于此,团队提出轻量级干预方法Modality Attention Share (MAS),强制在答案生成阶段保持最低视觉注意力预算。研究表明,VLMs的计数失败不仅源于视觉感知局限,更因语言推理阶段对视觉证据的利用不足。
Transformer 架构中的 Attention Sink(AS)现象导致注意力过度集中于少量无信息 token,损害模型可解释性、干扰训练推理动态并加剧幻觉。该综述首次系统整合 AS 相关研究,从基础利用、机制解释与策略缓解三个维度梳理领域现状,澄清关键概念并追踪演进趋势,为研究者和从业者提供管理 AS 的参考框架,相关论文列表已开源至 GitHub。
视频扩散模型在生成多事件视频时存在时序控制不足和语义纠缠问题。Prompt Relay 是一种推理时即插即用的解决方法,无需修改模型架构或增加计算开销。该技术通过在交叉注意力机制中引入惩罚项,强制各时间段仅关注对应提示,使模型逐次呈现单一语义概念。该方法显著改善时间提示对齐,减少概念干扰,提升生成视频的视觉质量和叙事连贯性。
研究团队提出零样本视觉世界模型(ZWM),基于稀疏时间分解预测器、近似因果推理和推理组合三大原则,仅从单个儿童的第一人称经验中学习,即可快速掌握深度、运动、物体连贯性等多项物理理解能力。该模型在多个基准测试中展现出数据高效性,不仅重现了儿童发展的行为特征,还构建了类脑内部表征,为开发类人数据效率的AI系统提供了新路径。
研究人员提出模型调度策略以降低掩码扩散语言模型(MDLMs)的采样成本。该方法在特定去噪步骤用小规模模型替代完整大模型,基于早期和晚期步骤对模型替换更鲁棒的发现,在OpenWebText和LM1B数据集上实现FLOPs减少17%,仅带来生成困惑度的轻微下降,同时保持样本多样性。通过损失函数与KL散度的步骤重要性分析证实,扩散轨迹中段对模型替换最为敏感。这一架构无关的调度方法可在基本保持生成质量的前提下显著加速MDLM采样。
本研究对81个开源仓库的4,550个代理拉取请求进行实证分析,发现AI编程代理在58.4%的仓库中比人类更少修改日志,但修改时日志密度更高。研究表明,明确的日志指令极为罕见(4.7%)且效果有限,代理对建设性请求的违规率达67%。此外,人类开发者承担了72.5%的生成后日志修复工作。这些发现揭示了自然语言指令在规范日志实践上的双重失效,建议采用确定性护栏以确保日志质量。
针对大语言模型评估中词法方法僵化、与人类判断相关性差及LLM评判者计算成本高的问题,本文提出BERT-as-a-Judge方案。基于36个模型和15个任务的大规模实证研究,该编码器驱动方法仅需在合成数据上轻量训练,即可对基于参考的生成答案进行语义正确性评估,且对措辞变化具有鲁棒性。实验表明,该方法性能与大型LLM评判者相当,显著优于词法基线,在准确性与计算效率间实现了良好平衡。
针对现有SVG生成方法采用字节级分词破坏几何结构、导致坐标幻觉和序列冗余的问题,本文提出HiVG层次化分词框架。该方法将SVG字符串分解为结构化原子token,并压缩命令-参数组为几何约束的段token,同时引入Hierarchical Mean-Noise初始化策略注入数值先验,结合课程训练逐步提升程序复杂度。实验表明,HiVG在文本到SVG和图像到SVG任务中显著提升了生成保真度、空间一致性和序列效率。
本文提出首个面向3D具身智能体的推理时视觉对比解码框架3D-VCD,用于缓解多模态大模型在三维环境中的幻觉问题。该方法通过对物体类别、空间坐标及几何范围施加语义与几何扰动构建扭曲的3D场景图,通过对比原始与扭曲场景的预测差异,抑制受语言先验驱动而非场景证据支持的不可靠token。在3D-POPE和HEAL基准测试中,该方法无需重新训练即显著提升了具身智能体的基础推理能力。
研究者提出隐性课程假设,指出预训练遵循可组合且可预测的课程结构。通过设计涵盖检索、形态转换、逻辑推理和数学等领域的组合任务,对410M至13B参数的四个模型家族进行追踪,发现技能涌现顺序跨模型高度一致(ρ=.81),且复合任务通常在其组件任务之后出现。研究表明该结构编码于模型内部表征中,利用任务表征空间可有效预测未见过组合任务的训练轨迹(R²=.68-.84),揭示预训练过程比损失曲线显示的更具结构性。
ReconPhys 是首个可从单目视频联合重建几何、外观与物理属性的前馈框架。该方法采用双分支架构与自监督训练策略,无需真实物理标签即可实现端到端推理。在合成数据集测试中,其未来预测 PSNR 达到 21.64,显著优于现有优化基线的 13.27;Chamfer Distance 从 0.349 降至 0.004。关键突破在于推理速度:仅需不到 1 秒即可完成重建,而传统方法需耗时数小时,为机器人与图形学领域快速生成仿真就绪资产提供了新方案。
针对大语言模型后训练必须使用新鲜 on-policy 数据的传统观点,研究系统探讨了经验回放技术的应用。通过形式化分析 replay buffer 设计在数据陈旧性方差、样本多样性与生成计算成本间的权衡,发现当生成成本高昂时,严格的 on-policy 采样实为次优选择。实证表明,设计良好的 replay buffer 可在保持策略熵的同时,大幅减少推理计算,且不损害甚至提升最终模型性能。
研究团队发布 ATANT 开源评估框架,用于衡量 AI 系统跨时间保持上下文连续性的能力。框架定义了连续性的 7 项必要属性,采用无 LLM 参与的 10 检查点方法,包含 250 个故事和 1,835 个验证问题。评估显示,参考实现从遗留架构的 58% 提升至隔离模式 100%,250 故事累积模式下达 96%。该框架系统无关、模型独立,可验证 AI 在多叙事共存时避免交叉污染的能力。
研究团队发布MedConclusion基准数据集,包含570万PubMed结构化摘要,用于测试大语言模型从结构化生物医学证据中推断科学结论的能力。该数据集将摘要非结论部分与作者撰写的结论配对,提供自然监督信号,并包含期刊类别、SJR等元数据支持子群分析。初步评估显示,结论写作与摘要写作行为差异显著,当前自动指标难以区分强模型表现,且LLM评判者身份会显著影响评分结果。
SuperLocalMemory V3.3("活脑")作为本地优先的Zero-LLM智能体记忆系统发布,实现完整认知记忆分类。核心创新包括:Fisher-Rao量化感知距离(FRQAD)以100%精度识别高保真嵌入;艾宾浩斯自适应遗忘曲线实现6.7倍区分力;7通道认知检索(语义、关键词、实体图、时间、扩散激活、巩固、Hopfield联想)在LoCoMo基准零LLM模式下达70.4%,多跳任务提升23.8个百分点。支持长时内隐记忆参数化与自动认知管道,纯CPU运行,月下载超5000次。
针对大模型智能体技能跨平台行为不一致与执行效率问题,研究团队提出SkVM编译与运行时系统。该系统借鉴传统编译器设计,将技能视为代码、大模型视为异构处理器,基于对11.8万个技能的能力剖析,在编译时进行能力匹配与环境绑定,运行时实施JIT代码固化与自适应重编译。实验覆盖8种大模型及3种agent harness,结果显示SkVM在提升任务完成率的同时,可降低40%的token消耗,实现最高3.2倍加速及19-50倍延迟缩减。
StateSMix是一种无需预训练、完全自包含的无损压缩器,它在线训练Mamba风格状态空间模型(SSM),并结合稀疏N-gram哈希表与算术编码。SSM提供基于BPE词元的动态概率估计,N-gram表则通过仅更新非零计数词元的机制实现精确上下文记忆。系统采用熵自适应缩放来平衡二者贡献。在enwik8基准测试中,其压缩效果优于xz -9e,其中SSM是主要压缩引擎,仅其自身就比频率计数基线减少46.6%体积,而N-gram带来额外4.1%增益。该系统由纯C语言实现,支持AVX2 SIMD并行,在普通x86-64硬件上处理速度约为每秒2000词元。
研究团队推出 SPRITE 系统,可将静态游戏UI设计稿自动转换为引擎可编辑的交互资源。该工具结合视觉语言模型(VLMs)与结构化YAML中间表示,专门解决游戏界面中不规则几何形状与深层视觉层次带来的转换难题,能精确捕获复杂容器嵌套关系。经游戏UI基准测试及专业开发者评估验证,SPRITE 显著简化了从美术设计到技术实现的流程,通过自动化繁琐编码工作支持快速引擎内迭代。
研究团队发布空间能力基准测试 SCBench,突破现有评估仅针对孤立 3D 变换或视觉问答的局限,设置三个层次化能力维度,要求模型输出可执行动作并通过确定性检查器或模拟器验证。测试显示,三款前沿模型准确率随任务难度提升而单调下降;限制输出 token 数量发现,准确率提升集中在低预算区间且快速饱和,主要失败模式为局部几何合理但违反全局约束。团队已开源任务生成器、验证器及可视化工具。
研究团队提出"屏幕图灵测试"框架,将人机交互形式化为MinMax优化问题,并发布Agent Humanization Benchmark (AHB)。基于新收集的高保真移动触摸动态数据集,发现普通LMM代理因运动学特征不自然而极易被检测。该基准量化了可模仿性与任务效用的权衡,提出的启发式噪声至数据驱动行为匹配方法,使代理在不牺牲性能的前提下实现高可模仿性,推动GUI代理从"能否完成任务"向"如何像人类一样完成"的范式转变。
研究团队发布 SPEED-Bench,旨在建立 Speculative Decoding(SD)算法的统一评估标准。该基准测试包含注重语义多样性的 Qualitative 数据分割和支持多并发场景的 Throughput 数据分割,并与 vLLM、TensorRT-LLM 等生产引擎集成。通过 SPEED-Bench 可发现合成输入会高估真实世界吞吐量,识别出与批次大小相关的最优草稿长度,揭示低多样性数据的评估偏差,并分析先进草稿模型中词汇剪枝的潜在问题。
团队发布DreamZero,首个基于世界模型骨干的World Action Model (WAM)。该模型突破传统Vision-Language-Action范式,通过像素级世界模型实现零样本开放世界提示能力,可执行未训练过的新任务。研究发现WAM依赖多样化数据而非重复演示,并以像素作为跨具身的通用桥梁,实现robot2robot和human2robot知识迁移。仅需55条轨迹(约30分钟遥操作)即可适应全新硬件,验证世界模型作为Physical AI下一代基础的可行性。
研究团队提出专为网页文档设计的 W-RAC 分块框架,将文本提取与语义分块规划解耦,以结构化 ID 寻址单元管理内容,并仅利用 LLM 执行检索感知分组决策而非文本生成。该方法在消除幻觉风险、提升系统可观测性的同时,将分块相关 LLM 成本降低一个数量级,且保持或优于传统方法的检索性能。
!!️ Representations matter for generation! But turns out our understanding of how representations help generation was wr...
字节跳动Seed团队发布扩散语言模型Seed Diffusion,采用非自回归的扩散架构替代传统GPT类模型,通过去噪扩散机制并行生成文本,突破逐token解码的速度瓶颈。该模型在保持大规模参数能力的同时显著提升推理效率,在文本生成任务中实现生成质量与计算速度的平衡,为大规模语言模型提供了自回归范式之外的高性能替代方案。
针对扭曲MoTe₂体系,研究者采用深度学习框架表达多体波函数,精准识别出整数/分数量子反常霍尔态及Z₂拓扑绝缘体。相比传统方法,该方案在计算效率与精度上显著提升,可处理更大规模系统并区分竞争相(如分数量子反常霍尔态与电荷密度波),理论预测与实验观测高度吻合。
神经正切核是一种用于解释神经网络在梯度下降训练过程中演化行为的核方法。它深入阐释了为何宽度足够的神经网络能够一致收敛至经验损失函数的全局最小值,即使在参数量远超训练样本数的过参数化情况下亦是如此。研究进一步探讨了在神经网络具有无限宽度的设定下,通过刻画神经正切核来证明其在不同初始化条件下能够确定性收敛的理论依据。