本文提出Draft-OPD,一种用于改进投机解码中草稿模型的在线策略蒸馏方法。针对现有监督微调方法(如EAGLE3、DFlash)存在的离线数据与推理状态不匹配问题,Draft-OPD采用目标模型辅助的序列展开,从验证步骤暴露的错误位置进行重放学习。这使草稿模型能从目标模型对其提议的接受和拒绝反馈中优化。实验表明,该方法对各类思考模型实现了超过5倍的无损加速,相比EAGLE-3和DFlash分别取得了23%和13%的性能提升。
本文提出Draft-OPD,一种用于改进投机解码中草稿模型的在线策略蒸馏方法。针对现有监督微调方法(如EAGLE3、DFlash)存在的离线数据与推理状态不匹配问题,Draft-OPD采用目标模型辅助的序列展开,从验证步骤暴露的错误位置进行重放学习。这使草稿模型能从目标模型对其提议的接受和拒绝反馈中优化。实验表明,该方法对各类思考模型实现了超过5倍的无损加速,相比EAGLE-3和DFlash分别取得了23%和13%的性能提升。
针对从fMRI信号解码视觉内容并回答问题的挑战,研究提出了Brain-IT-VQA框架。该框架基于Brain-IT,从大脑活动解码语言token并与大语言模型整合以回答视觉问题,性能显著超越现有方法。同时,引入了新基准NSD-VQA数据集,每张图像平均提供20个问题-答案对,涵盖20个受控问题类别,以实现更可靠和可解释的评估。Brain-IT-VQA与NSD-VQA结合,既提供了强大的预测框架,也成为研究大脑视觉表征的工具。
ESPO(Early-Stopping Proximal Policy Optimization)是一种强化学习算法,它能在生成过程中实时检测失败轨迹并提前终止,以节省计算资源。该方法通过计算代理后悔值,当平滑后的累积后悔值显著超过预期时便停止生成。被截断的轨迹被视为吸收失败状态。在针对DeepSeek-R1-Distill-Qwen-7B模型的数学推理训练中,ESPO在AIME 2024、AMC 2023和MATH-500等基准上的表现均优于PPO,并累计节省了超过20%的回滚token。
科学图表生成是论文准备中最耗时的环节之一,现有自动化系统仅支持单一图表类型和纯文本输入,且输出不可编辑。为此,研究团队提出了Crafter,一个多智能体框架,它能适配多种图表类型和输入条件,生成出版质量的图表。其配套工具CraftEditor可将生成的栅格图转换为可编辑的SVG文件。同时发布的CraftBench评测基准涵盖了三种图表类型和四种输入条件。实验显示,Crafter在PaperBanana-Bench和CraftBench上均优于独立生成器和现有智能体基线,其组件贡献也得到了验证。代码与基准已开源。
VideoMLA是首个在视频扩散模型中研究多头潜在注意力(MLA)的工作。该方法用共享的低秩内容潜在向量和解耦的3D-RoPE位置键替代传统的每头键值对,将每层每token的KV缓存内存大幅减少92.7%。研究发现,尽管语言模型中驱动MLA的频谱假设在视频注意力中并不成立(预训练视频注意力非低秩),但MLA瓶颈本身决定了有效秩,使得模型能在压缩下保持生成质量。在VBench评测中,VideoMLA在长期视频生成中取得了最佳综合分数,并在单块B200上将吞吐量提升了1.23倍。
本研究提出一种将预训练Transformer(如Stable Diffusion 3.5)线性化的方法。通过架构与表示的双重对齐,具体识别了TTT架构与Softmax注意力的结构相似性,并引入关键实例归一化等模块来对齐表示特性。仅在4xH20 GPU上进行1小时微调,所得SD3.5-T^5模型就能达到与微调Softmax模型相当的文本到图像生成质量,同时在1K和2K分辨率下分别实现1.32倍和1.47倍的推理加速。代码已开源。
研究揭示了自进化LLM智能体中两种能力的独立表现。框架更新能力与模型基础能力无关,不同层级模型产生的框架更新所带来的增益相近,如Qwen3.5-9B的更新增益与Claude Opus~4.6相当。框架增益能力与基础能力呈非单调关系:弱模型难以从更新中受益,中等模型受益最大,强模型收益反而低于中等模型。弱模型的失败模式包括无法激活相关构件,或激活后未能遵循指令。研究建议将能力预算投入任务执行智能体而非更新器。
研究表明,物理AI系统中的批量1大语言模型解码是内存主导的,但更快的内存并不带来比例性的延迟收益。通过对三款7-8B级别的GQA Transformer模型在四款NVIDIA GPU上的测量发现,例如在Qwen-2.5-7B(上下文长度2048)场景下,L4能达到其内存地板的81%,而H100仅为27%。CUDA Graphs优化在H100上将解码延迟提升1.259倍,在L4上仅为1.028倍。部署方面,常见的量化路径未能完全兑现预期的4倍权重流量削减,例如AutoAWQ+Marlin在bf16基线62.32 ms/step上优化至45.24 ms/step,而GPTQ+ExLlamaV2能达到17.36 ms/step。
本文提出 VisualThink-VLA,一个用于 VLA 策略的视觉中间推理框架,旨在解决文本思维链在具身控制中因信息干扰和解码延迟高导致的实时执行难题。该框架通过一个紧凑的视觉证据接口引导动作预测,在保留空间精度的同时避免了解码开销。其采用选择性路由机制学习视觉证据 token,以实现低延迟推理。研究引入了 VisualEvidence-Kit,其中包含一个构建了 754.7k VLA 指令集的视觉证据智能体。在多项基准和真实机器人评估中,该框架在大多数任务上成功率最高,并将推理增强基线的多秒级延迟降至亚秒级。例如,在 BridgeData V2 上,其将步骤延迟从 ECoT 的 8.377 秒降至 0.367 秒,实现了 22.8 倍的加速。
GrepSeek是一种优化的直接语料库交互搜索智能体。它将大型文本语料库视为环境,通过执行可执行的shell命令来查找和组合证据,以解决传统检索系统的局限性。为应对在大语料库上直接应用强化学习导致的不稳定问题,研究提出了两阶段训练流程:首先使用答案感知的“导师”和答案盲目的“规划器”构建冷启动数据集;然后通过组相对策略优化进行训练,使智能体能在与语料库的直接交互中改进搜索行为。此外,引入的语义保持分片并行执行引擎在确保结果字节一致的前提下,显著提升了检索速度。实验表明,GrepSeek在多个开放域问答基准测试中表现优异。
传统细胞实例分割模型在分布外细胞类型上性能下降,交互式基础模型虽能解决但逐实例提示的成本过高。本文提出Group Prompting新范式,将交互成本从逐实例优化为逐类型。其核心是Chain-of-Prompts框架,利用冻结的Segment Anything Model图像编码器在特征空间中自然形成的细胞聚类特性,仅需为每种细胞类型提供一个用户点击,即可通过识别多尺度编码器特征中的可靠同类型位置,并迭代选择空间距离最远的可靠点作为新提示,从而分割该类型所有实例。该方法无需任何训练,在多个基准上,单个点击可保持逐实例性能的90%甚至99%以上。
本文提出GDSD方法,以解决扩散大语言模型中强化学习因策略似然难处理而受限的问题。该方法从反向KL正则化强化学习的闭式最优解中导出一个优势引导的自教师模型,并直接对其去噪器进行蒸馏。GDSD通过无归一化目标匹配学生的对数几率,将强化学习转化为无似然的自蒸馏过程,从而避免了以往使用证据下界作为似然代理所导致的训练-推理不匹配偏差。在LLaDA-8B与Dream-7B模型的规划、数学及代码基准测试中,GDSD训练奖励更稳定,性能一致优于此前基于证据下界的方法,测试准确率提升最高达+19.6%。
智能搜索通过迭代推理和外部搜索使大语言模型解决复杂问题,但模型常因缺乏自我认知而导致过度搜索,引发延迟与成本。SAAS是一种强化学习框架,旨在培养动态自我感知以精准调控搜索行为。其核心包括搜索边界建模机制、边界感知奖励模块以及分阶段优化策略,通过序贯课程设计优先优化推理而非搜索正则化。实验证明,SAAS能在保持准确率的同时显著减少不必要的搜索行为。
SoundnessBench 是一个包含1,099个机器学习研究提案的基准,用于评估大语言模型(LLM)判断研究想法方法论可行性的能力。在对12个前沿LLM的测试中发现普遍存在乐观偏差:标准提示下模型常将低合理性提案误判为合理,激进提示则会将错误从假阳性转为假阴性。对照实验表明这种行为并非由单一混淆因素造成。结果表明,当前LLM尚不适合作为独立的科研严谨性初筛评估工具。
针对GUI智能体缺乏从自身错误中恢复能力的问题,本研究提出了GUI-RobustEval基准测试和RoTS轨迹合成框架。GUI-RobustEval包含1216个可执行测试用例,系统评估智能体在多种错误模式下的恢复能力。RoTS框架通过基于树的流程合成了80万条高质量数据。在此基础上训练的RoTS-7B和RoTS-32B模型,在GUI-RobustEval及传统基准上均获得显著提升。其中RoTS-32B在OSWorld上取得了47.4%的成功率和33.8%的All-Pass@4分数,表明长时程错误恢复能力的增强对鲁棒性和整体性能均有贡献。
研究构建了 SpatialUncertain 评估框架,测试多种前沿视觉语言模型 (VLMs)。在遮挡和视角歧义两种空间观察挑战下,模型平均准确率分别约为 30% 和低于 10%,并常无法识别应转向的额外视角。研究主张评估重点需从回答正确性转向模型对何时放弃作答及如何寻求可靠证据的认知。
在标准图模型下,马尔可夫边界是使目标变量条件独立于其他特征的最小特征子集。本文在包含3450个任务的合成基准SCM3K上评估发现,直接将模型限制在理论“神谕”边界特征上,通常能显著提升预测性能,且特征空间越大越稀疏时改进越明显。然而,通过因果发现算法自动恢复边界再训练的常规流程效果不佳。原因有三:现有发现算法优化结构而非预测、误报与漏报的预测代价严重不对称,以及优于全特征的特征集远不止精确边界一种。
提出OmniHuMo大规模高质量数据集,包含超过5000小时运动数据与320万序列,提供文本、语音、音乐和轨迹等多模态精准标注。基于此构建AnyMo统一多模态框架,结合Residual FSQ运动分词器与可扩展的掩码建模Transformer,支持任意模态组合下的高保真实时运动生成,并能灵活控制运动的空间与风格属性。
当前机器遗忘评估存在结构性偏差,测试“为什么”类因果知识的问题在主流基准中占比极低(不足1.3%)。为此,研究提出5WBENCH基准,其包含5,000个样本,均匀覆盖“5W”类别,使因果遗忘失败首次变得可量化。分析表明,现有方法无法在“为什么”类问题上同时实现高遗忘与高保留,因为这类问题涉及多跳推理链(44%)和超过40个token的答案跨度。研究提出MAAT框架,该方法在LoRA适配器权重上进行三阶段操作,结合梯度投影上升、SVD秩维剪枝、任务向量取反和混合KL-隐藏状态保留修复,是首个在因果知识上实现高遗忘与高保留平衡的方法。
SANA-Streaming是一个为消费级GPU设计的高分辨率实时流式视频到视频编辑框架。其核心包含三点:采用混合Diffusion Transformer架构,结合softmax注意力与线性层效率;引入Cycle-Reverse Regularization训练策略,通过从生成内容预测源帧提升时序一致性;以及结合针对NVIDIA Blackwell(RTX 5090)优化的融合GDN内核与混合精度量化(MPQ)实现的高效系统协同设计。该系统在单张RTX 5090上可实现1280x704分辨率、端到端24FPS的实时编辑,其DiT核心可达58FPS。实验表明,其在时序连贯性和系统吞吐量上显著优于现有SOTA方法。
OpenSkillEval是一个用于评估LLM智能体技能的自动评估框架。它不依赖静态基准,而是从演示生成、网页设计等五类应用的动态工件中自动构建超过600个任务实例,并收集了30个开源技能进行对比评估。研究发现,技能可用并不等同于有效使用,其增益高度依赖具体模型与智能体框架,许多流行的开源技能并未持续优于无技能的基础智能体。这强调了进行动态、任务导向评估的必要性。 (https://yingjiahao14.github.io/OpenSkillEval-Web/)
该研究引入LongDS基准,评估AI智能体在长期、多轮数据分析任务中维护动态分析状态的能力。该基准包含68个源自真实Kaggle笔记本的任务,覆盖6个领域,共计2225轮次,任务设计围绕状态演化模式(如反事实扰动、回滚)。对五个前沿模型的评估显示,最佳模型的平均准确率仅为48.45%,其性能从早期轮次到晚期轮次下降近47个百分点,且长期错误是主要失败原因,占比52%-69%。研究指出,单纯增加智能体的交互步骤并不能有效提升性能,关键瓶颈在于正确维护随时间演变的分析状态。
大语言模型在通用任务上表现强劲,但在适应专业领域时往往缺乏高质量领域数据。现有方法依赖人工设计的工作流,本研究正式提出“自主智能体数据工程”这一新任务,旨在评估LLM作为自主数据工程师执行端到端数据整理流程以实现模型专化的能力。实验表明,GPT-5.2作为自主数据工程师,通过智能体驱动的迭代数据适配,构建训练课程使学生模型性能提升57.29%。研究将自主数据工程确立为一种可量化的能力,为智能体驱动的模型专化指明了路径,代码将于 https://github.com/zjunlp/DataAgent 发布。
该研究主张视觉语言模型(VLM)是原生的3D学习者。通过大规模研究发现,实现有效3D学习仅需三个核心要素:统一焦距、基于文本的像素参考以及数据混合与缩放。传统的模型架构改变、超大模型、复杂数据增强和损失函数(包括回归公式)并非必要条件。基于此,研究提出了VLM3方法,以最简设计使标准VLM掌握多样3D任务。VLM3将VLM的深度估计精度从0.84大幅提升至0.9,并实现了像素对应、相机位姿估计和物体级3D理解等任务,其精度匹配专家视觉模型,同时保持标准架构和文本训练方式。
一项针对1260名定量社会科学家的调查显示,虽然81%的受访者用过AI聊天机器人,但仅有20%将Claude Code、Codex等编码智能体常规应用于工作。采用率存在显著差异:以男性名字命名的研究者使用率是女性研究者的两倍;顶尖大学研究者可能性高出40%。用户产出更多工作论文和基金申请,但这可能反映早期采用者自身差异。研究者对AI助力撰写可发表论文更乐观,但对重塑整个社会科学领域持保留态度。这是一项初步调查,更深入研究仍在进行中。
Meta 推出SilverTorch推荐系统架构,统一了用户生成内容的所有检索组件。该架构吞吐量比现有技术高23.7倍,计算成本效率比CPU方案高20.9倍,同时提升了准确性。
这项研究提出了AgingBench,一个用于纵向评估AI智能体可靠性的基准。它将智能体老化归纳为四种机制,包括压缩老化和干扰老化,旨在衡量部署后的智能体是退化以及退化形式。研究指出,即使冻结模型权重,智能体的有效状态也会因压缩交互历史、检索记忆库、事实更新等操作而不断变化,其可靠性是整个运行系统的寿命属性,而非基础模型的快照。基准测试在智能体部署第一天进行,然后持续数月。
Google Research 推出了一种新的隐私分析解决方案。该方案结合了一种新的密码学安全聚合协议与可信执行环境(TEE)的透明性,旨在实现前沿的隐私与安全保证。其核心是基于零信任原则,通过密码学与硬件保护的结合,确保系统仅能获取群体的匿名化聚合洞察。
Qwen3.5在TokenSpeed推理引擎上,针对智能体工作负载达到了创纪录的580 tokens per second (tps)速度。这一成果由通义千问推理团队、lightseekorg Foundation TokenSpeed团队、NVIDIA及Mooncake团队共同实现,并采用了tri_dao的FlashAttention-4 (FA4) 优化。此里程碑标志着开源大语言模型推理性能的边界得到了推动,相关详情可查阅PyTorch社区博客。
The speed-of-light optimization for Qwen3.5 on the TokenSpeed inference engine is a significant milestone, achieving a r...
QUACK 是一个开源评估框架,用于审计多模态社交推理智能体的语言基础性。它从游戏结果、行为轨迹和陈述一致性三个层面评估智能体。其核心的陈述验证管道能从日志中重建轨迹并逐条核查陈述,自动标记空间幻觉、无依据指控等问题。实验评估了三个前沿视觉语言模型,结果显示即使最强的智能体,其15.1%的可验证空间主张也存在幻觉,且超过半数的指控缺乏证据支持。该项目的完整组件已在 GitHub 开源。
本文提出JLT,一个基于冻结FLUX.2 VAE编码的130M参数潜在扩散Transformer。研究对比了清洁潜在预测与速度预测DiT在相同表示与训练设置下的表现。分析表明,速度回归继承了各向同性目标协方差下限并放大低方差方向,而清洁预测则能抑制这些方向。在ImageNet 256x256上,JLT-B/1通过classifier-free guidance获得2.50的FID-50K分数,相比速度预测展现出显著优势。研究指出,潜在扩散中的预测目标是与表示相关的几何选择,而非可互换的代数参数化。
研究将人类烹饪艺术数据压缩至仅2兆字节。该成果已发布于arxiv.org,论文编号为2605.22391。
腾讯HY实验室与四家机构发布了专门测试AI对中国古文字识别能力的基准Chronicles-OCR,包含2800张专家标注图像,覆盖甲骨文、金文等七大类。测试显示,28个前沿多模态模型集体表现不佳:VLLM在甲骨文上准确率仅14%,GPT-5与Gemini 2.5 Pro得分近零。值得注意的是,开启推理模式反而损害性能,因模型实为识别龟壳、青铜器等载体(准确率96.7%),而非真正识别字符本身。
The best VLLM scores only 14% on oracle bone script recognition. Chronicles-OCR, a new ancient Chinese character benchma...
MiniMax 在开源 M2 模型半年后,系统性发布了其背后所有工作的论文,详细阐述了设计思路、训练细节与系统架构。此前,其开源系统 CISPO、Forge RL System 和 Self-Evolution 已被社区广泛采用,且多版模型发布后曾登顶 HuggingFace 排行榜。与此同时,MiniMax 官方宣布已为下一代模型 M3 做好准备,并且 MSA 论文也即将发布。
Recently, we took time to consolidate all of the work behind M2 and published it here: our M2 paper on arXiv It's been j...
Google DeepMind推出Gemini Embedding 2,这是一款原生多模态嵌入模型,支持在统一表示空间中嵌入视频、音频、图像和文本。该模型利用Gemini的多模态能力,通过大规模对比学习实现SOTA性能。在关键基准上表现优异:MSCOCO取得62.9 R@1,Vatex取得68.8 NDCG@10,MTEB multilingual达到69.9,MTEB Code达到84.0,超越了专用模型。其统一能力使其适用于RAG、推荐与搜索等下游任务,并在天文学、生物科学、艺术和烹饪等专业领域展现出强大的零样本性能。
现有大语言模型智能体在理想化基准测试中表现良好,但在具有固有随机性和缺陷的真实环境中部署时,性能常会下降。研究提出了NoisyAgent训练框架,旨在缩小这一差距。该框架通过模拟真实场景中的“用户噪声”(交互的歧义性)和“工具噪声”(工具执行失败)两类噪声源来增强智能体。训练过程中,噪声被策略性地施加于部分训练轮次,并随着模型适应而逐步增加难度。实验表明,该方法在噪声和动态环境中持续提升了智能体的鲁棒性,且在理想化基准测试上也获得了性能增益,证明了建模交互缺陷对于弥合训练与现实部署差距的重要性。
VitaBench 2.0是一个专注于评估大语言模型智能体在长期、碎片化用户交互中表现的基准。其任务按时间顺序组织,要求模型从异构交互中持续提取并更新用户偏好。基准通过设计需要主动向用户或环境获取缺失信息的任务来评估智能体的主动性,并提供了可扩展的内存接口。对前沿模型的评测显示,即使最先进的模型在现实个性化任务上仍面临重大挑战。分析揭示了当前智能体在实际个性化决策中的失败模式与能力瓶颈。
为解决大语言模型并行测试时缩放(TTS)中各分支信息隔离导致的重复探索问题,研究提出了协作并行思考(CPT)框架。该框架无需训练,可在推理时跨并行分支共享中间发现:它从各分支提取紧凑信息,维护一个去重的查询级信息池,并通过输入上下文广播信息,使后续分支能复用已有发现。在 HMMT 和 AIME 基准上的实验表明,CPT 在不同预算和模型规模下,均比强基线方法建立了更好的准确率-延迟帕累托前沿,验证了搜索时协作是实现高效并行 TTS 的有效方向。
英伟达发布图像生成技术 PiD(Pixel Diffusion Decoder),能在消费级 RTX 5090 显卡上,以 13GB 峰值显存,将 512×512 图像潜变量解码放大至 2048×2048。该技术基于 PixelDiT,通过轻量级适配器与 DMD2 蒸馏(4 步推理)实现高速端到端生成,在 GB200 GPU 上最快 210ms,延迟相比级联方案最多快 5.9 倍。
新加坡国立大学、麻省理工学院及A*STAR的研究团队提出了MEMO框架。该框架可以将新的语料库知识编码到一个独立的、可训练的MEMORY模型中,从而让大语言模型获得新知识,而无需修改其原始参数。