EMMA是一个物理信息多模态框架,能从原始视频、音频和图像时间序列中直接恢复系统所有可识别的动力学参数。它利用Liquid Time-Constant网络从异质模态学习潜在动力学,并通过物理约束损失确保与微分方程一致。在超过100个场景(包括五个标准动力学基准、75段Delfys视频、真实世界轮式机器人和四旋翼系统)中,EMMA实现了稳健的多参数恢复,显著优于现有单模态和方程发现基线。代码与数据已开源。
EMMA是一个物理信息多模态框架,能从原始视频、音频和图像时间序列中直接恢复系统所有可识别的动力学参数。它利用Liquid Time-Constant网络从异质模态学习潜在动力学,并通过物理约束损失确保与微分方程一致。在超过100个场景(包括五个标准动力学基准、75段Delfys视频、真实世界轮式机器人和四旋翼系统)中,EMMA实现了稳健的多参数恢复,显著优于现有单模态和方程发现基线。代码与数据已开源。
现有LLM智能体评估工具局限于基本观测能力或静态错误分类。Agentic CLEAR是一个自动、动态、易用的评估框架,它在系统、轨迹和节点三个粒度层级上,对智能体行为生成文本洞察。该框架运行于可观测性层之上,具备直观UI便于集成。在四个基准、七种智能体设置和数万次LLM调用上的实验表明,Agentic CLEAR能产生高质量、数据驱动的反馈,其分析与人类标注错误高度吻合,并能预测任务成功率。
研究比较了按时间顺序排列数据与传统打乱数据两种预训练方式,针对一个在6B参数模型上训练的实验。研究引入了包含超过7000个时间锚定问题的新基准。结果发现,时间有序预训练的模型在通用语言能力上与打乱预训练基线持平,但其知识更及时、时间定位更准确;打乱预训练则在旧数据上表现达到峰值。代码、模型检查点和数据集已开源。
在强化学习中,多时间尺度PPO虽旨在平衡短期与长期规划,但在复杂延迟奖励任务中盲目融合多时间信号会导致严重的算法问题。研究发现,将时间注意力路由机制暴露于策略梯度会导致替代目标劫持,而无梯度不确定性加权则会引发不可逆的短视退化。为此,研究提出Target Decoupling架构:Critic侧保留多时间尺度预测以辅助表征学习,Actor侧则严格隔离短期信号并仅基于长期优势更新策略。在LunarLander-v2环境中的实验证明,该架构无需超参数调整即可稳定超越解决阈值,消除策略崩溃并跳出局部最优。实验代码已开源:https://github.com/ben-dlwlrma/Representation-Over-Routing。
当前视觉语言模型常出现“功能性失明”,即利用强大的语言先验绕过视觉表征瓶颈,而非真正融合多模态信息。本研究挑战了依赖数据消融的传统评估方法,提出了信息论框架下的“模态翻译协议”来量化“感知的代价”。该方法定义了三个新指标(Toll, Curse, Fallacy)与语义充分性准则。研究还假设存在多模态缩放的“分歧定律”:随着语言模型推理能力增强,视觉知识瓶颈带来的性能惩罚可能不降反升。这为构建更可信的多模态推理系统提供了新的评估工具与设计思路。
该研究解决了在三角网格上生成信号时需适应不同网格与三角剖分的问题。理论上,本文提出了一种数学上定义的、与三角剖分无关的噪声分布——Matérn高斯随机场的离散化,作为流匹配框架中的噪声模型。方法上,采用梯度域学习的PoissonNet作为去噪器。实验任务包括生成弹性静止状态与类人姿态。结果表明,该方法能处理超过百万三角形的高精度网格,其生成结果在真实感与多样性上显著超越现有技术。
全能模态大语言模型在处理交织的视频与音频token时,固定比例的剪枝方法无法适应跨模态重要性随网络深度的动态变化。为此,本文提出无需训练的阶段自适应token选择方法SEATS。该方法在模型输入前通过注意力加权进行去冗余,在模型内部逐层动态分配模态保留配额,并在跨模态融合完成后移除所有剩余非文本token。实验在Qwen2.5-Omni和Qwen3-Omni模型上验证,仅保留10%的视觉和音频token,即可实现9.3倍FLOPs削减与4.8倍预填充加速,同时保持96.3%的原始性能。
该研究提出了一种基于大语言模型的通用文本优化系统,将优化问题统一表述为通过评分函数改进文本产物。在六项任务中达到最优结果:智能体架构使Gemini Flash在ARC-AGI上的准确率从32.5%提升至89.5%;调度算法降低40%云成本;87%的CUDA内核匹配或超越PyTorch表现;圆包装问题超越AlphaEvolve。实验表明,可操作的附加信息比仅使用分数反馈收敛更快、得分更高;多任务搜索通过跨任务迁移学习,在同等预算下优于独立优化,且任务数量越多收益越大。该工作首次证明基于LLM的文本优化是通用问题解决范式,能统一传统领域特定算法。系统已开源,支持多种后端。
本文介绍了PixVerve-95K,一个高质量、开源的超高清(UHR)文生图数据集,包含95K张图像(每张至少100M像素)及七维注释。基于此,研究团队探索了三种训练方案,成功将现有文生图基础模型扩展至原生100MP图像生成。同时,提出了PixVerve-Bench评估基准,全面评估UHR图像的视觉质量与语义对齐。实验与探索为该领域的未来突破提供了关键见解与实用策略。
该研究发现,使用相同预训练编码器、数据和损失函数微调的作者归属模型,仅因评分机制不同,性能差异可达四倍。研究利用机械可解释性工具揭示了这一差距的来源:词长、标点密度、功能词频率等风格特征在所有模型的每一层中均等可得,因此差距并非源于表征质量差异。因果介入实验表明,评分器决定了编码器在哪个层次整合作者身份信号——均值池化迫使信号在早期至中期层整合,而晚期交互则将其推迟到更晚的层。这一差异源于各评分器的梯度结构不同。
AutoResearchClaw是一种旨在突破现有系统线性流程局限的多智能体自主研究系统。其核心在于五大机制:结构化多智能体辩论用于假设生成与分析;具备自修复能力的执行器可将失败转化为信息;可验证的结果报告防止数据伪造与引用幻觉;提供从全自动到逐步监督的七种人机协作模式;以及能将过往经验转化为未来保障的跨运行进化能力。实验表明,该系统性能显著优于基线模型,且精准、定向的人机协作模式始终优于完全自主或穷举式监督。它被定位为一种增强而非取代人类科研判断力的研究放大器。
OpenComputer是一个验证器基础框架,旨在为计算机使用智能体构建可验证的软件世界。它集成了四个核心组件:针对特定应用的状态验证器、利用执行反馈进行自我优化的验证层、用于生成真实桌面任务的任务生成器,以及可记录轨迹并计算部分奖励的评估工具。目前,该框架已覆盖33款桌面应用,生成了包含浏览器、办公、创意等六类软件的1000个可机检任务。实验表明,其硬编码验证器比大语言模型评估更贴近人类判断。同时,研究揭示当前前沿智能体在端到端任务完成上仍面临瓶颈,表明稳健的计算机自动化仍存在挑战。
提示词设计仍需大量人力且对格式高度敏感。现有自动化方法受限于候选搜索或固定流程,难以系统性地捕捉错误模式。文章提出反思式提示词微调(RPT)框架,通过LLM函数调用模拟人类工程师工作流:LLM优化器调用诊断函数评估目标模型,总结重复性失败模式并返回结构化报告;优化器依据该报告及历史记忆修订提示词进行下一轮迭代。框架支持置信度感知优化。实验显示,在三个推理任务上RPT最高提升12.9分,与当前最佳方法持平,并改善了置信度校准。分析表明其对多跳与数学推理任务尤为有效,能生成针对性修订。
ZeroUnlearn 提出一种将机器遗忘重新定义为通过模型编辑进行精确知识重映射的方法。该框架以少样本方式运行,通过乘法参数更新与闭合解强制表示正交性,将敏感输入覆盖并映射到中立目标状态,从而高效定向地移除其原始表示。此方法还扩展为基于梯度的多样本遗忘变体。实验表明,ZeroUnlearn 在保持模型通用效用的同时,性能优于现有基线。
当前离散自回归文本到图像模型的后训练通常只优化策略网络而固定VQ解码器,导致潜在协变量偏移,使奖励提升但图像质量下降。为此,本文提出首个端到端后训练框架RankE,通过交替优化策略与解码器实现协同进化。在LlamaGen-XL(775M)上,标准RL仅提升CLIP但恶化FID,而RankE同时改善两者(MS-COCO 30K上FID 15.21, CLIP 33.76)。在Janus-Pro(1B)上验证了其稳定转化奖励为图像质量的能力。
扩散模型的主流架构Diffusion Transformers (DiTs)沿用了原始Transformer的残差连接。本文通过系统性分析发现,这种传统残差加法在模型深度和去噪时间步的联合维度上存在信息幅度膨胀、梯度衰减和冗余等问题。为此,研究者提出了即插即用的扩散自适应路由(DAR)作为替代方案,它通过可学习的机制对子层输出历史进行时间步自适应的聚合。在ImageNet 256×256实验中,DAR将SiT-XL/2的FID分数从9.67提升至7.56,并减少了达到基线收敛质量所需的训练迭代。该方法还可与REPA等兼容以加速训练,并应用于文生图模型的微调。
自回归视频扩散模型在实时视频生成与世界建模中潜力巨大,但其高昂的推理成本亟待量化技术来缓解。研究发现,现有量化方法直接应用效果欠佳,主要面临两大挑战:一是自回归生成中的误差累积导致帧间量化敏感性严重失衡;二是权重中存在显著且模式多样的异常值通道。为此,本文提出Q-ARVD量化框架,通过引入质量感知的帧加权机制来平衡帧间差异,并设计异常值感知的自适应双尺度量化方法以隔离和保护正常通道。大量实验验证了该框架在提升量化模型性能上的显著优势。
研究发现,优化器是影响模型表示能力的一个关键维度,挑战了其作为固定训练细节的传统观点。通过对前馈网络表示的特征谱进行分析,研究发现相同Transformer架构在不同优化器下呈现显著不同的频谱缩放规律。在固定设置下,AdamW在学习难度较大的稀有词元表示上仅表现出弱谱秩缩放,而Muon实现了接近线性的缩放,其缩放指数提高了2.3倍。重要的是,这种差异无法仅由验证损失解释,即使损失匹配,表示结构也可能截然不同。研究表明,优化器带来的影响往往超过架构干预,倡导将优化器与架构进行协同设计。
本研究推出了SCICONVBENCH,这是一个用于评估大语言模型在计算科学任务构型阶段进行多轮澄清能力的基准测试。它覆盖流体力学、固体力学、材料科学与偏微分方程四个领域,重点考察模型获取缺失信息(消歧)与识别纠正内部矛盾请求(一致性解决)的能力。研究采用结构化任务本体与量规评估框架,系统测量了模型的澄清行为、对话依托与最终规格保真度。结果表明,前沿模型在一致性解决上表现较好,但在流体力学消歧任务中最佳模型仅解决了52.7%的问题,且模型常进行未基于对话的隐式假设与规格修复。
WavFlow挑战了音频生成依赖潜空间压缩的范式,提出了一种直接在原始波形空间生成高保真音频的框架。为解决高维信号建模难题,方法将音频重塑为二维令牌网格并引入幅度提升,结合流匹配的直接预测实现稳定优化。通过自动化管线构建500万高质量三元组数据集,模型从零学习细粒度声学特征。实验显示,WavFlow在视频到音频(VGGSound)和文本到音频(AudioCaps)基准上达到与主流潜空间方法相当甚至更优的性能,证明了中间压缩并非必要,为多模态音频生成提供了更简洁可扩展的路径。
深度学习中,神经网络结构具有对称性,而主流优化器按坐标独立更新,两者存在不匹配。本研究提出对称兼容原则,要求优化器的梯度更新规则在相应参数块的对称群作用下保持等变性。基于此,研究为通用矩阵层提供了统一视角,并推导了适用于嵌入层、LM头、SwiGLU MLP投影矩阵及MoE路由器等不同对称性参数块的专用优化器,形成端到端的逐层优化器栈。实验表明,在稠密与稀疏MoE模型的预训练中,对称兼容更新相比AdamW一致提升了验证损失,并增强了训练稳定性。
推文聚焦于一篇探讨AI代理(Agent)开发框架的百页报告,其核心主张是“代码作为代理框架”具有重要潜力。报告总结了相关方法与应用,并论证该路径可能推动更广泛的科学框架工程。论文进一步提出,未来的智能系统必须具备四项关键特性:可执行、可检查、有状态以及受控。报告旨在为构建有效AI代理提供参考,并推荐相关学习资源。
本研究针对扩散模型去除预训练阶段不安全内容时面临的监督数据昂贵及离线方法易导致灾难性遗忘等问题,提出了SafeDiffusion-R1在线强化学习框架。该框架采用组相对策略优化算法,在正负文本提示上进行后训练,无需依赖配对监督数据。其核心在于引入了一种奖励引导机制,直接利用CLIP嵌入特性,在嵌入空间中引导文本表征向安全方向优化,从而无需微调专门的安全奖励模型。实验表明,该方法将不安全内容生成比例从48.9%降至18.07%,裸体检测数大幅减少,同时提升了组合生成质量,并可泛化至多种危害类别,达到当前最优水平。
研究者提出了WorldString,一种神经架构,能够直接从点云或RGB-D视频流中学习,从而建模真实世界物体的状态流形。该架构旨在作为物理世界模型的基础构建模块,充当通用的数字孪生体。其关键特点是完全可微分,这使其能够与策略学习和神经动力学模型进行无缝集成。WorldString为当前主要通过视频生成或动态场景重建来处理物体行动状态的方法,提供了一种统一且基于原理的建模新思路。
研究指出,AI辅助科研已能以极低成本生成论文,并可自主执行多项研究任务。然而,这也暴露了严重的诚信和判断力问题,如伪造结果、忽略错误及难以评估创新性。AI在结构化、基于检索的任务中表现突出,但在提出原创思想、执行关键实验和科学判断方面仍显脆弱。研究表明,高度自动化可能掩盖问题,因此人机协同成为最可信的部署模式。研究提供了涵盖创作、写作、验证与传播全周期的分类体系、工具指南与设计原则。
现有大语言模型智能体的记忆系统多采用提取事实的范式,将对话压缩为原子事实。这会丢失原始细节,限制深度推理,且静态提示词难以适应多变的对话风格。为此,本文提出了TriMem系统,它同时维护三种表示粒度:用于保真存储的原始对话片段、用于高效检索的提取原子事实,以及聚合事实以支持深度推理的合成用户画像。系统进一步利用基于TextGrad的提示词优化技术,通过响应质量反馈迭代优化提示,无需参数更新即可实现持续进化。实验表明,其效果优于强记忆基线。
本研究发现,视觉-语言模型在视觉任务上的性能瓶颈主要源于其视觉感知能力的不足,而非推理能力。为此,研究提出将模型能力解耦为视觉感知、视觉推理和文本推理三个独立的训练阶段,并使用专门数据进行分阶段训练。实验证明,视觉感知需要针对性优化,应优先通过分阶段训练加以巩固,且使用强化学习比基于描述的监督微调更有效。该方法在多个模型上实现了持续性能提升,使模型推理准确率提高了1.5%,推理过程缩短了20.8%。在开放权重的视觉-语言模型中,该方法在WeMath和RealWorldQA等基准上取得了领先成绩,相比基础模型分别取得了5.2%和3.7%的性能提升。
针对医学图像分割中的类别不平衡问题,本研究将少样本学习中的情景采样引入全监督训练,以构建类别均衡的批次。研究在公开的SAROS数据集上,对比了情景采样、随机采样和加权采样在分割9种肌肉与脂肪组织时的表现。在低数据场景下,情景采样的平均Dice系数达到0.787,优于随机采样(0.758)和加权采样(0.762),主要原因是其训练迭代次数多出12倍。研究关键发现是,训练迭代预算本身是影响采样策略评估的重要混淆因素;情景采样能多训练约三倍的迭代次数才趋于稳定,表明类别均衡批次具有隐式正则化效应,为不平衡任务提供了一种低成本的通用策略。
Mega-ASR是一个应对真实环境噪声与失真的统一语音识别框架,旨在突破现有模型面临的声学鲁棒性瓶颈。该研究发布了新的大规模复合数据集Voices-in-the-Wild-2M,涵盖7种经典声学现象与54种符合物理规律的复合干扰场景。通过声学-语义渐进式监督微调与双粒度词错误率门控策略优化进行训练,Mega-ASR在多个基准测试中显著超越先前系统:在VOiCES测试集上词错误率从54.01%降至45.69%,在NOIZEUS上从29.34%降至21.49%。在复杂组合声学场景下,其词错误率相对强基线进一步降低超过30%,为构建稳健的实景语音识别系统确立了可扩展的技术范式。
StitchVM是一个用于扩散模型对齐的模型拼接框架。它解决了在噪声中间潜在值上评估奖励的挑战,通过将预训练的干净图像奖励模型(如CLIP ViT-L)与固定的扩散主干(如SD 3.5 Medium)轻量级地“拼接”起来。该框架的核心创新在于,使奖励模型能够直接处理噪声潜在值,从而避免了传统近似方法的计算成本或偏差问题。整个拼接与微调过程极为高效,仅需约10个GPU小时。实验表明,StitchVM显著提升了下游方法的效率,使DPS推理速度提升3.2倍、显存占用减半,并将DiffusionNFT加速2.3倍。
研究团队发布了CutVerse基准测试,用于系统评估自主GUI智能体在真实媒体后期制作环境中的能力。该基准基于专业编辑工作流,涵盖Premiere Pro、Photoshop等7款专业应用中的186项复杂长程任务。为支持规模化评估,团队开发了一个轻量级解析器,可将原始屏幕录制和底层交互日志转化为结构化的组合式GUI动作轨迹。评估结果显示,现有智能体在此类任务上的成功率仅为36.0%,凸显了复杂、长程媒体后期制作流程带来的挑战。当前模型在空间定位、多模态对齐和协同动作执行方面表现出潜力,但在长程可靠性与领域特定规划上仍存在局限。
本研究针对大型视觉语言模型在医疗应用中面临的可信度挑战,指出其视觉归因方法常未能反映模型真实依据的视觉证据。为此,团队开发了因果评估框架,筛选出归因区域对预测具有因果性的样本进行测试。通过对11种归因方法、6个模型及两种输出模式的系统评估,发现现有方法普遍存在识别失效问题。为解决此问题,提出了基于概念的归因方法MedFocus,该方法利用非平衡最优传输定位临床相关区域,并通过定向干预量化其因果效应。实验证明,MedFocus在空间、概念及词元层面均显著优于现有方法,推动了更可靠的医疗视觉归因发展。
近日,小米在 CVPR 2026 NTIRE 图像恢复与增强赛事中获得三项大奖。小米玄戒多媒体算法团队凭借自研SPANV2方法,以综合得分4.43夺得高效超分辨率赛道冠军,实现了画质与速度的均衡提升。小米大模型应用团队通过双阶段级联框架与单步扩散技术,获得人像修复赛道冠军;并在反光消除赛道通过骨干网络升级与知识蒸馏等策略获得亚军,主观评分达4.31分,多项客观指标位列第一。
Google论文提出的Nexus框架颠覆了传统时间序列预测仅依赖历史数据的模式,强调“事件上下文”的核心作用。该框架采用多智能体协作架构:分别从文本中提取事件时间线、解读宏观态势、追踪局部冲击,最终通过合成器整合信息并校准误差。在Zillow数据集测试中,基于Claude的版本将平均预测误差(MAPE)大幅降低86.6%,实现了从“识别模式”到“理解因果”的范式转变。这标志着预测方法正从统计外推转向结构化推理,为未来预测系统指明了新方向。
New Google paper: A forecast needs context, not just history. Some patterns are caused by events, not time. Nexus refram...
本研究提出了一种通过聚合模型在专家解答上的token级统计量(如熵、top-k准确率、专家token排名)来构建代理指标的方法,旨在替代传统的交叉熵损失和昂贵的下游评估。该方法在三个核心任务中表现突出:在跨架构模型选择中,其性能排名与真实下游表现高度一致;在预训练数据选择中,能以极低的计算成本可靠评估大量候选语料库;在训练过程中,能以远低于现有方法的误差进行下游准确率的长期外推预测。这表明,分析模型对专家知识的token分布是评估其能力的有效信号,能贯穿模型开发全周期,实现可靠、高效的性能预测。
本研究指出医学图像分割领域常将K折交叉验证(CV)集成误称为“深度集成”(DE),这种术语混淆影响了不确定性的正确解读。研究在三个模态数据集上对比了5折CV集成与5成员DE,发现DE在保持分割精度的同时,能提升模型校准性与故障检测能力;而CV集成则更能反映标注者间的变异性。因此,集成方法的选择应与目标匹配:追求可靠性的任务(如选择性转诊)宜用DE,对数据模糊性建模则适用CV集成。文章还提供了轻量级修改nnU-Net的方法以支持DE训练。
Stability AI 发布了名为 Stable Audio 3 的快速潜在扩散模型家族,包含小、中、大三个版本,专注于可变长度音频的生成与编辑。该模型能够生成数分钟长的音频,并支持修复功能,可对音频进行针对性编辑或续写短录音。其核心是新型语义声学自编码器,能将音频映射至紧凑潜在空间,在保证高保真度的同时鼓励语义结构形成。通过对抗性后训练,模型在加速推理、减少步骤数的同时提升了音频质量和提示词遵循度。该模型基于授权及 Creative Commons 数据训练,在 H200 GPU 上生成音频耗时不足 2 秒,在 MacBook Pro M4 上仅需数秒。目前,官方已开源可在消费级硬件运行的小型和中型模型权重及其训练推理流程。
本综述探讨了大型音频语言模型在推动通用听觉智能方面的进展与挑战。文章指出,其能力提升速度已远超可信框架的构建,通过端到端架构和连续声学信号整合,攻击面显著扩大。研究建立了涵盖跨模态越狱、潜在声学后门及生物特征隐私泄露的信任度风险分类体系,并从幻觉、鲁棒性、安全、隐私、公平与认证六个维度进行评估,揭示了成熟攻击手段与不足防御之间的严重失衡。为此,报告提出采用“纵深防御”架构、因果听觉世界建模及内在表征工程等路径,以弥合性能与可信智能间的差距。相关项目已在GitHub公开。
研究提出了ESI-Bench基准,用于评估具身空间智能。该基准基于OmniGibson平台,涵盖10个任务类别,要求智能体主动决策以调动感知、移动和操作能力,在交互中收集证据。实验表明,主动探索显著优于被动观察,但随机多视角采集常引入噪声。研究发现,模型失败主因是“动作盲目”,即不佳的动作选择导致观测质量低下并引发连锁错误。尽管显式3D表征对深度推理有稳定作用,但不完美的3D表示会扭曲空间关系,效果反而差于2D基线。人类研究进一步揭示,与人类基于证据修正信念不同,模型倾向于过早做出高置信度决策,暴露了仅靠改进感知或交互无法弥合的元认知差距。