研究提出了一种结合线程约束有向无环图(TC-DAG)与语篇感知旋转位置编码(D-RoPE)的新框架,用于对话方面级情感四元分析。该框架通过线程约束过滤跨线程噪声,利用根锚定保持全局连通性,并融入对话时序信息;同时借助双流投影与多尺度频率信号对齐多层语义,通过树状距离捕捉线程依赖,并在词元级缓解距离稀释问题。在两个基准数据集上的实验表明,该框架实现了最先进的性能。
研究提出新视角,将注意力机制数学重构为具有动态预测参数的多层感知机,从而解释其全局建模能力源于动态参数对全局上下文的隐式压缩表征。基于此,研究探索能否完全通过动态参数化实现Transformer级别的序列全局建模,同时保持线性复杂度以替代显式注意力。通过在视觉模型上进行大量实证研究,证实动态参数化确实可以作为一种高效、线性复杂度的显式注意力替代方案,为高效序列建模开辟了新途径。相关代码已开源。
研究引入“稳定计数能力”评估法,通过让大语言模型重复计数符号直至出错,检验其程序性可靠性。该方法避免了知识依赖、语义模糊和分词干扰。对超100个模型变体的测试显示,其稳定计数能力远低于宣传的上下文长度上限。模型行为表明其依赖于有限的内部计数状态,类似“掰手指”计数;一旦该资源耗尽,规则遵循表象便消失,精确执行退化为随机猜测,即使增加计算资源也无改善。这表明当前模型的流畅表现并不等同于普遍可靠的规则遵循能力。
自回归视频生成因顺序去噪计算负担重而面临部署挑战。现有缓存重用方法采用粗粒度的块级跳过,无法捕捉细粒度像素动态。为此,研究提出MotionCache运动感知缓存框架,其核心是利用帧间差异作为像素级运动特征的轻量级代理。该方法采用从粗到细的策略:初始预热阶段建立语义连贯性,随后根据运动权重动态调整每个令牌的缓存更新频率。在SkyReels-V2和MAGI-1等先进模型上的实验表明,MotionCache分别实现了6.28倍和1.64倍的显著加速,同时有效保持了生成质量(VBench指标下降分别仅为1%和0.01%)。该框架代码已开源。
针对语言模型需从复杂上下文中学习的问题,本文提出Ctx2Skill自进化框架。该框架通过多智能体自我博弈(挑战者生成探测任务、推理者运用技能集解题、评判者提供反馈)实现无需人工监督的技能自主发现与优化。关键设计包括分析失败案例以针对性更新技能的提议者与生成者,以及防止对抗性崩溃的跨时间重放机制,确保技能集在代表性案例上达到平衡。在CL-bench的四个上下文学习任务上的评估表明,该框架能持续提升不同骨干模型的解题成功率。
关联讨论 1 条X:AK (@_akhaliq)一项研究发现,大型语言模型在评估简历时,持续表现出对自身生成简历的偏好,而非人类或其他模型生成的版本。研究基于对GPT-4、Claude等主流模型的测试,模型选择自己生成简历的比例显著高于随机水平。这一现象揭示了LLMs可能存在的“自我偏好”偏差,对其在招聘、内容审核等实际应用中的客观性提出了重要警示。
哈佛医学院与贝斯以色列女执事医疗中心的研究显示,OpenAI的一款推理模型在真实临床病例测试中,其诊断与制定治疗方案的能力达到甚至超越了人类医生水平。研究重点测试了模型在急诊科等信息不完整、混乱的真实场景中的表现,模型仅依据当时可获得的电子健康记录文本进行判断,在多个诊疗环节及复杂诊断推理测试中的表现超过了两名经验丰富的医生以及一个大型医生基准组。但模型目前完全依赖文本病历,未处理影像等关键信息。研究者强调,AI并非取代医生,而是有望成为临床决策支持工具,尤其适用于急诊等高压环境。下一步需在真实临床环境中测试其对患者结局的实际改善效果。
ARC Prize Foundation 对 OpenAI 的 GPT-5.5 和 Anthropic 的 Opus 4.7 在 ARC-AGI-3 基准测试中的 160 次任务运行进行了分析。研究发现,三种系统性错误模式导致这两个模型在人类能轻松解决的任务上得分均低于 1%。这些错误揭示了当前顶尖大语言模型在抽象推理能力上仍存在根本性缺陷。
本文针对多模态大语言模型在非平稳环境中推理分布多样化且不可预测的挑战,提出将多源推理对齐视为概念漂移下的约束满足问题。我们设计了自主偏好优化框架,将模型间分歧作为动态负约束处理。该框架通过监督引导将目标模型投射到源模型能力联合中,再利用约束感知优化,通过多负Plackett-Luce目标抑制漂移轨迹,合成一致的共识流形。在胸部X射线解释任务上的实验表明,我们的70亿参数模型展现出卓越的鲁棒性,平均准确率甚至超过专有源模型。同时,我们发布了包含170,982条推理轨迹的大规模基准CXR-MAX,以推动相关研究。
TT4D是一个大规模高保真乒乓球数据集,包含超过140小时从单目转播视频重建的单打与双打比赛数据,提供高质量相机标定、精确3D球位、球旋转、时间分割以及随时间变化的3D人体网格等多模态标注。该数据集通过新颖的重建流程实现规模与精度的结合:传统方法依赖2D球轨进行时间分割,易受遮挡和多视角影响;TT4D则首先通过学习的提升网络将未分割的2D球轨全程提升至3D,再基于3D轨迹可靠分割时间,并能推断球旋转、处理漏检,在高遮挡情况下成功重建轨迹。该流程是目前唯一能从通用视角单目转播视频重建乒乓球比赛的方法。数据集已应用于球拍击球姿态速度估计、竞技对抗回合生成模型训练等下游任务。
研究团队提出了具身搜索与救援新任务,并发布首个综合性基准ESARBench,用于评估多模态大语言模型驱动的无人机智能体。该基准基于Unreal Engine 5和AirSim构建了四个从真实世界GIS数据映射的高保真、大规模开放环境,包含动态天气、昼夜变化和随机线索布置。基准包含600个基于真实救援案例建模的任务及一套评估指标。实验评估了从传统启发式方法到基于MLLM的导航智能体等多种基线,结果揭示了该任务在空间记忆、空中适应性及搜索效率与飞行安全权衡方面的关键瓶颈。
针对迭代检索增强生成在解析文本时存在的证据定位粗粒度与视觉语义丢失问题,本研究提出了“证据链”框架。该框架与检索器无关,直接利用视觉语言模型对检索到的文档截图进行推理,无需针对特定格式进行解析,并能输出精确的边界框以可视化完整推理链条。在Wiki-CoE和SlideVQA两个基准上的实验表明,经微调的Qwen3-VL-8B-Instruct模型表现稳健,在需要视觉布局理解的场景中显著优于基于文本的基线方法,为像素级可解释的iRAG提供了一个通用解决方案。代码已开源。
多模态点云补全中,硬投影易导致跨模态熵崩溃,阻碍视觉先验传播。为此,SplAttN提出一种新方法,以可微分高斯光栅化替代硬投影,将投影转化为连续密度估计,生成密集连续的图像平面表示。这避免了稀疏支持问题,改善了梯度流动与跨模态连接学习能力。实验显示,SplAttN在PCN和ShapeNet-55/34数据集上达到最先进性能。在KITTI真实场景基准测试中,反事实评估表明,SplAttN能保持对视觉线索的强健依赖,而基线模型则退化为对视觉移除不敏感的单模态模板检索器,验证了其有效建立跨模态连接。代码已开源。
本文主张将具备自主能力的AI系统设计和评估为边际token分配经济体,而非按单位定价的文本生成器。通过一个编码代理修复失败测试的案例,文章揭示了当前被孤立设计的四个经济层级(路由层、代理层、服务层和训练层)实际上都在遵循相同的核心经济原则:边际收益等于边际成本加上延迟与风险成本。这一框架解释了为何局部最小化token的系统会在全局层面错误分配资源,并预测了一系列重复出现的故障模式,如过度路由、验证不足和服务拥堵等。研究最后指出了token感知评估、自主定价等具体研究方向。
尽管生成式AI的事实可靠性已提升,但幻觉错误仍是核心问题,即使在简单问答中前沿模型仍会产生幻觉。当前事实性改进主要源于扩大模型的知识边界,而非增强对边界的认知能力。模型可能难以完美区分已知与未知,导致消除幻觉与保持实用性之间存在权衡。若将幻觉理解为“自信的错误”,则可通过表达不确定性开辟新路径——忠实不确定性,即语言表达与内在不确定性保持一致。这是元认知的一个方面,对于直接交互需诚实传达不确定性,对于智能体系统则成为控制层,决定何时搜索与信任何种信息。元认知是实现大语言模型既可信又有能力的关键。
针对长上下文大语言模型在优化式红队测试中计算与内存消耗巨大的问题,研究人员提出了FlashRT框架。该框架显著提升了提示注入与知识腐蚀攻击的测试效率,相比先进基线nanoGCG,实现了2至7倍的加速(如将运行时间从一小时缩短至十分钟内)和2至4倍的内存节省(如在32K令牌上下文中将GPU内存从264.1 GB降至65.7 GB)。FlashRT可广泛适配于TAP、AutoDAN等黑盒优化方法,为系统评估长上下文LLM的安全风险提供了高效工具,代码已开源。
研究团队针对阿拉伯语诗歌创作,构建了一个大规模、高质量的指令数据集,涵盖现代标准阿拉伯语及多种方言。该数据集支持根据风格、韵律等预设条件进行诗歌写作、修订、续写以及诗歌分析任务。通过在大型语言模型上微调该数据集,实验表明模型能有效生成符合用户要求的诗歌,这一结果已通过自动评估和阿拉伯语母语者的人工评估得到验证。相关数据和代码已开源。
Google Deepmind正在开发一款“AI协诊医生”系统以辅助医生诊疗。在模拟研究中,该系统表现优于GPT-5.4,但仍未达到经验丰富医师的水平。研究同时指出,类似ChatGPT语音模式的技术目前尚无法胜任严肃任务,更难以应用于医疗咨询场景。这项进展揭示了AI在专业医疗辅助领域的当前能力边界与发展潜力。
Claw-Eval-Live 是一个用于评估工作流智能体的实时基准,它将可定期刷新的公共需求信号层与可复现的时间戳快照相分离。该基准基于当前版本中 ClawHub Top-500 技能构建了 105 项涵盖商业服务与本地工作空间修复的受控任务。评估过程全面记录执行轨迹、审计日志、服务状态与运行后产物,并综合使用确定性检查与结构化大模型评判。在对 13 个前沿模型的公开统一测试中,领先模型仅通过 66.7% 的任务,无一达到 70%。失败多集中于人力资源、管理及多系统业务工作流,而本地修复任务相对容易但仍有提升空间。结果表明,工作流智能体评估需同时基于新鲜的外部需求与可验证的智能体执行动作。
人形机器人流畅的富交互行为建模是一大挑战。ExoActor提出新框架,利用大规模视频生成模型的泛化能力,将任务指令与场景上下文输入,通过第三人称视频生成技术合成隐含机器人、环境与物体协调交互的合理执行过程,再将其转化为可执行的人形机器人行为序列。实验表明,该端到端系统能泛化至新场景且无需额外真实数据收集,为建模富交互行为提供了可扩展路径,有望推动通用人形智能发展。
针对图像编辑中缺乏通用奖励模型的问题,本研究提出Edit-R1框架。该框架构建了一个基于思维链的推理奖励模型,通过将编辑指令分解为多项原则进行细粒度评估,生成可解释的奖励信号。为训练此模型,研究采用监督微调进行“冷启动”,并引入群体对比偏好优化算法,利用人类成对偏好数据强化模型。实验表明,该推理奖励模型在编辑任务上超越了Seed-1.5-VL等视觉语言模型,且性能随参数规模从3B增至7B持续提升。最终,该框架成功提升了如FLUX.1-kontext等下游图像编辑模型的效果。
具身智能需高保真仿真环境,但现有平台存在数据污染和灵活性限制。本研究提出World2Minecraft系统,基于3D语义占据预测将真实场景转换为结构化Minecraft环境,以支持视觉语言导航等任务。然而,重建质量受限于占据预测模型的数据稀缺和泛化能力不足。为此,团队开发了低成本、自动化数据采集流程,构建大规模定制化数据集MinecraftOcc,包含100,165张图像来自156个精细室内场景。实验表明,该数据集有效补充现有资源并对前沿方法构成显著挑战,提升了占据预测精度,同时凸显World2Minecraft作为可定制、可编辑平台对个性化具身AI研究的价值。
现代视频扩散模型擅长外观合成,但物理一致性不足,如物体漂移、碰撞不真实。PhyCo框架引入连续、可解释且基于物理的控制,整合三个核心组件:包含超过10万条模拟视频的大规模数据集,系统改变摩擦、恢复系数等属性;基于像素对齐物理属性图的ControlNet,对预训练扩散模型进行物理监督微调;以及VLM引导的奖励优化,通过微调视觉语言模型评估视频并提供可微分反馈。该方法使模型能通过调整物理属性生成物理一致且可控的视频,无需推理时模拟或几何重建。在Physics-IQ基准测试中,PhyCo显著提升物理真实感,人类研究证实其控制更清晰、更忠实。
MoCapAnything V2 提出了首个完全端到端的单目视频运动捕捉框架,用于驱动任意骨骼。该框架将视频到姿态、姿态到旋转两个模块设计为可学习且联合优化,解决了传统分解流程中旋转模糊与不可微逆运动学带来的限制。通过引入目标资产的参考姿态-旋转对与休息姿态,明确定义了旋转坐标系,将旋转预测转化为条件良好的问题。模型直接从视频预测关节位置,无需依赖网格中间表示,提升了鲁棒性与效率。实验表明,该方法在多个数据集上将旋转误差从约17度显著降低至约10度,在未见骨骼上可达6.54度,且推理速度比基于网格的方法快约20倍。
本文针对非专业低代码用户指令模糊、质量低的现实瓶颈,提出了首个多模态交互式网站生成基准InteractWeb-Bench。该基准通过四类用户智能体与基于人物角色的指令扰动,系统模拟了包含模糊、冗余和矛盾在内的多样化用户行为,并提供了一个支持澄清、实现、验证和提交统一行动的交互式执行环境,以实现迭代式意图细化与代码合成。大量实验表明,当前前沿的多模态大语言模型智能体仍受困于“盲目执行”模式,在意图识别与自适应交互方面存在明显局限。
研究团队提出“规模化合成计算机”方法,以创建包含真实文件夹层级与丰富文件内容(如文档、表格)的可扩展计算机环境。基于每个合成计算机,系统运行长周期模拟:一个代理设定符合用户身份、需耗时约一个月完成的多项专业任务目标;另一代理则扮演用户,通过导航文件系统、与模拟协作者协作、生成专业文件等方式持续工作直至目标达成。初步实验中,团队创建了1000个合成计算机并运行模拟,每次模拟平均需超过8小时代理运行时间、跨越2000多个回合。模拟产生的丰富经验学习信号显著提升了代理在生产力评估中的表现,该方法有望扩展至数百万甚至数十亿合成用户世界,为长周期生产力场景中的智能体自我改进与强化学习提供基础。
本研究提出Eywa异构智能体框架,以扩展语言中心的大模型系统至更广泛的科学基础模型。该框架通过为领域专用基础模型增加语言模型推理接口,使语言模型能指导非语言数据模态的推断,从而让预测性基础模型参与高层推理与决策。Eywa可作为单智能体流程的直接替代,或嵌入现有多智能体系统,并支持基于动态规划的跨模态任务协调。实验覆盖物理、生命及社会科学领域,结果表明Eywa能提升涉及结构化与领域专用数据的任务性能,并通过与专用模型的协作减少对纯语言推理的依赖。
当前视觉生成模型在写实性、指令跟随等方面进展显著,但在空间推理、长程一致性与因果理解上仍面临挑战。研究主张从外观合成转向智能视觉生成,即生成基于结构、动态和因果关系的合理内容。为此提出了一个五级分类体系,标志着从被动渲染器到交互式、世界感知生成器的根本转变。关键技术驱动力包括流匹配、统一的理解-生成模型、数据策展与后训练等。现有评估常因过度强调感知质量而高估进展,忽视了结构与时序缺陷。结合基准评测与真实场景测试,该路线图为推进下一代智能视觉生成系统提供了以能力为中心的视角。
本研究提出FD-loss,通过将弗雷歇距离(FD)估计所需的大规模样本量与梯度计算的小批量解耦,首次将其有效优化为训练目标。该方法在不同表征空间中对基础生成器进行后训练,能持续提升样本视觉质量,并在Inception空间下使单步生成器在ImageNet 256x256上达到0.72的FID。FD-loss无需蒸馏或对抗训练,即可将多步生成器转化为高性能单步模型。研究同时发现,仅依赖Inception FID可能误导质量评估,因此提出了多表征度量指标FDr^k。这项工作推动了分布距离在生成模型的训练与评估中的进一步探索。
针对现有以文档为中心的研究设施无法显式表征方法演进关系的问题,本文提出了方法论演化图谱Intern-Atlas。它从超103万篇AI论文中自动识别方法实体,推断其谱系关系与关键创新瓶颈,构建了一个包含941万余条有证据支撑语义边的可查询因果网络。研究还设计了自引导时序树搜索算法以追溯方法演进链条,经验证与专家标注结果高度一致。该图谱支持想法评估与自动生成等下游应用,为自动化科学发现提供了基础数据层。
本文提出定制化多模态角色扮演任务,旨在统一模型中协同实现角色人格、对话风格与视觉身份的定制,并保持跨模态输出的一致性。研究构建了包含20个角色的RoleScape-20数据集,并开发了名为UniCharacter的两阶段训练框架,包含统一有监督微调与角色特定组相对策略优化。仅需10张图像及对应交互样例,模型即可习得目标角色特征,并在文本与图像生成中展现一致的角色表现,训练约需100 GPU小时。实验表明,该方法显著优于现有方案,消融研究验证了其跨模态一致性设计与小样本定制策略的有效性。
本文提出了首个针对真实世界自然场景表格图像的问答基准WildTableBench。该基准包含从在线论坛和网站收集的402张高信息密度表格图像,以及涵盖五大类别、17种子类型的928个人工标注验证问题。研究对21个前沿的专有和开源多模态基础模型进行了评估,结果显示仅有一个模型准确率超过50%,其余模型准确率介于4.1%至49.9%之间。诊断分析进一步揭示了模型在结构感知和数值推理方面存在的持续弱点。该基准为深入评估和提升表格图像理解能力提供了重要的诊断工具。
研究团队提出CGM-JEPA自监督预训练框架及其扩展X-CGM-JEPA,以解决连续血糖监测(CGM)在跨模态、跨场景部署时的表征迁移与一致性问题。该方法通过预测掩码的潜在表征,并结合跨视图的血糖密度目标,从大规模无标签CGM数据中学习高层次时空与分布结构。在三个临床队列的评估中,X-CGM-JEPA在所有测试机制下对两个代谢终点的预测性能均位列前二,最高超越基线6.5个百分点。该模型在保持平均性能的同时,显著缩小了种族间的性能差异,并在稀疏静脉数据上提升了聚类效果。
本文提出EnergyFlow框架,通过参数化一个标量能量函数,将生成式动作建模与逆强化学习统一起来。该框架证明,在最大熵最优性下,通过去噪分数匹配学到的分数函数可恢复专家软Q函数的梯度,从而无需对抗训练即可提取奖励。理论分析表明,约束学习场为保守场能降低假设复杂性并收紧分布外泛化界限。实验显示,EnergyFlow在各种操作任务上实现了最先进的模仿性能,其提供的奖励信号在下游强化学习中优于对抗性IRL和基于似然的方法。这表明有效的奖励提取约束本身即是有益于策略泛化的归纳偏置。
针对可验证奖励强化学习可能抑制生成多样性的问题,本文提出负样本投影残差强化学习框架。该方法通过理论分析,将负样本标记的隐藏表示投影到基于奇异值分解的低秩正子空间,并利用投影残差来调制负梯度,从而解耦正负响应间的相似语义分布。在涵盖数学、代码、智能体任务和函数调用的12个基准测试中,ResRL平均表现优于基线方法,尤其在数学推理上较负样本强化学习方法显著提升,实现了推理能力与生成多样性的协同优化。代码已开源。
研究团队构建了覆盖10个临床领域、包含3600多项任务的Gymnasium兼容医疗AI训练环境。分析发现,现有多轮智能体强化学习方法易退化为冗长单轮独白,工具使用频率下降,问题源于稀疏最终奖励与连续临床轨迹的错配。为此,研究提出“轮次截断策略蒸馏”自蒸馏框架,利用梯度冻结的EMA教师模型在每轮对话提供密集的KL正则化。该方法在18项基准测试的10项中取得最佳性能,较非强化学习基线平均提升3.9个百分点,实现了更快早期收敛、可控响应长度和持续的多轮工具使用。
针对大型多模态模型后训练中SFT阶段引发的分布漂移问题,研究团队提出了PRISM三阶段流程。它在监督微调与强化学习验证奖励之间,新增了一个基于在线策略蒸馏的显式分布对齐阶段。该阶段将对齐构建为策略与混合专家判别器之间的黑盒对抗游戏,由感知和推理专家提供解耦的纠正信号。团队使用来自Gemini 3 Flash的11.3万条高保真演示进行对齐。在Qwen3-VL上的实验表明,PRISM能持续提升下游强化学习性能,使4B和8B模型在多个基准上的平均准确率较基线分别提升4.4和6.0个百分点。
BlenderRAG是一个检索增强生成系统,能够从自然语言描述自动生成可执行的Blender代码。该系统基于一个包含500个经专家验证的多模态样本(文本、代码、图像)的数据集,覆盖50种物体类别。在代码生成过程中,系统通过检索语义相似的示例来引导大语言模型,从而将四大前沿模型的代码编译成功率从40.8%显著提升至70.0%,并将语义对齐度(CLIP相似度)从0.41提高到0.77。该方法无需对模型进行微调或使用专用硬件,可立即部署使用。相关数据集和代码已在GitHub开源。
针对自回归大视觉语言模型在生成长序列时出现的“视觉信号稀释”问题,研究团队提出了轻量级可学习模块“持久视觉记忆”。该模块作为前馈网络的并行分支集成到模型中,建立了一个与生成长度无关的检索路径,能直接提供视觉嵌入以维持精确的视觉感知,从而从结构上缓解深度生成固有的信号抑制。在Qwen3-VL模型上的实验表明,该模块以极小的参数开销带来了显著的性能提升,在4B和8B规模上均实现了平均准确率的稳定增长,尤其在需要持续视觉感知的复杂推理任务中表现突出。
针对现有树状检索增强生成方法在应对跨文档多跳查询时面临的分布适应性差、结构隔离和抽象粒度粗糙三大挑战,研究者提出了Ψ-RAG框架。该框架包含两个核心组件:一是通过“合并与坍缩”迭代过程构建、无需先验分布假设的分层抽象树索引;二是配备重组查询和智能体驱动混合检索器的多粒度检索代理。Ψ-RAG支持从词元级问答到文档级摘要的多样化任务,在跨文档多跳问答基准测试中,其平均F1分数显著优于现有先进方法。相关代码已开源。