5月19日

08:00

Apple Machine Learning Research（RSS）

现有大语言模型虽能处理超长对话，但随对话历史线性增长的KV Cache会导致内存占用迅速超出设备限制。当前KV Cache压缩方法大多在处理完整上下文后才进行缓存淘汰，造成无界峰值内存占用。此外，基于查询的淘汰机制将缓存语义狭窄化至单次查询，导致失效。

论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

ParaVT：通过并行工具调用解决多智能体视频强化学习中的工具先验悖论

现有通过强化学习（RL）训练大语言模型（LLM）调用视频工具（如裁剪）的方法是顺序执行的，易导致错误传播和上下文污染。ParaVT是首个采用多智能体端到端RL训练的并行视频工具调用框架，能在单次调用中分派多个时间窗口裁剪任务。研究发现，预训练模型中存在“工具先验悖论”：既能促进工具探索又会破坏冷启动结构格式的稳定性。为解决此问题，提出了PARA-GRPO方法，通过添加定向格式奖励和随机化每提示的帧预算来稳定训练。该方法在六个长视频理解基准上，相比Qwen3-VL基线平均提升了7.9%，并将训练时的格式合规率从0.13提升至0.64。

智能体视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

从感知到推理：解耦感知与推理以改进视觉-语言模型的后训练

本研究发现，视觉-语言模型在视觉任务上的性能瓶颈主要源于其视觉感知能力的不足，而非推理能力。为此，研究提出将模型能力解耦为视觉感知、视觉推理和文本推理三个独立的训练阶段，并使用专门数据进行分阶段训练。实验证明，视觉感知需要针对性优化，应优先通过分阶段训练加以巩固，且使用强化学习比基于描述的监督微调更有效。该方法在多个模型上实现了持续性能提升，使模型推理准确率提高了1.5%，推理过程缩短了20.8%。在开放权重的视觉-语言模型中，该方法在WeMath和RealWorldQA等基准上取得了领先成绩，相比基础模型分别取得了5.2%和3.7%的性能提升。

arXiv 多模态推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

反思Muon在预训练之外：VLA和RLVR中的谱失效与高通补救

该研究指出，Muon优化器通过Newton-Schulz迭代进行统一谱白化，虽在LLM预训练中有效，但在两个新场景存在根本局限：在跨模态视觉-语言-动作训练中，低秩动作梯度会放大噪声尾部方向；在带可验证奖励的强化学习中，低信噪比梯度使得白化过程不稳定。为此，研究提出Pion作为替代方案，采用两阶段提升-抑制机制，形成高通谱效应，将主导奇异值锚定于1而抑制噪声分量，并支持按注意力头独立更新。实验表明，在LIBERO的VLA任务中，Pion在1500步训练后达到100%成功率，优于Muon的97.0%和AdamW的32.2%。在基于通义千问（Qwen3）的RLVR后训练中，Pion在MATH和GSM8K上优于AdamW，而Muon在此场景下会崩溃。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

人脑中的柏拉图表征：通用几何结构的无监督恢复

本研究基于强柏拉图表征假说，旨在探究人类大脑中是否存在类似人工神经网络的共享表征几何结构。团队利用自然场景数据集的fMRI数据，提出一种自监督编码器，从每个被试自身的脑数据中学习其专属的嵌入空间。研究发现，这些独立学习的空间可以通过无监督的正交旋转，在不同被试间实现直接转换，无需配对数据或中间模型。进一步将旋转同步到一个统一的共享空间后，跨被试的检索性能得到提升。结果为人类视觉皮层存在共享神经几何结构提供了证据，表明个体的fMRI表征在不同人之间近似等距，并可通过纯几何变换进行转换。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

在类别不平衡的CT身体成分分割中，解耦采样策略与训练预算

针对医学图像分割中的类别不平衡问题，本研究将少样本学习中的情景采样引入全监督训练，以构建类别均衡的批次。研究在公开的SAROS数据集上，对比了情景采样、随机采样和加权采样在分割9种肌肉与脂肪组织时的表现。在低数据场景下，情景采样的平均Dice系数达到0.787，优于随机采样（0.758）和加权采样（0.762），主要原因是其训练迭代次数多出12倍。研究关键发现是，训练迭代预算本身是影响采样策略评估的重要混淆因素；情景采样能多训练约三倍的迭代次数才趋于稳定，表明类别均衡批次具有隐式正则化效应，为不平衡任务提供了一种低成本的通用策略。

arXiv 开源生态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

极简视觉惯性里程计方案

传统视觉惯性里程计依赖高像素相机，资源消耗大。本研究提出了一种极简方案，仅需四个向下感知的光电二极管（通过光学Gabor掩膜提取速度信息）与一个IMU，即可为差速驱动机器人提供鲁棒的平面运动估计。通过物理仿真器联合优化掩膜参数与时序卷积网络，该模型能从四个光电二极管的测量中解算速度，并结合IMU的角速度输出连续轨迹。原型传感器在多样化的室内外地形验证中，无需真实场景微调即可紧密跟踪参考真值，证明了极简传感方案能够实现高效、精准的平面里程计。

具身智能端侧论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ClinSeekAgent：实现多模态证据主动检索的临床推理代理框架

ClinSeekAgent 是一个自动化代理框架，旨在将临床推理范式从被动接收预设证据转变为主动从异构源中检索与整合多模态证据。该框架仅需临床查询和原始数据源访问权限，即可通过查询知识库、导航电子病历及调用影像工具动态收集证据，并随着新信息不断精炼假设以支持临床决策。研究通过构建ClinSeek-Bench基准测试验证其有效性，在多模态任务中将Claude Opus 4.6的F1值从47.5显著提升至62.6。此外，ClinSeekAgent 作为训练管道，可将高质量代理轨迹蒸馏为开源模型ClinSeek-35B-A3B，使其在基准测试中F1平均达到34.0，较基线提升11.9分，性能接近Claude Opus 4.6。

多模态搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

π-Bench：评估长期工作流中的主动个人助理代理

本文提出了一个名为π-Bench的全新基准测试，旨在评估个人助理代理的主动辅助能力。该测试包含100个多轮任务，覆盖5个特定领域的用户角色，其核心创新在于引入了隐藏的用户意图、任务间的依赖关系以及跨会话的连续性，以更真实地模拟现实交互。实验结果表明，主动辅助对当前大模型而言仍是重大挑战，且代理的“任务完成能力”与“主动识别需求能力”之间存在显著差距。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

TIDE：基于输入输出感知专家卸载的高效无损混合专家扩散大语言模型推理

针对扩散大语言模型在混合专家架构下部署于资源受限设备的挑战，TIDE提出了一种无需模型训练的无损推理优化系统。该系统利用块内扩散过程中专家激活的时间稳定性，设计了基于间隔的专家刷新策略，以输入输出感知方式动态更新专家位置。通过将推理调度建模为数学规划问题，TIDE能够求解最优间隔以最小化输入输出流量和CPU计算开销。实验表明，在单GPU-CPU系统中，TIDE在LLaDA2.0-mini和LLaDA2.0-flash模型上分别实现了最高1.4倍和1.5倍的吞吐量提升，为现有基线方法带来显著加速。

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

Toto 2.0：时间序列预测进入规模扩展时代

时间序列基础模型Toto 2.0正式发布，这是一组五个开源权重的预测模型。研究表明，在400万至25亿参数范围内，采用统一训练方案的模型预测质量能持续可靠提升。该模型家族在三大预测基准测试中创下新纪录，包括其可观测性基准BOOM、通用基准GIFT-Eval以及抗污染的TIME基准。所有五个基础模型检查点均基于Apache 2.0协议开放发布。

开源生态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LLMEval-Logic：一个经求解器验证的中文逻辑推理LLM评估基准

LLMEval-Logic 是一个专注于中文逻辑推理的LLM评估基准，其数据来源于真实场景，并通过专家编写、审核及Z3验证器闭环验证以确保题目质量。基准包含两个子集：246项的Base子集（配有1400条评分标准）与190项的Hard子集（含938个多步骤子问题）。对14个前沿LLM的评估表明，当前模型在逻辑推理能力上仍有显著不足：最佳模型在Hard项目上的准确率仅为37.5%，即使结合参考符号，形式化得分最高也仅达60.16%。该基准已开源，旨在为模型逻辑推理能力的评估与提升提供可靠工具。

推理论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

Mega-ASR：通过扩展真实世界声学模拟实现野外语音识别

Mega-ASR是一个应对真实环境噪声与失真的统一语音识别框架，旨在突破现有模型面临的声学鲁棒性瓶颈。该研究发布了新的大规模复合数据集Voices-in-the-Wild-2M，涵盖7种经典声学现象与54种符合物理规律的复合干扰场景。通过声学-语义渐进式监督微调与双粒度词错误率门控策略优化进行训练，Mega-ASR在多个基准测试中显著超越先前系统：在VOiCES测试集上词错误率从54.01%降至45.69%，在NOIZEUS上从29.34%降至21.49%。在复杂组合声学场景下，其词错误率相对强基线进一步降低超过30%，为构建稳健的实景语音识别系统确立了可扩展的技术范式。

arXiv 论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

扩散对齐的拼接价值模型

StitchVM是一个用于扩散模型对齐的模型拼接框架。它解决了在噪声中间潜在值上评估奖励的挑战，通过将预训练的干净图像奖励模型（如CLIP ViT-L）与固定的扩散主干（如SD 3.5 Medium）轻量级地“拼接”起来。该框架的核心创新在于，使奖励模型能够直接处理噪声潜在值，从而避免了传统近似方法的计算成本或偏差问题。整个拼接与微调过程极为高效，仅需约10个GPU小时。实验表明，StitchVM显著提升了下游方法的效率，使DPS推理速度提升3.2倍、显存占用减半，并将DiffusionNFT加速2.3倍。

arXiv 图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Mix-Quant：面向代理型大语言模型的量化预填充与精确解码

针对代理型大语言模型推理中的计算瓶颈，研究团队提出Mix-Quant，一种相位感知的量化框架。该框架发现推理流程中预填充阶段虽为算力主要消耗环节，但存在显著量化冗余，而解码阶段对量化更敏感。为此，Mix-Quant采用混合精度策略：对预填充阶段应用高吞吐的NVFP4量化以加速，对解码阶段保持BF16精度以确保输出质量。该方法在多项长上下文和代理任务基准测试中，能有效保持任务性能，同时将预填充阶段速度提升最高3倍。

智能体推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

CutVerse：面向媒体后期编辑的组合式GUI智能体基准测试

研究团队发布了CutVerse基准测试，用于系统评估自主GUI智能体在真实媒体后期制作环境中的能力。该基准基于专业编辑工作流，涵盖Premiere Pro、Photoshop等7款专业应用中的186项复杂长程任务。为支持规模化评估，团队开发了一个轻量级解析器，可将原始屏幕录制和底层交互日志转化为结构化的组合式GUI动作轨迹。评估结果显示，现有智能体在此类任务上的成功率仅为36.0%，凸显了复杂、长程媒体后期制作流程带来的挑战。当前模型在空间定位、多模态对齐和协同动作执行方面表现出潜力，但在长程可靠性与领域特定规划上仍存在局限。

智能体 arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MOCHA：多目标切比雪夫退火用于智能体技能优化

该研究针对大语言模型智能体技能优化中存在的多目标挑战——即需同时提升任务性能并满足平台字段长度等硬性限制——提出了MOCHA方法。该方法采用切比雪夫标量化以完整覆盖帕累托前沿（包括非凸区域），并结合指数退火策略平衡搜索过程。实验表明，在六项任务中，现有优化器有四项无法提升基线技能，而MOCHA均实现了突破，平均正确率较最强基线提升7.5%，并发现了两倍多的帕累托最优变体。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PanoWorld：一个用于生成一致全屋全景的生成式空间世界模型

针对从平面图和风格参考生成一致全屋VR漫游的难题，本文提出了PanoWorld。该模型将整屋合成任务转化为基于节点的360度全景图自回归生成，与真实VR产品的导航方式一致。其核心方法是使用基于平面图的3D壳体作为全局几何代理，并结合动态3D高斯溅射缓存作为可渲染的空间记忆。通过专门设计的全景LRM和房间感知组注意力机制，模型能够更新全景图并抑制跨房间特征干扰，在保持高质量2D细节的同时显著提升了跨节点间的布局与材质一致性。项目详见：https://jjrcn.github.io/PanoWorld-project-home/

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

大型视觉语言模型胸部X光推理视觉归因的再思考

本研究针对大型视觉语言模型在医疗应用中面临的可信度挑战，指出其视觉归因方法常未能反映模型真实依据的视觉证据。为此，团队开发了因果评估框架，筛选出归因区域对预测具有因果性的样本进行测试。通过对11种归因方法、6个模型及两种输出模式的系统评估，发现现有方法普遍存在识别失效问题。为解决此问题，提出了基于概念的归因方法MedFocus，该方法利用非平衡最优传输定位临床相关区域，并通过定向干预量化其因果效应。实验证明，MedFocus在空间、概念及词元层面均显著优于现有方法，推动了更可靠的医疗视觉归因发展。

arXiv 多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

OScaR：面向LLM及其多模态扩展的极致KV缓存压缩框架

针对长上下文与多模态大语言模型中KV缓存内存占用高的瓶颈，本文提出了OScaR压缩框架。研究发现，传统逐通道量化在极端压缩下受限于“令牌范数不平衡”问题。OScaR通过“渠道化旋转”与“全令牌缩放”两项轻量技术，有效缓解了该不平衡带来的量化误差，无需复杂流程。在多种大模型上的实验表明，OScaR在INT2量化下可实现近乎无损的性能，相比基准解码速度提升最高达3.0倍，内存占用减少5.3倍，吞吐量增加4.1倍，为极致KV缓存压缩提供了高效通用方案。

GitHub 开源生态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

思维轨迹：理解真实世界LLM交互中的用户思维

本文发布了首个大规模数据集ThoughtTrace，该数据集首次将真实世界的人机多轮对话与用户的自述思维（即发送提示的原因和对助手回复的反应）进行配对。数据集包含来自20个语言模型的1058名用户、2155段对话及10174条思维标注。分析表明，这些思维捕捉了长周期、主题多样的交互，且与消息本身语义不同，前沿LLM难以从对话中准确推断。研究证实，思维数据可用于改进推理时的用户行为预测，并通过思维引导的改写为个性化助手训练提供细粒度对齐信号，为人机交互的深层认知研究与构建更懂用户的助手奠定了基础。

Hugging Face 数据/训练论文/研究

07:45

IT之家（RSS）

小米斩获 CVPR 2026 NTIRE 赛事三项奖项

近日，小米在 CVPR 2026 NTIRE 图像恢复与增强赛事中获得三项大奖。小米玄戒多媒体算法团队凭借自研SPANV2方法，以综合得分4.43夺得高效超分辨率赛道冠军，实现了画质与速度的均衡提升。小米大模型应用团队通过双阶段级联框架与单步扩散技术，获得人像修复赛道冠军；并在反光消除赛道通过骨干网络升级与知识蒸馏等策略获得亚军，主观评分达4.31分，多项客观指标位列第一。

arXiv 图像生成论文/研究

05:26

MarkTechPost（RSS）

Meet MemPrivacy：利用本地可逆假名化保护用户数据且不损害记忆效用的边云协同框架

为解决大型语言模型代理在生产环境中记忆功能与隐私保护的矛盾，MemTensor（上海）、HONOR Device与同济大学研究人员提出了MemPrivacy框架。该框架采用边云协同架构，核心是利用本地可逆假名化技术，在边缘设备上对用户数据进行处理。其特点在于既能通过云端记忆提升代理效用，又能确保原始敏感数据不出本地，在需要时可安全还原，从而在数据隐私保护和功能实用性之间取得平衡。

安全/对齐论文/研究

5月18日

18:00

公众号：小红书技术（dots.llm）

小红书引擎架构团队ICDE 2026新成果：CCD感知编排突破多核CPU向量搜索性能天花板

小红书引擎架构团队在ICDE 2026提出一种面向多核CPU的CCD级负载感知和线程编排向量检索框架，通过感知CCD（Core Complex Die）层级负载并优化线程编排，突破多核CPU向量搜索的性能天花板。

搜索论文/研究部署/工程

17:45

IT之家（RSS）

研究揭示：人们普遍认为 AI 比人类更自信

滑铁卢大学与伦敦大学学院联合发表于《通讯·心理学》的研究发现，人们在判断自信程度时存在普遍偏差。即使人工智能（AI）与人类给出完全相同的答案，人们仍倾向于认为AI的自信程度更高。这种判断受到“作答速度”、“决策表现”等外在线索的显著影响，从而催生了“自信错觉”——人们基于固有偏见而非实际表现来高估AI的可靠性。该研究强调，未来AI产品设计需通过清晰的方式传递系统的自信程度，以帮助用户做出更准确的信任判断。

现象/趋势论文/研究

13:03

Hacker News 热门（buzzing.cc 中文翻译）

自我提炼助力持续学习【PDF】

研究发现自我蒸馏技术能够有效提升机器学习模型的持续学习能力。该论文提出，通过模型自身的输出来指导其训练过程，可以在学习新任务时显著减轻对旧知识的遗忘问题。实验表明，这种方法在多个基准测试中提升了模型在连续任务序列上的性能稳定性。研究为解决机器学习中的灾难性遗忘问题提供了一种新的思路。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LatentUMM：用于统一多模态模型的双潜在对齐框架

LatentUMM 是一个旨在提升统一多模态模型（UMMs）跨模态一致性的框架。研究指出，模型在理解与生成功能间的不一致，根源并非缺乏共享表征，而是映射到和出潜在空间的变换缺乏显式对齐。该框架包含两个阶段：第一阶段进行双潜在对齐，在模态层面使用更强的嵌入模型施加跨模态语义约束，在容量层面强制双向一致性；第二阶段通过随机潜在展开和偏好优化来稳定潜在动态，以保留更好的语义一致性。实验表明，LatentUMM 在不同架构上均能持续提升多模态一致性。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

See What I Mean：对齐视觉与语言表示以实现视频细粒度对象理解

本文提出SWIM（See What I Mean）训练策略，旨在使模型仅通过文本提示即可实现细粒度对象理解，无需显式的视觉提示（如掩码或点）。研究分析发现，预训练多模态大语言模型（MLLMs）的跨模态注意力存在系统性偏差：属性词在视觉模态产生清晰、局部的激活，而物体名词的模式则较为弥散。为解决此问题，研究构建了NL-Refer数据集。SWIM通过提取物体名词的多层交叉注意力图并与真实掩码进行空间一致性约束。实验表明，该方法显著提升了文本-视觉对齐，在相关基准测试上优于基于视觉提示的方法。代码与数据已开源。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

HINT-SD：针对长期智能体的定向事后知识蒸馏

使用强化学习训练长期LLM智能体面临稀疏奖励挑战，现有反馈方法存在效率低或监督错位问题。本研究提出HINT-SD框架，通过全轨迹事后分析，仅针对导致失败的关键动作区间进行基于反馈的知识蒸馏。实验显示，该方法在BFCL v3和AppWorld基准上相比每轮密集反馈基线最高提升18.80%，同时将每步训练时间降低至1/2.26。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

使用代理指标预测大型语言模型的下游性能

本研究提出了一种通过聚合模型在专家解答上的token级统计量（如熵、top-k准确率、专家token排名）来构建代理指标的方法，旨在替代传统的交叉熵损失和昂贵的下游评估。该方法在三个核心任务中表现突出：在跨架构模型选择中，其性能排名与真实下游表现高度一致；在预训练数据选择中，能以极低的计算成本可靠评估大量候选语料库；在训练过程中，能以远低于现有方法的误差进行下游准确率的长期外推预测。这表明，分析模型对专家知识的token分布是评估其能力的有效信号，能贯穿模型开发全周期，实现可靠、高效的性能预测。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Lean Refactor：基于智能体策略搜索的多目标可控证明优化

现有LLM生成的Lean证明常面临正确但冗长、跨版本易错的问题，其重构是一个涉及证明长度、编译成本与版本兼容性的多目标优化难题。Lean Refactor提出一种插件式检索增强智能体框架，它利用一个标注了版本与预期编译成本降低率的多目标策略数据库，引导冻结的LLM进行重构。实验表明，该方法在竞赛基准上实现超70%的token压缩，编译时间减少高达60%，性能优于现有工作；版本过滤检索进一步提升了压缩率，且重构后的证明表现出更强的零样本版本迁移能力。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

OmniPro：全模态主动流式视频理解综合基准

OmniPro是首个联合评估全模态感知、主动响应和多样化视频理解任务的基准。它包含2700个人工验证样本，覆盖9个子任务、3个认知层级和6项基础能力，其中84%样本依赖语音或非语音音频信号，并标注模态隔离标签。该基准引入探测和在线双模式评估协议，以全面测试内容理解和主动能力。对11个模型的评估揭示：音频信号能提升性能但模型利用效率差异大；性能随时间下降，长程鲁棒性不足；非语音音频感知仍是当前最薄弱环节。

多模态视频论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

通过变分策略蒸馏从语言反馈中学习

针对强化学习从可验证奖励中面临探索瓶颈及现有自蒸馏方法依赖固定教师导致学习停滞的问题，研究提出了变分策略蒸馏框架。该框架将语言反馈学习形式化为变分期望最大化问题，实现教师与学生策略的协同进化：在E步通过自适应信任域更新动态改进教师策略，将文本反馈转化为目标令牌分布；在M步让学生策略内化该分布指导。在科学推理与代码生成任务上的实验表明，该方法在各类诊断性反馈下持续优于标准强化学习与现有自蒸馏基线。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

迷失在折中：交叉验证并非深度集成

本研究指出医学图像分割领域常将K折交叉验证（CV）集成误称为“深度集成”（DE），这种术语混淆影响了不确定性的正确解读。研究在三个模态数据集上对比了5折CV集成与5成员DE，发现DE在保持分割精度的同时，能提升模型校准性与故障检测能力；而CV集成则更能反映标注者间的变异性。因此，集成方法的选择应与目标匹配：追求可靠性的任务（如选择性转诊）宜用DE，对数据模糊性建模则适用CV集成。文章还提供了轻量级修改nnU-Net的方法以支持DE训练。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Stable Audio 3

Stability AI 发布了名为 Stable Audio 3 的快速潜在扩散模型家族，包含小、中、大三个版本，专注于可变长度音频的生成与编辑。该模型能够生成数分钟长的音频，并支持修复功能，可对音频进行针对性编辑或续写短录音。其核心是新型语义声学自编码器，能将音频映射至紧凑潜在空间，在保证高保真度的同时鼓励语义结构形成。通过对抗性后训练，模型在加速推理、减少步骤数的同时提升了音频质量和提示词遵循度。该模型基于授权及 Creative Commons 数据训练，在 H200 GPU 上生成音频耗时不足 2 秒，在 MacBook Pro M4 上仅需数秒。目前，官方已开源可在消费级硬件运行的小型和中型模型权重及其训练推理流程。

arXiv 多模态端侧论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

大型音频语言模型：泛化、可信度与展望

本综述探讨了大型音频语言模型在推动通用听觉智能方面的进展与挑战。文章指出，其能力提升速度已远超可信框架的构建，通过端到端架构和连续声学信号整合，攻击面显著扩大。研究建立了涵盖跨模态越狱、潜在声学后门及生物特征隐私泄露的信任度风险分类体系，并从幻觉、鲁棒性、安全、隐私、公平与认证六个维度进行评估，揭示了成熟攻击手段与不足防御之间的严重失衡。为此，报告提出采用“纵深防御”架构、因果听觉世界建模及内在表征工程等路径，以弥合性能与可信智能间的差距。相关项目已在GitHub公开。

arXiv 多模态安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

增强无训练无限帧生成以实现一致长视频

针对基础模型生成无限长视频时存在的训练-推理不匹配与长期一致性维持难题，研究提出了一种名为MIGA的无训练长视频生成方法。该方法通过两阶段对齐机制减少输入噪声跨度，有效弥合了训练与推理的差距；并创新性地引入双一致性增强机制，结合自反射修正与长距离帧引导，利用不同噪声水平的帧信息协同提升时序一致性。在VBench与NarrLV基准测试上，MIGA以较低的额外计算开销实现了当前最优的超长视频生成性能，项目主页已公开。

视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

有界自主训练控制治理层：面向稳定与高效的应力条件下有界自主训练

本文提出了一种名为LBW-Guard的有界自主训练控制治理层，它运行在优化器（如AdamW）之上，而非替代优化器。该层通过监控训练数据并施加有界控制，旨在解决大语言模型训练中在高学习率、大规模或运行时压力下出现的不稳定与计算资源浪费问题。基于Qwen2.5系列模型的评估表明，在标准设置下，LBW-Guard显著降低了困惑度并加速了训练；在强大的学习率压力测试中，当传统优化器失效时，它仍能维持稳定的训练性能，而梯度裁剪等基线方法无法复现此效果。研究证实了在优化器之上引入有界控制层对于提升压力环境下训练生产力的有效性。

论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

互补自蒸馏：实现大语言模型语境完整性的路径

随着大语言模型日益作为处理敏感任务的智能体，如何平衡隐私保护（遵循语境完整性）与任务性能成为核心难题。现有方法常难以兼顾二者。为此，本文提出SELFCI互补自蒸馏框架，它将信息抑制与任务求解过程解耦，通过联合优化两个独立的逆KL散度目标：一个保留任务所需信息以确保效用，另一个强制实现最小化且恰当的信息披露。该框架无需外部监督，实验表明其持续优于在线强化学习等基线方法，并在跨领域的智能体工作流中同样有效，为大语言模型对齐隐私规范提供了实用方案。

智能体安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LongMINT：长周期智能体系统中多目标干扰下的记忆评估

LongMINT是一个评估智能体在信息不断更新、存在大量干扰的长周期环境中记忆能力的新基准。它包含平均13.88万token（最长180万token）的长上下文，涵盖状态追踪、多轮对话、维基百科修订和GitHub提交四个领域，并设置了单目标检索与多目标聚合两类问题。对7个代表性系统的测试显示，平均准确率仅为27.9%，尤其在综合多证据推理的任务上表现差。分析表明，性能主要受限于检索和记忆构建能力，且系统难以有效处理后续信息对早期事实的更新与干扰。

智能体检索增强论文/研究