5月13日

23:44

HuggingFace Daily Papers（社区热门论文）

研究指出，为大语言模型微调生成式检索任务会迅速导致其通用语言推理能力的灾难性遗忘，且遗忘程度与微调后和原始模型参数的偏离距离相关。为此，研究者提出了ORBIT方法。该方法主动追踪微调权重与初始权重之间的距离，一旦超过预设阈值，便采用权重平均策略来约束模型在微调过程中的漂移。实验表明，ORBIT在文本和检索性能上均优于常见的持续学习基线及同样采用权重平均的正则化方法，有效缓解了基础能力的遗忘问题。

arXiv 检索增强数据/训练论文/研究

18:43

The Decoder：AI News（RSS）

AI初创公司Recursive携6.5亿美元结束隐身模式，致力于构建自我改进的AI

AI初创公司Recursive正式结束隐身模式，宣布获得6.5亿美元资金，核心目标是开发能够进行递归自我改进的人工智能系统。该公司将递归自我改进技术视为实现超级智能的“最快路径”，旨在通过AI模型的自我迭代与优化来加速向更高阶智能的演进。

数据/训练行业动态

17:44

HuggingFace Daily Papers（社区热门论文）

Pion：一种基于正交等价变换的谱保持优化器

研究团队推出用于大语言模型训练的优化器Pion，其基于正交等价变换实现谱保持特性。与Adam、Muon等加法型优化器不同，Pion通过左右正交变换更新权重矩阵，使奇异值在整个训练过程中保持不变。该机制能在固定谱范数的前提下调节权重矩阵的几何结构。实验表明，Pion在LLM预训练和微调任务中均能提供稳定且具有竞争力的性能，为传统优化器提供了新替代方案。

arXiv 数据/训练论文/研究

17:39

IT之家（RSS）

市场监管总局：严查算法违规乱象，规范市场竞争秩序

市场监管总局部署反不正当竞争专项执法，聚焦平台经济、民生和科技创新领域，整治“内卷式”竞争，推动良性市场秩序。行动将提升网络不正当竞争常态化监管，规制利用数据和算法等实施的违规行为；强化商业秘密保护，加强侵权案件查办并完善保护规则体系；深化宣传倡导，曝光典型案例，压实平台主体责任，构建社会共治格局。

政策/监管数据/训练

16:44

HuggingFace Daily Papers（社区热门论文）

因果语言建模迂回策略提升编码器领域适应效果

研究提出，在编码器适应新领域时，先短暂切换至因果语言建模（CLM），再进行掩码语言建模（MLM）衰减训练，可有效提升下游任务性能。在生物医学文本上使用ModernBERT的实验表明，该策略在相同数据和算力下，于多项法语和英语生物医学任务中均稳定优于纯MLM基线。分析发现，CLM的密集监督主要影响Transformer低层，其带来的表征变化在后续MLM阶段得以持续并随模型容量扩展。基于此方法发布的ModernCamemBERT-bio与ModernBERT-bio模型，成为当前先进的生物医学编码器。

数据/训练论文/研究

16:44

HuggingFace Daily Papers（社区热门论文）

WildRelight：面向单图像重光照的真实世界基准与物理引导自适应方法

本文介绍了首个专为单图像重光照评估设计的真实世界数据集WildRelight，包含多样化高分辨率户外场景，在严格对齐的时序自然光照下采集并配有环境贴图。基准测试揭示了当前基于合成数据训练的先进模型存在严重域偏移。利用该数据集严格对齐的时间结构，研究提出一种物理引导推理框架，将捕获的自然光演变作为自监督约束，通过结合扩散后验采样与时序感知的测试时自适应，成功将棘手的模拟到真实挑战转化为可处理的自监督任务。数据集与代码将公开以推动鲁棒且基于物理的重光照研究。

arXiv 图像生成数据/训练论文/研究

14:44

HuggingFace Daily Papers（社区热门论文）

FATE：基于失败轨迹的智能体安全对齐在线自我进化框架

工具调用型LLM智能体的失败体现在整个轨迹中，而非仅最终响应。现有安全对齐方法常导致安全与效用权衡。研究提出FATE框架，通过在线策略自我进化，将验证器评分的失败轨迹转化为修复监督信号，无需专家示范。该方法引入帕累托前沿策略优化（PFPO），结合监督预热与帕累托优化以平衡安全与效用。在AgentDojo、AgentHarm和ATBench上的实验表明，FATE能显著提升多模型、多规模下的安全性，同时维持任务效用。具体而言，攻击成功率降低33.5%，有害指令遵从减少82.6%，外部轨迹安全诊断能力提升6.5%。这表明失败轨迹可为智能体安全进化提供有效监督。

智能体安全/对齐数据/训练论文/研究

12:44

HuggingFace Daily Papers（社区热门论文）

MEME：多实体与演化记忆评估基准

研究团队推出MEME基准，用于评估大语言模型智能体在多会话持久环境中的记忆能力。该基准定义了涵盖多实体与演化信息两个维度的六项任务，其中级联、缺失和删除推理三项为先前工作未涉及。在100个受控片段上对三种记忆范式的六个系统进行评估发现，所有系统在默认配置下对依赖关系的推理能力均严重不足（级联任务平均准确率3%，缺失任务1%），尽管其静态检索性能尚可。提示优化、深度检索、减少干扰信息乃至使用更强的模型均未能显著缩小差距。仅当基于文件的智能体配合Claude Opus时，差距被部分缩小，但成本约为基线的70倍，表明当前解决方案难以大规模应用。代码与数据已公开。

智能体数据/训练论文/研究

11:44

HuggingFace Daily Papers（社区热门论文）

VidSplat：利用几何引导视频扩散先验进行高斯泼溅重建

VidSplat是一个免训练的生成式重建框架，旨在解决高斯泼溅技术在输入视图稀少时性能显著下降的问题。该框架通过利用强大的视频扩散先验，迭代合成能够补偿缺失覆盖范围的新视角，从而从稀疏输入中恢复完整的3D场景。其核心创新包括：提出一种免训练的分阶段去噪策略，利用渲染的RGB和掩码图像自适应地将去噪方向引导至底层几何结构；开发了一种迭代机制，通过采样相机轨迹、探索未观测区域、合成新视图并进行置信度加权的精细化训练来增强重建。VidSplat对稀疏输入甚至单张图像均表现出鲁棒性，在广泛使用的基准测试中展现了卓越的稀疏视图场景重建性能。

多模态数据/训练论文/研究

11:44

HuggingFace Daily Papers（社区热门论文）

Transformer中的几何事实记忆机制

本文挑战了Transformer通过权重矩阵线性记忆事实的传统观点，提出了一种几何记忆机制。在单层Transformer记忆随机双射的设定中，证明了对数嵌入维度即足够：主体嵌入编码属性向量的线性叠加，而小型MLP充当基于关系的选择器，通过ReLU门控提取相关属性，而非进行键值映射。研究进一步扩展到多跳关系查询，提供了包含与不包含思维链的构造，揭示了可证明的容量与深度权衡，并辅以信息论下界。实证表明，梯度下降能找到预测的结构化解；训练后，当主体嵌入重新初始化时，MLP能零样本迁移到全新双射，说明其学会了通用的选择机制，而非记忆特定事实。

数据/训练论文/研究

11:39

IT之家（RSS）

榨取员工数据？Meta 美国员工抗议公司采集键盘鼠标操作数据

5月13日，Meta美国员工在公司多个办公室分发传单，抗议公司安装软件采集其键盘和鼠标操作数据。传单鼓励员工签署在线请愿书，并引用《国家劳工关系法》强调员工组织权。此次抗议正值Meta计划约一周后裁减10%员工之际，员工担忧数据将被用于训练AI，最终构建取代自身的自动化系统。Meta发言人回应称，收集真实操作数据是为开发能协助日常任务的AI智能体所需。与此同时，英国部分员工也已开始与工会合作，发起工会化运动以应对裁员与监控。

Meta 数据/训练行业动态

10:44

HuggingFace Daily Papers（社区热门论文）

AutoLLMResearch：训练智能体以自动化大语言模型实验配置--从低成本学习，优化高成本实验

为应对高成本大语言模型实验自动化配置的空白，本文提出智能体框架AutoLLMResearch。其核心是通过一个基于超百万GPU小时实验结果构建的多保真度环境LLMConfig-Gym进行训练，使智能体能够从低成本“低保真”实验中学习通用原则，并外推至昂贵的高保真场景，从而高效识别有潜力的配置方案。评估表明，该框架在多种强基线对比中展现出有效性、泛化性与可解释性，为现实世界中可扩展的LLM实验自动化提供了实用解决方案。

智能体 arXiv 数据/训练论文/研究

10:44

HuggingFace Daily Papers（社区热门论文）

LychSim：面向视觉研究的可控交互式仿真框架

LychSim是一个基于Unreal Engine 5构建的可控交互式仿真框架，旨在降低现代仿真平台的高技术门槛。其核心设计包括：一个简化底层引擎复杂性的Python API；一个能生成具有多样化分布外视觉挑战的高保真环境，并提供丰富2D与3D真实标注的程序化数据管线；以及原生集成的模型上下文协议，可将仿真器转变为支持推理型大语言模型的动态闭环测试平台。该框架支持语义对齐的3D标注与自动场景修改，已成功应用于合成数据生成、基于强化学习的对抗性评估及语言驱动的交互式场景布局生成等多个下游任务。LychSim将公开提供完整源代码与多种数据标注。

开源生态数据/训练论文/研究

10:44

HuggingFace Daily Papers（社区热门论文）

超越GRPO与策略蒸馏：语言模型后训练中稀疏到稠密奖励的实证原则

研究提出一种基于奖励密度的数据分配原则：在标注数据稀缺时，应将稀疏的序列级奖励用于强化上游大模型的探索能力，再将习得的行为通过稠密的令牌级教师奖励蒸馏至下游小模型。实验基于Qwen3和Llama模型在可验证数学任务上进行验证。结果显示，在固定部署学生模型为Qwen3-1.7B的情况下，先对8B教师模型进行强化学习改进，再通过稠密蒸馏传递至学生模型，其效果优于直接对学生模型进行GRPO训练。核心操作原则是避免将稀缺标注数据用于准备最不充分的策略，而应遵循“教师端稀疏奖励探索-稠密蒸馏压缩-学生端稀疏奖励微调”的流程。

推理数据/训练论文/研究

10:44

HuggingFace Daily Papers（社区热门论文）

基于评分标准的强化学习中的奖励黑客问题研究

本研究探讨了基于评分标准的强化学习中的奖励黑客现象。研究通过跨模型评审小组评估发现，奖励黑客源于两种分歧：验证器失效与评分标准设计局限。实验表明，弱验证器会产生无法迁移的代理奖励增益，且利用行为在训练中加剧；更强的验证器能显著减少但无法完全消除此问题。此外，研究引入基于策略对数概率的自内化差距诊断工具，可追踪参考验证器质量。最终结果显示，即便使用强验证器，若评分标准未涵盖关键失败模式，仍会出现奖励黑客，导致在满足部分标准的同时，事实准确性、简洁性等整体质量下降。

安全/对齐数据/训练论文/研究

09:18

Tomer Tunguz 博客（VC 分析）

Theory 2026年度市场进入策略调查启动

Theory公司正式启动2026年度市场进入策略调查，旨在通过对比2022至2025年数据，分析初创企业在销售、营销等领域的演变。本次调查聚焦五个核心假设：人机协同的销售代表表现将优于纯AI或人类团队；AI可能拉大顶尖与末位团队的绩效差距；买方AI的采用比卖方AI更具颠覆性；AI效率提升可能主要导致人员编制缩减而非收入增长；创始人对AI的预期已随现实落地而下调。调查结果将在后续办公时间活动中公布，参与者可获得匿名原始数据。

大佬观点数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

Delta注意力残差网络：通过增量路由改进跨层信息传递

针对深度网络中传统注意力残差连接因累积状态冗余而导致路由能力受限的问题，本文提出Delta注意力残差机制。该方法不直接关注历史层的累积隐藏状态，而是关注每层子网络引入的增量变化（即输出差值）。这种增量表示结构更多样，能生成对比度更高的注意力分布，从而实现更精准、有效的跨层信息路由。在220M至7.6B参数规模的模型上进行的实验表明，该方法在验证集困惑度上相较于标准残差和标准注意力残差均有1.7%-8.2%的稳定提升，并可通过标准微调应用于预训练模型。

GitHub 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Physics-R1：一个经过审计的奥林匹克语料库与视觉物理推理方案

本研究审计了多模态物理评测流程，发现了三个未被察觉的构建问题：训练评估数据污染、翻译漂移以及选择题饱和。为解决这些问题，团队发布了四个关键成果：经严格审计的多模态语料库PhysCorp-A、闭式强化学习池PhysR1Corp、包含新题型与双语子集的评测集PhysOlym-A，以及基于Qwen3-VL-8B-Thinking冷启动的参考方案Physics-R1。该方案在审计语料库上将8B基座模型在PhysOlym-A上的得分提升至26.3，在PhysReason上提升至39.6，超越了Qwen3-VL-32B与Gemini 2.5 Pro。

arXiv 多模态推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

基于语言模型先验从观测中学习POMDP世界模型

本文提出了Pinductor，一种利用大语言模型作为先验知识，从少量的观测-动作序列中自动构建部分可观察马尔可夫决策过程世界模型的方法。该方法的核心流程是让LLM先生成候选模型，再通过基于信念的似然分数进行迭代优化。实验表明，尽管使用的信息更少，Pinductor在性能和样本效率上能匹配那些依赖隐藏状态特权的LLM方法，并显著超越传统基线。研究还发现，其性能随LLM能力增强而提升，并在环境语义信息缺失时仍能保持稳定。这证明了语言模型先验是实现在部分可观察环境下高效学习世界模型的一个实用途径。

智能体具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

通过简单统一的扩展实现奥赛金牌级推理

本文提出一种将预训练推理模型转化为严格奥赛求解器的统一方法。该方法首先采用反向困惑度课程进行监督微调，以灌输严谨的证明搜索与自我检查行为；随后通过两阶段强化学习流程扩展这些能力，最终结合测试时扩展提升性能。基于此方案训练的30B参数模型SU-01，在仅使用约34万条短轨迹微调和200步强化学习后，能稳定处理超过10万token的长轨迹难题，并在IMO、USAMO、IPhO等数学与物理奥赛中达到金牌级表现，同时展现出向数学物理之外科学领域的强推理泛化能力。

arXiv 推理数据/训练论文/研究

推荐理由：IMO 金牌级推理模型又多了一个，SU-01 的方法干净统一，特别在超长推理链上的稳定性是真正突破，做推理模型训练和竞赛级 AI 的可以认真读一下。

05:44

HuggingFace Daily Papers（社区热门论文）

揭示策略蒸馏：何处有益、何处有害及原因

本研究针对策略蒸馏中监督信号的有效性不明确问题，引入一种免训练诊断框架，以逐词元、逐问题、逐教师的高分辨率评估蒸馏效果。该框架通过定义理想逐节点梯度，并开发可扩展的定向展开算法高效估算梯度，进而计算梯度对齐分数，量化特定蒸馏配置接近理想信号的程度。研究发现，蒸馏指导在模型错误展开时比正确展开时表现出更高的梯度对齐性；在正确展开时，学生模型已表现良好，教师信号往往变得嘈杂。此外，最优蒸馏上下文共同取决于学生模型的能力和目标任务，不存在普遍有效的单一配置。这些发现强调了针对蒸馏进行逐任务、逐词元诊断分析的必要性。

推理数据/训练论文/研究

02:44

HuggingFace Daily Papers（社区热门论文）

PlantMarkerBench：一个用于评估基于文献的植物标记基因推理能力的多物种基准

研究团队发布了PlantMarkerBench，这是一个用于评估从生物学全文文献中获取证据支撑的植物标记基因解释能力的多物种基准。该基准涵盖拟南芥、玉米、水稻和番茄四个物种，包含5,550个标注了证据有效性、类型和支持强度的句子实例，并定义了两项评估任务。测试显示，前沿模型在处理直接表达证据时表现尚可，但在功能、间接和弱支持证据上性能显著下降，且开放权重模型在模糊生物背景下假阳性率较高。该基准为基于文献的生物证据归因提供了可复现的评估框架。

推理数据/训练论文/研究

00:44

HuggingFace Daily Papers（社区热门论文）

DeepRefine：基于强化学习的智能体知识库精炼

DeepRefine 是一种基于大语言模型的通用推理模型，旨在通过与知识库进行多轮交互，精炼其中存在的缺陷（如证据缺失、断言置信度低或指代模糊等问题），从而提升其在开放域、知识密集型下游任务中的适用性。该模型通过溯因诊断定位缺陷，并执行针对性操作以增量更新知识库。为在没有黄金参考的情况下优化精炼策略，研究引入了“超越草案增益”奖励，并采用强化学习进行端到端训练。大量实验表明，该方法能在多个强基线模型上带来一致的下游性能提升。

智能体检索增强数据/训练论文/研究

5月12日

23:37

Artificial Intelligence News（RSS）

JBS Dev：关于不完美数据与人工智能最后一公里--从模型能力到成本可持续性

JBS Dev总裁Joe Rose指出，在部署生成式与代理AI系统时存在一个普遍误解，即认为数据必须完美无缺才能开展相关工作。文章结合AI Fieldbook近期内容，探讨了AI应用从模型能力提升到实现成本可持续性的实际挑战，强调在真实场景中应对不完美数据是突破AI落地“最后一公里”的关键。

数据/训练现象/趋势部署/工程

20:44

HuggingFace Daily Papers（社区热门论文）

ELF：嵌入式语言流

研究团队提出嵌入式语言流（ELF），这是一种基于连续时间流匹配、在连续嵌入空间中运行的扩散语言模型。与主流离散扩散模型不同，ELF在绝大部分采样过程中保持在连续空间，仅在最后一步通过共享权重网络映射到离散词元。这一设计使其能直接借鉴图像扩散模型的成熟技术（如无分类器引导）。实验表明，ELF在生成质量上显著优于当前领先的离散和连续扩散语言模型，并能以更少的采样步骤实现更优性能，为构建有效的连续扩散语言模型提供了新路径。

arXiv 数据/训练论文/研究

19:36

IT之家（RSS）

孙正义豪赌 AI：软银拟投千亿美元在法国建晶圆厂与数据中心

软银集团CEO孙正义正商讨在法国投资高达1000亿美元，建设专注于人工智能的半导体晶圆厂与数据中心。该计划是其“伊邪那岐计划”的延伸，旨在依托旗下Arm的芯片设计技术，打造独立的人工智能半导体生态体系。法国因其有利的监管环境和充足的核电产能被选为核心选址。软银预计自身出资约300亿美元，其余资金可能由中东主权财富基金支持。此举被视为孙正义构建AI商业帝国的关键一步，但也引发了市场对其财务风险的担忧。

数据/训练行业动态部署/工程

18:44

HuggingFace Daily Papers（社区热门论文）

Muon能微调Adam预训练的模型吗？

本研究探讨了在微调Adam预训练模型时，若将优化器直接切换为Muon会导致性能下降的问题，并将其归因于两者不同的隐式偏差造成的优化器不匹配。这种不匹配会破坏预训练知识，且其影响程度与参数更新强度成正比。实验表明，通过采用LoRA等参数高效微调方法来约束更新，可以有效缓解该问题。在语言和视觉任务中，LoRA显著缩小了全参数微调下Adam与Muon之间的性能差距。对LoRA秩、灾难性遗忘及变体的进一步研究证实，不匹配的严重程度确实与更新强度相关。相关代码已开源。

开源/仓库数据/训练论文/研究

14:44

HuggingFace Daily Papers（社区热门论文）

Alpha Blending假说：深度伪造检测中的合成捷径

本文提出Alpha Blending假说，认为当前先进的深度伪造检测器主要依赖定位伪造人脸与原始帧合成时产生的低级合成痕迹，而非识别语义异常或生成指纹。实验证实检测器对自混合图像及非生成式篡改高度敏感。基于此提出的BlenD方法，仅使用真实人脸与自混合图像训练，在2019至2025年的15个复合深度伪造数据集上实现了最优的跨数据集泛化性能。通过集成显式混合搜索器与抗混合捷径的模型预测，AUROC指标提升至94.0%，达到最新最高水平。代码与模型将公开。

安全/对齐数据/训练论文/研究

13:44

HuggingFace Daily Papers（社区热门论文）

通过强化学习将分布感知注入多模态大语言模型以解决深度不平衡回归问题

针对多模态大语言模型在长尾目标分布下数值回归表现不佳的问题，本研究提出一种基于分布感知的强化学习框架。该方法通过群组相对策略优化，引入基于一致性相关系数的奖励机制，在批次层面提供基于比较的监督，使模型预测分布与真实分布在相关性、尺度和均值上对齐。该即插即用框架无需修改模型架构。在统一的长尾回归基准测试中，该方法相比监督微调和现有回归方法取得了持续改进，尤其在中等样本和少样本场景下提升显著。

多模态数据/训练论文/研究

11:44

HuggingFace Daily Papers（社区热门论文）

G-Zero：从零数据出发的开放式生成自我博弈框架

针对大语言模型在开放域任务中依赖外部评判导致的能力瓶颈与奖励破解问题，研究团队提出无需验证器的协同进化框架G-Zero。其核心是Hint-δ内在奖励机制，通过量化生成模型在有无自生成提示条件下预测结果的偏移，为自我改进提供信号。在此驱动下，提议模型持续生成挑战性查询与提示以针对生成模型的盲点，生成模型则内化这些提示引导的改进。理论分析表明，在理想条件下，该框架具有最佳迭代次优性保证。G-Zero完全从内部动态获取监督，绕开了外部评判者的能力上限，为不可验证领域的持续模型进化提供了可扩展且稳健的路径。

数据/训练论文/研究

11:44

HuggingFace Daily Papers（社区热门论文）

大语言模型中的模型合并缩放定律

研究发现语言模型合并遵循一个紧凑的幂律定律，它将模型大小与专家数量相关联：模型容量越大，其性能下限越低；而合并带来的性能提升尾部则随专家数量增加呈现明显的收益递减。该定律在领域内和跨领域均成立，紧密契合不同架构与方法下的实测曲线，并解释了大部分收益在早期获得、且性能波动性随专家增多而缩小这两个稳健规律。基于此的简单理论将性能下限和尾部与基础模型特性及领域多样性联系起来。这一定律使得预测性规划成为可能，例如估算达到目标损失所需的专家数量，或在固定预算下权衡扩展基础模型与增加专家，从而将模型合并从启发式实践转变为一种可计算、可规划的高效方案。

arXiv 数据/训练论文/研究

11:44

HuggingFace Daily Papers（社区热门论文）

叛逆学生：通过反转教师信号实现自蒸馏推理探索

传统自蒸馏方法在指导学生模型时，会覆盖其成功推理的路径，抑制其自主推理能力。本研究提出一种反向解读自蒸馏信号的新视角：当学生模型在教师模型未预测的路径上成功推理时，这些标记被视为其自主推理的体现。基于此，团队推出了RLRT方法，该方法在GRPO基础上强化正确生成轨迹中的此类标记，将其定义为一种基于学生自身成功的有价值探索，而非均匀多样性探索。在多个版本的Qwen3模型上，RLRT均显著超越了传统自蒸馏和基于探索的基线方法，确立了信息不对称作为强化学习与价值回归框架中一个新的原则性设计维度。

推理数据/训练论文/研究

11:36

IT之家（RSS）

打破"技术黑箱"，上海 AI 实验室等攻克芯片核心材料光刻胶稳定制备难题

上海人工智能实验室联合厦门大学、苏州国家实验室等单位，基于“书生”科学大模型与平台，构建了“AI决策+自动化合成”闭环研发体系，成功创制出高纯度、高一致性的KrF光刻胶树脂。该技术突破了长期依赖国外供应商“黑箱能力”的瓶颈，实现了成品树脂金属杂质含量稳定低于10ppb、分子量分布PDI稳定在1.3以下的关键指标。这为芯片材料领域提供了一条可标准化、快速迭代的新路径，相关成果产业指标已达预期，即将进入客户端验证阶段。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

将大型语言模型训练用于临床事件预测

本研究将Foresight Learning方法扩展至临床预测领域。核心创新在于，将MIMIC-III数据集中的纵向临床笔记转化为“上下文-问题-标签”三元组的训练样本，自动生成了涵盖用药、手术、死亡风险等多维度的6,900个预测实例。基于此训练的轻量级LoRA适配器，显著提升了模型的预测性能与校准能力，其预期校准误差从0.1269大幅降至0.0398，Brier分数从0.199降至0.145。该方法证明了无需人工构建结构化特征或专用分类器，即可从临床文本中提取可复用预测监督信号的可行路径。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

正交梯度投影用于缓解安全对齐税

大语言模型的安全后训练可能削弱其通用能力，产生“对齐税”。本研究将其视为持续学习问题：安全训练的梯度可能干扰已习得的通用能力方向。为此，我们提出正交梯度投影安全对齐方法。该方法从少量通用数据梯度中估计参考子空间，并在安全梯度更新时移除该空间的分量，从而在提升安全性的同时保留通用能力。实验证明，在SFT、DPO及SFT→DPO等流程中，该方法能显著改善安全与效用的权衡，例如在Qwen2.5-7B上平均性能增益从33.98%提升至42.74%。

安全/对齐数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于点互信息的推理强化学习反自蒸馏方法

研究发现现有自蒸馏方法在数学推理中效果不稳定，其根源在于“特权上下文”会过度强化解中已确定的结构化信息，同时削弱驱动多步推理的“思考性词元”权重。为此，本文提出反自蒸馏方法（AntiSD），通过反转优化方向，使学生模型主动远离教师分布，并结合熵触发门控机制，形成即插即用的改进方案。实验表明，在4B至30B参数模型上，AntiSD仅需更少训练步骤即可达到GRPO基线准确度，最终性能提升最高达11.5个百分点，为语言模型利用自身训练信号实现推理能力规模化提升提供了可行路径。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DocAtlas：跨80多种语言的多语言文档理解框架

DocAtlas是一个多语言文档理解框架，覆盖82种语言。它通过差异渲染与合成生成双流程，构建高保真OCR数据集与基准测试，产出统一结构化标注。研究评估16个模型，发现低资源语言存在性能差距。利用渲染生成的真值作为正向信号，通过直接偏好优化实现了稳定的多语言适配，在域内和域外准确性上均实现提升，且未损害基础语言性能。最佳模型变体DocAtlas-DeepSeek较最强基线提升1.7%。

Hugging Face 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

地理空间基础模型缺乏统一评估标准

当前地理空间基础模型研究缺乏统一评估标准、训练测试协议与预训练控制，导致模型难以公平比较。对152篇论文的审计发现，同一模型在相同基准上存在显著结果分歧；不同研究预训练配置几乎没有重复；且近四成论文未公开模型权重。为此，文章提出六项具体建议，包括发布带许可证权重、共享核心评估框架、明确基线来源、报告结果方差等，以推动社区建立协作标准，促进该领域健康发展。

开源生态数据/训练论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

HölderPO：一种基于Hölder均值的政策优化框架

针对Group Relative Policy Optimisation (GRPO)中固定聚合机制导致的训练崩溃问题，本文提出HölderPO框架。该框架利用Hölder均值统一token级概率聚合，通过参数p连续控制梯度集中与方差界限。理论分析表明，较大的p集中梯度以增强稀疏信号，较小的p则限制方差。为克服静态配置的局限，我们设计了动态退火算法，在训练中自适应调整p。实验显示，HölderPO在多个数学基准测试中平均准确率达54.9%，相对GRPO提升7.2%，并在ALFWorld任务中实现93.8%的成功率，显著提高了稳定性和收敛性。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

大语言模型推理中的自适应教师暴露自我蒸馏方法

研究发现，在LLM推理的自我蒸馏中，教师模型始终看到完整参考答案会导致师生能力不匹配，使学习目标过强。固定教师暴露程度并非最优，且不匹配性随教师所见信息增加而增长。为此，研究者提出自适应教师暴露方法（ATESD），通过一个轻量级Beta策略控制器，基于训练状态动态采样教师暴露比例，并使用基于未来改进的延迟学习进度奖励来优化控制器。在AIME 24/25和HMMT 25基准测试中，ATESD在Qwen3系列模型上均优于现有自我蒸馏和强化学习方法，取得了显著提升。

推理数据/训练论文/研究