5月28日

12:28

HuggingFace Daily Papers（社区热门论文）

该研究针对大语言模型在线强化学习中探索与利用的失衡问题，提出了新指标IB-Score，它基于信息瓶颈理论，量化了步级推理多样性与正确答案信息的权衡。分析表明，主流方法如GRPO难以维持此平衡。为此，论文提出IB-TPO框架，将IB-Score作为优化目标，并采用信息瓶颈引导的树采样策略，在相同token预算下可增加50%的轨迹。实验显示，该方法在标准基准上显著优于GRPO基线，性能提升2.9%至3.6%。代码已开源：https://github.com/alibaba/EfficientRL。

推理数据/训练论文/研究

12:28

HuggingFace Daily Papers（社区热门论文）

GEM：生成式监督助力具身智能

当前具身视觉语言模型（VLM）在高层语义与底层物理操作能力间存在差距。GEM 模型通过在预训练阶段集成深度图生成这一生成式监督任务来弥补该差距，联合训练显著提升了模型的语义理解与物理操作能力。配套发布的 GEM-4M 大规模数据集包含定位、推理和规划数据，并附带高质量深度监督。实验表明，GEM 在多项具身基准测试中达到领先水平，其部署的行动模型 GEM-VLA 在仿真与真实环境评估中均展现出卓越的任务执行能力。代码、模型与数据集已开源。

arXiv 具身智能开源生态数据/训练

11:28

HuggingFace Daily Papers（社区热门论文）

多模态智能体推理的智能体探索性策略优化

针对视觉语言模型在工具使用任务中存在的“思考-行动差距”（工具调用尝试率仅约30%，且其中约40%问题的所有工具调用均错误），研究提出AXPO（AI 智能体探索性策略优化）方法。该方法在标准强化学习（如GRPO）流程中，针对工具调用全错的子批次，固定思考前缀并重新采样工具调用及后续内容。在九个多模态基准和三种规模的Qwen3-VL-Thinking模型上，SFT+AXPO的平均性能优于SFT+GRPO（8B模型平均Pass@1和Pass@4均提升1.8个百分点）。8B的SFT+AXPO模型在Pass@4上甚至超越了参数量为其4倍的32B Base模型。

智能体 MCP/工具多模态数据/训练

11:28

HuggingFace Daily Papers（社区热门论文）

从小弱点学习：面向小型计算机使用智能体的自动化领域特化

针对小型开放计算机使用智能体在特定领域能力较弱且失败案例分布不均的问题，研究团队提出了LearnWeak框架。该框架利用一个更强的参考智能体，自动识别学生智能体在目标领域的弱点，并据此合成针对性任务以构建训练数据。LearnWeak进一步引入错误感知特化目标，能够区分规划与执行错误，实现更精确的行为更新。在OSWorld基准测试中，该方法使EvoCUA-8B和OpenCUA-7B模型在八个领域的平均性能分别提升了11.6和11.1个百分点。

智能体数据/训练论文/研究

11:28

HuggingFace Daily Papers（社区热门论文）

通过最优系数校准实现强化学习中的多Token预测联合训练

可验证奖励的强化学习已成为提升大语言模型推理能力的标准范式，而多Token预测是预训练中广泛采用的模块。当前实践通常分离两者的梯度，因为联合训练会导致性能下降。该研究从优化角度重新分析了这一问题，提出最优系数校准方法，能以极低开销在线追踪最优系数。在六个竞赛级数学推理基准测试中，OCC方法持续匹配或超越分离基线，改善了联合MTP-RL的训练性能。

arXiv 推理数据/训练论文/研究

10:28

HuggingFace Daily Papers（社区热门论文）

精选70

ResearchMath-14K：通过智能体扩展研究级数学

本文介绍了ResearchMath-14K，这是一个包含14,056个研究级数学问题的数据集，通过多智能体流程从学术资料中策划而成，是目前此类规模最大的集合。研究还生成了ResearchMath-Reasoning（包含220K条教师轨迹），发现语言模型存在回避行为，且新一代模型产生的引用和虚假引用分别是旧模型的5.6倍和5.0倍。经过智能体过滤后，对参数规模为4B到30B的Qwen3模型进行微调，其平均得分比基础模型提高了9.2分，表明过滤后的开放问题尝试能为研究级数学推理提供有效监督。该数据集已公开发布。

arXiv 推理数据/训练论文/研究

推荐理由：这可能是目前数学推理方向最有价值的数据集之一，它暴露了模型编造引用的问题，过滤后微调还能涨点，做数学推理的团队应该立刻拉下来试试。

09:09

MarkTechPost（RSS）

Sakana AI 提出 DiffusionBlocks：一种将残差网络转换为独立可训练去噪模块的分块训练框架

Sakana AI 提出了 DiffusionBlocks 框架。该方法通过将残差网络（Residual Networks）的层更新过程解释为反向扩散（reverse diffusion）的去噪步骤，从而将其转换为一系列可以独立训练的块。

数据/训练论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

基于LLM的多模态音乐推荐系统

研究提出一个基于LLM的多模态音乐推荐框架，在LastFM-1K数据集上融合三类信号：预训练模型提取的音频与歌词嵌入、使用MGPHot标注框架生成的LLM语义元数据、以及听歌完成率。该框架基于E4SRec扩展，集成SASRec、BERT4Rec、GRU4Rec等编码器，并引入LLaMa-2-13B、Qwen2.5-7B-Instruct和LLaMa-3-70B进行零样本与微调实验。相比仅使用歌曲ID的基线，内容特征融合使Recall最高提升95%、NDCG提升79%。研究还发现，简单拼接多模态特征并不总能带来叠加提升，并开放了一个大规模音乐推荐多模态基准。

arXiv 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

诊断答案正确的长链式推理训练轨迹中的有害延续

本研究探讨用于大语言模型监督微调的长链式推理轨迹。研究发现，即使推理轨迹答案正确，其在结论后仍继续的推理部分也可能对训练产生有害影响，导致微调结果显著不同。这种现象被定义为“有害延续”，其特征是持续的局部不确定性与减弱的终端方向进展不匹配。通过编辑器删除这些有害延续后，基于CoT的微调结果得到改善。研究进一步提出了Harmful Continuation Cut（HCC），作为近似有害延续边界的轻量级代理方法。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Draft-OPD：投机草稿模型的在线策略蒸馏

本文提出Draft-OPD，一种用于改进投机解码中草稿模型的在线策略蒸馏方法。针对现有监督微调方法（如EAGLE3、DFlash）存在的离线数据与推理状态不匹配问题，Draft-OPD采用目标模型辅助的序列展开，从验证步骤暴露的错误位置进行重放学习。这使草稿模型能从目标模型对其提议的接受和拒绝反馈中优化。实验表明，该方法对各类思考模型实现了超过5倍的无损加速，相比EAGLE-3和DFlash分别取得了23%和13%的性能提升。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

马尔可夫边界在表格预测中的应用：理论、实践与挑战

在标准图模型下，马尔可夫边界是使目标变量条件独立于其他特征的最小特征子集。本文在包含3450个任务的合成基准SCM3K上评估发现，直接将模型限制在理论“神谕”边界特征上，通常能显著提升预测性能，且特征空间越大越稀疏时改进越明显。然而，通过因果发现算法自动恢复边界再训练的常规流程效果不佳。原因有三：现有发现算法优化结构而非预测、误报与漏报的预测代价严重不对称，以及优于全特征的特征集远不止精确边界一种。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AnyMo：基于掩码建模的任意模态条件运动生成

提出OmniHuMo大规模高质量数据集，包含超过5000小时运动数据与320万序列，提供文本、语音、音乐和轨迹等多模态精准标注。基于此构建AnyMo统一多模态框架，结合Residual FSQ运动分词器与可扩展的掩码建模Transformer，支持任意模态组合下的高保真实时运动生成，并能灵活控制运动的空间与风格属性。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

多阶段适配器感知定向遗忘

当前机器遗忘评估存在结构性偏差，测试“为什么”类因果知识的问题在主流基准中占比极低（不足1.3%）。为此，研究提出5WBENCH基准，其包含5,000个样本，均匀覆盖“5W”类别，使因果遗忘失败首次变得可量化。分析表明，现有方法无法在“为什么”类问题上同时实现高遗忘与高保留，因为这类问题涉及多跳推理链（44%）和超过40个token的答案跨度。研究提出MAAT框架，该方法在LoRA适配器权重上进行三阶段操作，结合梯度投影上升、SVD秩维剪枝、任务向量取反和混合KL-隐藏状态保留修复，是首个在因果知识上实现高遗忘与高保留平衡的方法。

arXiv 安全/对齐数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LongDS：长期智能体数据分析能力的基准评测

该研究引入LongDS基准，评估AI智能体在长期、多轮数据分析任务中维护动态分析状态的能力。该基准包含68个源自真实Kaggle笔记本的任务，覆盖6个领域，共计2225轮次，任务设计围绕状态演化模式（如反事实扰动、回滚）。对五个前沿模型的评估显示，最佳模型的平均准确率仅为48.45%，其性能从早期轮次到晚期轮次下降近47个百分点，且长期错误是主要失败原因，占比52%-69%。研究指出，单纯增加智能体的交互步骤并不能有效提升性能，关键瓶颈在于正确维护随时间演变的分析状态。

智能体 arXiv GitHub 数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

探索面向模型专化的自主智能体数据工程

大语言模型在通用任务上表现强劲，但在适应专业领域时往往缺乏高质量领域数据。现有方法依赖人工设计的工作流，本研究正式提出“自主智能体数据工程”这一新任务，旨在评估LLM作为自主数据工程师执行端到端数据整理流程以实现模型专化的能力。实验表明，GPT-5.2作为自主数据工程师，通过智能体驱动的迭代数据适配，构建训练课程使学生模型性能提升57.29%。研究将自主数据工程确立为一种可量化的能力，为智能体驱动的模型专化指明了路径，代码将于 https://github.com/zjunlp/DataAgent 发布。

智能体数据/训练论文/研究

07:07

Anthropic：Research（发表成果 · 网页）

精选69

社会科学中的编码智能体

一项针对1260名定量社会科学家的调查显示，虽然81%的受访者用过AI聊天机器人，但仅有20%将Claude Code、Codex等编码智能体常规应用于工作。采用率存在显著差异：以男性名字命名的研究者使用率是女性研究者的两倍；顶尖大学研究者可能性高出40%。用户产出更多工作论文和基金申请，但这可能反映早期采用者自身差异。研究者对AI助力撰写可发表论文更乐观，但对重塑整个社会科学领域持保留态度。这是一项初步调查，更深入研究仍在进行中。

智能体 Anthropic 数据/训练论文/研究

推荐理由：Anthropic 这份调查把编码代理在社科领域的真实渗透率摸清了，只有 20% 的研究者真在用，而且男女、校际差距比 AI 聊天工具大得多，做学术工具的可以认真看看。

04:14

IT之家（RSS）

Marvell 2027 财年第一财季归母净利润 3450 万美元，同比下降 80.61%

数据/训练行业动态

04:08

Ars Technica：AI（RSS）

Nvidia CEO 希望台湾成为"AI革命"的中心，而非美国

Nvidia CEO 表示，Nvidia 将每年投资 1500 亿美元，旨在将台湾打造为“AI中心”。

数据/训练行业动态部署/工程

04:08

TechCrunch：AI（RSS）

薪资初创公司 Remote 称，其每位员工收入增长50%，且未增加员工数量

薪资服务商 Remote 近期年经常性收入（ARR）突破3亿美元，并实现现金流转正。这一增长得益于采用AI技术，使该公司每位员工产生的收入提升了50%，且此过程中未扩充团队规模。

数据/训练行业动态部署/工程

02:03

Hacker News 热门（buzzing.cc 中文翻译）

PostHog 将使用您的数据来训练 AI 模型（默认已启用）

数据分析平台 PostHog 宣布将使用用户数据训练其 AI 模型，且该功能默认为启用状态。用户需主动操作以退出此计划。

数据/训练行业动态

5月27日

22:20

Hugging Face：Blog（RSS）

精选61

TRL 新增 Delta Weight Sync：通过 Hub Bucket 传输权重变化，每步从 1.2 GB 降至 20-35 MB

异步强化学习中，训练器每步需将完整模型权重（如1T参数checkpoint约1 TB）传输给推理引擎。TRL新增PR利用相邻RL优化步骤间约99%的bf16权重比特相同的特点，仅将变化的权重编码为稀疏safetensors文件，上传至Hugging Face Bucket并通知vLLM获取。在Qwen3-0.6B上，每步传输从1.2 GB降至20–35 MB。实验还展示了完全分离的训练场景：训练器、vLLM和Wordle环境分别位于不同机器和Hugging Face Space中，权重通过单个Hub bucket流动，无需共享集群、RDMA或VPN。

Hugging Face 教程/实践数据/训练部署/工程

推荐理由：异步RL训练中权重同步的瓶颈被HuggingFace用稀疏增量方案解决了，带宽直接省了两个数量级，还给了可运行的TRL分支，做RL训练的可以直接上手试。

21:07

Artificial Intelligence News（RSS）

探讨 AI 智能体在外汇交易市场中的优势

外汇市场正从纯粹依赖直觉，转向一个由速度、数据和精确性塑造的领域。在日常交易中使用自动化系统（如 AI 交易机器人），可以在市场波动中保持交易纪律，这是手动交易难以做到的。交易的每一次入场和出场都可以基于明确的规则，而非个人情绪。

教程/实践数据/训练

17:19

HuggingFace Daily Papers（社区热门论文）

在噪声中学习行动：通过噪声环境增强智能体鲁棒性

现有大语言模型智能体在理想化基准测试中表现良好，但在具有固有随机性和缺陷的真实环境中部署时，性能常会下降。研究提出了NoisyAgent训练框架，旨在缩小这一差距。该框架通过模拟真实场景中的“用户噪声”（交互的歧义性）和“工具噪声”（工具执行失败）两类噪声源来增强智能体。训练过程中，噪声被策略性地施加于部分训练轮次，并随着模型适应而逐步增加难度。实验表明，该方法在噪声和动态环境中持续提升了智能体的鲁棒性，且在理想化基准测试上也获得了性能增益，证明了建模交互缺陷对于弥合训练与现实部署差距的重要性。

智能体 arXiv 数据/训练论文/研究

17:14

IT之家（RSS）

华为郑俊谈中美 AI 竞争：模型整体水平差距仅 2.7%，今年 2 月以来中国模型的调用量持续碾压美国

华为技术有限公司金融系统部CTO郑俊表示，根据斯坦福最新报告，中国AI模型整体水平仅落后美国2.7%。自2025年2月以来，中国模型的调用量持续超过美国模型。主要原因有二：国内开源模型能力大幅提升，已逼近美国闭源模型水平；中国依托基础设施优势，包括算力和电力资源，使国产AI模型具备更强的价格经济性。

大佬观点开源生态数据/训练

16:14

IT之家（RSS）

首批第三方 PCIe Gen6 SSD 将至：十铨 T-CREATE MASTER Ai I6E 顺序读可达 28GB/s

十铨科技将在Computex 2026展出一系列存储器新品。核心产品是面向AI训练、超大规模推理等高性能计算场景的T-CREATE MASTER Ai I6E固态硬盘。作为首批第三方PCIe Gen6 SSD，它采用EDSFF E1.S规格，顺序读取速度可达28GB/s。面向消费市场，将发布以碳纤维设计为核心的CARBON STYLE系列，涵盖DELTA RGB DDR5、XTREEM DDR5内存及基于群联E37T主控的Z54E固态硬盘。此外，整合微型风扇与水冷系统的T-FORCE LIQUID II SSD散热器、CQDIMM版本的T-CREATE EXPERT AI内存条等新品也将亮相。

产品更新数据/训练部署/工程

13:37

MarkTechPost（RSS）

MEMO：一个无需修改大语言模型参数即可在新知识上训练专用记忆模型的模块化框架

新加坡国立大学、麻省理工学院及A*STAR的研究团队提出了MEMO框架。该框架可以将新的语料库知识编码到一个独立的、可训练的MEMORY模型中，从而让大语言模型获得新知识，而无需修改其原始参数。

数据/训练论文/研究

12:13

IT之家（RSS）

同事件精选75

AI 制造 AI：面壁智能开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain

面壁智能联合清华大学与OpenBMB开源社区发布了ForgeTrain框架。该框架是全球首个完全由AI编写、零人类代码介入的生产级大模型训练框架。面壁智能已使用ForgeTrain在华为昇腾芯片上完成了其新一代「小钢炮」模型MiniCPM5-1B的预训练，其综合性能在AA榜单上位列2B规模以下Top 1。ForgeTrain框架代码及用于制造该框架的Agent Harness工具链已完全开源。

智能体 Hugging Face 开源/仓库开源生态

同一事件，精选展示《AI 制造 AI：面壁智能发布并开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain》

推荐理由：全球首个AI独立编写的训练框架，零人类代码，并且真的在国产芯片上训出了领先模型。'AI造AI'的闭环第一次被完整打通，做模型训练的团队都该去fork一下，复现过程本身就是一堂课。

11:35

公众号：面壁智能（MiniCPM）

精选64

AI 制造 AI：面壁智能发布并开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain

面壁智能联合清华大学、OpenBMB发布ForgeTrain，全球首个完全由AI编写、零人类代码介入的生产级大模型训练框架。在英伟达H100上训练速度超越Megatron 10%，节省10%算力；在华为昇腾上完整跑通预训练，并训出MiniCPM5-1B模型，综合性能在AA榜单2B规模以下Top1。框架及Agent Harness工具链一并开源。

开源/仓库数据/训练部署/工程

推荐理由：面壁这波把 AI 写代码从玩具推进到了生产车间，ForgeTrain 跑得比英伟达 Megatron 还快 10%，而且直接在昇腾上训出了 MiniCPM5-1B，国产算力跟 AI 自举这两条线在这一刻交汇了，做训练的可以认真看看。

11:13

IT之家（RSS）

最高法：研究制定涉 AI 案件和数据产权司法保护规范性文件

最高人民法院表示，将针对数字经济新业态，研究制定涉人工智能案件和数据产权司法保护的规范性文件，并完善数据权属、数据交易、AI 生成等方面的裁判规则。

政策/监管数据/训练

10:19

HuggingFace Daily Papers（社区热门论文）

递归流匹配

递归流匹配（RecFM）是一种用于预测复杂时空动态的生成式框架。该模型通过强制自一致性来对齐跨离散化尺度的轨迹，从而减少离散化误差并提升物理任务的各项性能。据称，这是首个能够为科学系统实现高保真度一步与少步（2-4步）动态生成的方法，其性能可与最先进的多步求解器相媲美。在多个科学基准测试中，RecFM 实现了最高 20 倍于领先扩散模型的速度提升，同时提高了预测精度。与基础流匹配相比，其均方误差降低了超过 15%。

arXiv 推理数据/训练论文/研究

10:19

HuggingFace Daily Papers（社区热门论文）

空间基础模型基准测试 SpatialBench：你的模型是全能选手吗？

空间基础模型虽在标准数据集上表现优异，但其在不同任务、视角、场景、输入密度和硬件下的真实泛化能力尚未得到全面评估。为此，研究者提出了跨范式、多领域的基准测试 SpatialBench，包含19个数据集、546个场景，覆盖5个空间领域。该基准对41个模型在6种范式和4种输入密度下进行了评估，发现当前模型尚未达到“全能”水平。研究表明，全上下文注意力能最大化精度，有界内存策略可提升长序列扩展能力，且在具身任务中，严格的领域对齐与数据质量远比单纯增加数据量更重要。此外，研究还引入了大规模数据集 DA-Next-5M 及强基线模型 DA-Next。

arXiv 具身智能多模态数据/训练

10:19

HuggingFace Daily Papers（社区热门论文）

LocateAnything：基于并行框解码的快速高精度视觉语言定位

LocateAnything 提出了一种统一的生成式视觉定位与检测框架，其核心是并行框解码（PBD）技术。该技术将边界框和点等几何元素作为原子单元一步解码，替代了传统视觉语言模型中串行解码坐标 token 的方式，从而保持了框内几何一致性并实现了大规模并行，显著提升了解码吞吐量与定位精度。研究还构建了包含超过 1.38 亿训练样本的大规模数据集 LocateAnything-Data。评估表明，LocateAnything 在提升解码速度的同时，改善了高交并比（high-IoU）下的定位质量。

多模态数据/训练论文/研究

10:19

HuggingFace Daily Papers（社区热门论文）

尺寸可忽略，影响却显著：论大语言模型中的缩放向量

本研究系统考察了大语言模型中可学习缩放向量的作用。尽管其参数占比极小，但移除后会显著损害模型预训练效果。研究表明，在Pre-Norm架构中，其主要作用并非增强模型表达能力，而是通过自放大的预处理效应优化后续的线性映射。此外，权重衰减对Input-Norm层有益，但对Output-Norm层有害。基于这些发现，文章提出了三种轻量化改进：分支特异性异构性、线性映射周围的改进放置以及幅度-方向重参数化，并将其整合为一个统一的策略。实验验证表明，该策略在以可忽略不计的额外参数和计算开销下，能一致实现更低的最终损失和更优的缩放行为。

数据/训练论文/研究

09:13

IT之家（RSS）

Counterpoint：2026Q1 全球 DRAM 收入达 970 亿美元，环比激增 80%

2026年第一季度全球DRAM收入达970亿美元，环比激增80%，同比增长260%。三星以38%的市占领先，SK海力士和美光分别为29%和22%。增长动力主要来自AI数据中心对LPDDR5X和HBM内存的强劲需求。预计第二季度DRAM均价将环比上涨50%，全年市场规模有望实现三倍增长。

数据/训练现象/趋势

08:00

HuggingFace Daily Papers（社区热门论文）

RAT+：用指数衰减记忆增强注意力，改善查询感知KV稀疏性

RAT+ 引入指数衰减记忆增强注意力，使模型在推理时支持灵活的空洞注意力。将 RAT+ 与 Quest、MoBA、SnapKV 等查询感知稀疏推理方法结合，在八个 needle-in-a-haystack 任务上，不同稀疏预算下均一致优于标准注意力。验证基于 RAT+ 已发布检查点及用额外 10B token 继续预训练的 OLMo2-7B。最后提出两种假说解释记忆模块为何有益。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

深度学习的Hamilton-Jacobi理论

该论文将神经网络训练过程重新解释为对Hamilton-Jacobi初值问题的搜索。每次梯度下降都为粘性Hamilton-Jacobi方程选择初始数据，使得其Hopf-Cole传播器最佳拟合观测数据。此对应关系在log-sum-exp层中是精确的，对残差网络、Transformer及各类循环架构（RNN、LSTM、SSM）等更广泛的网络结构则是结构性的。一个变形参数ε统一了神经网络、热带代数、粘性偏微分方程与凸优化四个视角。定量结论包括：泛化率下界、由ε控制的对抗鲁棒性、将反向传播解释为残差网络Hamilton系统的共态方程，以及具有闭式解O(N)的影响函数。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

行为规格：作为AI个性化的解释层

AI智能体需与用户对齐，提出“代表准确性”衡量个性化理解保真度。通过“行为规格”将用户数据压缩为解释模式，在14个公共领域自传体语料库上显著提升代表准确性，上下文成本降低约25倍。该方法在基准测试中优于Mem0、Letta、Supermemory、Zep四种商业记忆系统。对需要解释的问题提升最大，但对需要回忆的问题可能干扰。代表准确性区别于回忆能力，使AI对齐可测试。

安全/对齐数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

RUBRIC-ARROW：面向非可验证领域LLM后训练的逐点评分标准奖励建模

RUBRIC-ARROW是一个用于解决大语言模型在主观、非可验证领域进行后训练时，评分标准奖励模型所面临的评分僵局问题的交替式奖励建模框架。该框架联合训练一个评分标准生成器和一个基于该标准的评判者，其强化学习阶段仅使用成对偏好数据。核心方法在于采用概率评分规则以减少平局，并结合交替式GRPO方案，利用阶段性偏好奖励训练逐点评分评估器。实验表明，该框架在奖励建模准确性上具备竞争力，并能为下游策略后训练带来一致收益。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Skill0.5：一种面向分布外泛化的联合技能内化与利用智能体强化学习框架

针对大语言模型在技能利用中外部化与内部化的两难困境，本文提出了Skill0.5框架。该框架通过一个动态、难度感知的路由器，将任务分流至不同的掌握层级。对于通用技能，通过特权蒸馏进行内化，为处理困难任务构建认知基础；对于任务特定技能，则在简单任务上通过诊断探测来强制利用，以避免捷径学习。在ALFWorld和WebShop基准测试中，Skill0.5在分布内和分布外场景下均优于现有的基于记忆和基于技能的强化学习基线方法。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Parallax：面向语言建模的参数化局部线性注意力

Parallax是一种可扩展至大语言模型的参数化局部线性注意力机制。它消除了局部线性注意力中的数值求解器，并引入额外的查询投影器来探测KV协方差。该研究提出一种硬件感知算法，其算术强度优于FlashAttention，将注意力转向更计算密集的模式。其原型解码内核在不同批次大小和上下文长度下匹配或超越FlashAttention 2/3。在0.6B和1.7B规模的预训练中，Parallax展现出持续的困惑度改进，且该收益可迁移至下游基准测试。研究还发现Muon优化器能有效释放Parallax的性能潜力。

开源生态数据/训练论文/研究