5月30日

08:00

HuggingFace Daily Papers（社区热门论文）

半监督噪声自适应（SSNA）提出利用简单分布（如高斯分布）构造的合成噪声领域作为源域，在半监督设置下（仅少量目标样本有标签）提升目标域的泛化。基于该问题，建立了刻画噪声领域影响的目标域泛化界，并提出噪声自适应框架（NAF）。实验表明NAF有效利用噪声领域收紧目标域的泛化界，提升性能。代码已开源。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

针对Mixture-of-Experts模型的置信度自适应SwiGLU

本研究提出了置信度自适应SwiGLU，这是面向Mixture-of-Experts模型的一种SwiGLU变体。该方法根据token级的路由置信度动态调整专家门控的锐度，通过将SiLU门控的锐度系数参数化为路由器对数几率的可学习函数，使每个门控单元能在平滑的广泛激活与尖锐的选择性门控之间自适应插值。在FineWeb-Edu数据集上针对不同规模的MoE Transformer模型评估表明，κ-SwiGLU在引入极少量额外参数和微小计算开销的前提下，提升了模型的平均CORE性能。

数据/训练论文/研究

07:48

MarkTechPost（RSS）

NVIDIA 推出 X-Token：投影引导的跨Tokenizer知识蒸馏，在 Llama-3.2-1B 上平均分超越 GOLD +3.82

NVIDIA 发布 X-Token 技术，通过解决 GOLD 方法中的两个结构性缺陷，将 Llama-3.2-1B 模型在 GSM8k 基准上的准确率从 2.56 提升至 15.54。

数据/训练论文/研究

01:45

The Verge：AI（RSS）

科技公司迫切希望拍摄你做家务的画面

AI训练数据初创公司Shift宣布将为纽约人提供免费家庭清洁服务，并计划扩展至伦敦等城市。作为交换，Shift要求拍摄其清洁人员工作的视频，记录洗碗、擦柜台、扫地、拖地等所有家务劳动。这些视频数据正被机器人公司竞相收集，用于训练机器完成家务，最终目的是销售家用服务机器人。

具身智能数据/训练现象/趋势

00:18

Ars Technica：AI（RSS）

机器人训练初创公司将派戴摄像头的人上门清洁

一家初创公司正采用一种新方式为机器人训练收集数据：支付费用，让人类佩戴头戴摄像头，上门执行清洁任务，从而获取第一人称视角的操作数据。

具身智能数据/训练行业动态

5月29日

20:15

The Verge：AI（RSS）

这家 AI 创业公司将免费为你打扫房屋，以训练未来的机器人

AI训练数据初创公司Shift宣布了一项独特的服务：为用户免费提供房屋清洁。条件是，公司会录制清洁工清洁、吸尘、除尘、整理和清洗的全过程，并将这些视频数据用于训练机器人。Shift解释称，由此生成的训练数据价值足以支付整个服务的成本。其宣传语称：“你获得一尘不染的公寓。我们获得训练数据。每个人都赢。”

具身智能数据/训练行业动态

18:21

IT之家（RSS）

美初创公司 Shift 声称可以免费帮你打扫房屋，代价是全程录像以训练自家 AI

美国公司 Shift 在纽约市提供免费公寓清洁服务，作为交换，专业清洁人员需全程佩戴设备录制第一视角画面。这些视频将被用于制作数据集，授权给机器人和人工智能训练，以学习人类完成日常任务的操作数据。Shift 声称，所有画面会在使用前进行匿名化处理，模糊所有可识别个人信息，且录像仅用于训练，不会公开分享或出售。目前服务范围限于纽约，未来计划扩展至全球并提供上门维修、跑腿等更多免费服务。

具身智能数据/训练行业动态

16:48

MarkTechPost（RSS）

介绍 mKernel：一个用于 GPU 驱动通信的多 GPU、多节点融合内核库

加州大学伯克利分校的 UCCL 团队发布了 mKernel，该工具将节点内 NVLink 通信、节点间 RDMA 通信以及密集计算融合成一个持久化 CUDA 内核。

开源/仓库数据/训练部署/工程

15:48

MarkTechPost（RSS）

Hexo Labs 开源 SIA：一个自我改进的智能体，可同时更新框架与模型权重

Hexo Labs 开源了 SIA，这是一个遵循 MIT 许可证的自我改进循环。其中的反馈智能体会读取每次执行的轨迹，然后重写运行框架或触发对 gpt-oss-120b 模型的 LoRA 权重更新。结合这两种调整方式，在 LawBench、TriMul GPU 内核以及 scRNA-seq 去噪任务上，效果均优于仅迭代框架。

智能体开源/仓库数据/训练

12:29

HuggingFace Daily Papers（社区热门论文）

LoRA适配器后门攻击中的Token级泛化：攻击刻画与行为检测

研究表明，可通过训练数据投毒为微调大语言模型的主流分发格式LoRA适配器植入后门，同时保持基线任务性能。在通义千问（Qwen）2.5 1.5B提示注入分类器上，少量投毒样本即可触发一个保持清洁准确率的饱和后门。该后门在Token特征层面而非结构模式层面泛化。研究表征了攻击在模型规模、LoRA rank和触发字符串上的特性，并评估了两种互补的检测方法：一种是基于探针电池统计量的行为检测器；另一种是无需运行模型的权重级统计量（归一化Frobenius范数的跨模块标准差）。因果定位将后门定位于中后层MLP模块的down_proj投影。

安全/对齐数据/训练

11:35

公众号：面壁智能（MiniCPM）

精选61

面壁智能联合清华、OpenBMB开源最大中文预训练合成数据集及千万级SFT数据集，公开MiniCPM5-1B核心数据

面壁智能联合清华大学、OpenBMB发布并开源两大数据集：Ultra-FineWeb-L3（超600B Tokens，中文200B+，为当前最大中文预训练合成数据集）和UltraData-SFT-2605（国内首个千万级同时含深思考与非思考标注的SFT数据集）。两者基于UltraData数据分级治理体系构建，在MiniCPM5-1B训练流程中得到完全验证，覆盖预训练退火到后训练SFT全链路。已上线UltraData网站与HuggingFace，免费开放。

Hugging Face 开源/仓库数据/训练端侧

关联讨论 1 条

推荐理由：填补了中文大规模合成数据空白，三年前还在用英文数据做中文模型的日子可以翻篇了，做端侧模型的可以直接拿这份数据跑一版 MiniCPM5-1B 级别的效果。

11:29

HuggingFace Daily Papers（社区热门论文）

神经物体运动学：NeuROK

当前数据驱动方法在静态3D物体重建上表现突出，但生成符合物理规律的4D动态形变仍具挑战，现有方法多依赖预定义物理模型与参数估计，局限于特定类别。该研究提出NeuROK，通过学习一个表征物体所有可能状态的潜空间及一个将潜空间采样映射为合理形变形状的解码器，实现了数据驱动的运动状态参数化。其在大规模4D数据集上训练了基于Transformer的编码器-解码器模型，将动态生成简化为低维潜空间中的操作，从而能更高效地生成多类物体的逼真动态。

多模态数据/训练论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

大模型为何能学会更多：容量、干扰与罕见任务保持效应

本研究探讨了更大模型能学习小模型无法掌握任务的原因。通过合成数据实验发现，小模型因神经元资源有限，倾向于将其分配给高频或低复杂度任务，导致其在罕见复杂任务上表现不佳，即使存在可表达该任务的潜在解。大模型则通过一种减弱的干扰机制克服此瓶颈：它们能为常见任务分配足够资源，使得相关梯度更新变弱，从而让罕见任务特征得以缓慢积累而不被覆盖。使用OLMo模型（4M至4B参数）在新任务上的预训练验证了这一结论：只有更大的模型学会了不频繁且复杂的任务，且这些模型在表征中嵌入了更多任务特征，任务间的梯度干扰更少。

数据/训练论文/研究

10:29

HuggingFace Daily Papers（社区热门论文）

LaRA：基于逐层表征分析的强化学习后训练数据污染检测

强化学习后训练能提升大语言模型的推理能力，但也可能引入数据污染，影响模型泛化和评估可靠性。现有基于输出层信号的检测方法对RL模型效果不佳。为此，研究提出了LaRA框架，通过逐层分析模型表征来检测污染。该框架引入三个互补指标，分别度量受控扰动下的扰动敏感度、方向坍缩和局部表征刚性。研究发现，污染会导致模型表征在各层出现渐进式几何偏差。基于此，研究开发了一种聚合各层与各指标表征偏差的检测协议，实验表明其性能优于现有的输出级基线方法。

arXiv 推理数据/训练论文/研究

10:29

HuggingFace Daily Papers（社区热门论文）

LoRA 如何记忆？大语言模型微调中的参数记忆定律

本研究使用 LoRA 作为控制探针，系统量化了大语言模型的精确参数记忆能力。提出了参数记忆定律，建立了损失减少量与有效参数及序列长度之间的稳健幂律关系。在 token 层面的分析揭示确定性相变，表明预测概率 p > 0.5 是贪心解码下实现逐字记忆的充分条件。基于此，设计了阈值引导的优化策略 MemFT，能动态重分配训练预算以提升记忆保真度与效率。代码将发布于 https://github.com/zjunlp/ParametricMemoryLaw。

GitHub 开源生态数据/训练论文/研究

10:29

HuggingFace Daily Papers（社区热门论文）

LiteCoder-Terminal：构建用于训练语言智能体的可扩展长周期终端环境

训练能够进行多步规划和动态适应的终端环境语言智能体，其瓶颈在于依赖外部爬取的仓库。研究团队提出了零依赖的合成管道LiteCoder-Terminal-Gen，可从领域规范自主生成可执行、可验证的终端环境。基于此构建了两个大规模资源：包含10个领域、11,255条专家轨迹的SFT数据集，以及拥有602个可验证环境用于轨迹偏好优化的RL环境。在SFT数据集上对通义千问（Qwen）系列模型进行微调后，智能体性能显著提升，其32B变体在Terminal Bench 1.0、2.0和Pro上分别取得29.06%、18.54%和34.00%的pass@1分数。应用Direct Multi-turn Preference Optimization（DMPO）可带来进一步性能提升。

智能体数据/训练论文/研究

09:39

公众号：蚂蚁百灵（Ling）

蚂蚁百灵团队提出 PowLU 激活函数，解决低精度训练中 SwiGLU 的异常值问题

SwiGLU 在大模型低精度训练中因输出近似二次增长导致异常值逐层放大，引发 Loss Spike。蚂蚁百灵（Ling）团队提出的 PowLU，在正半轴用幂函数替代指数衰减因子，使增长曲线更平缓。Scaling Law 实验（26M–368M 参数）显示 PowLU 与 SwiGLU 拟合曲线几乎重合；7.9B（600B token）和 124B（800B token）模型在 17 个基准上 PowLU 均优于或持平 SwiGLU。FP8 训练下 PowLU Loss 稳定在约 1.32，有效压缩数值动态范围，减少极端异常值。

数据/训练论文/研究

09:21

IT之家（RSS）

精选71

三星电子业内率先出样 HBM4E 内存

数据/训练行业动态

推荐理由：三星的HBM4E把单堆栈带宽推到3.6TB/s，能效再提16%，对LLM训练是实打实的硬件升级，做AI基础设施和模型训练的可以关注后续量产时间。

08:21

IT之家（RSS）

苹果 iOS 27 爆料：用 Gemini 训练本地 AI，部分 Siri 请求转向谷歌云

Google 数据/训练端侧行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

AgentOdyssey：用于测试时持续学习智能体的开放式长周期文本游戏生成

AgentOdyssey 是一个程序化生成开放式文本游戏的评估框架，用于衡量智能体在测试时的持续学习能力。游戏包含丰富实体、世界动态和长周期任务，要求智能体在部署中交替进行学习与推理。评估体系不仅跟踪游戏进度，还诊断世界知识获取、情景记忆、探索多样性及模型成本。实验显示，即使最强基础模型驱动的智能体也远低于人类水平，而短期记忆对多种智能体范式有显著提升作用。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

蒸馏LLM反馈用于Lean定理证明

针对推理模型后训练中GRPO存在的稀疏奖励、有限探索和模式坍缩问题，提出Feedback Distillation方法。该方法让模型在token级别匹配其自身分布（基于语言模型提供的特权反馈），提供token级监督并注入外部知识。在Lean4定理证明任务上，Feedback Distillation相比GRPO保持更高轨迹多样性，获得更高策略熵和更好的pass@k缩放。两种方法互补：从Feedback Distillation检查点初始化GRPO优于单独使用任一方法，为改进复杂推理后训练提供了有前景的方向。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MechVQA：全面机械图纸理解的多模态大语言模型基准与增强

MechVQA是一个面向机械工程图纸理解的全面数据集，通过半自动构建与质量控制流程生成，包含3.3k高密度图片和21K问答对，覆盖识别、推理、判断三个能力层级的10种细粒度任务。基于该数据集，研究团队开发了MechVL模型，采用多阶段训练范式，在MechVQA总分上超越最强闭源基线7.57个百分点，显著提升机械图纸理解能力，为多模态大语言模型在机械设计与检测场景中的应用提供了可复用基础。

arXiv 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

组合式合成：通过原子分解与重组扩展代码 RLVR 训练规模

针对可验证奖励强化学习（RLVR）中足够有挑战性的代码任务稀缺、现有种子扩展法限制新颖性与难度的问题，提出原子分解与重组（ADR）框架。ADR 将代码任务分解为原子元素并受控重组，从而生成真正新颖且高难度的可验证代码任务。实验表明，ADR 在原创性、难度、多样性和测试质量上均优于现有基线，并在算法编程、工具使用和数据科学等多个下游领域的 RLVR 训练中持续带来更大的代码能力提升。

arXiv 数据/训练编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DOMINO：通过最小充分表示学习实现大语言模型领域数据合成

针对LLM微调中高质量数据获取难的问题，现有合成方法依赖自然语言描述，不适用于难以表述的领域。本文提出DOMINO，仅以参考样例定义目标领域，通过学习最小充分表示引导生成域对齐数据。DOMINO结合提示调优与对比解缠目标分离域模式与样本噪声。在隐式领域定义的编码基准上，基于DOMINO合成数据微调相比强指令调优基线，Pass@1准确率最高提升4.63%，实现无需手动提示或自然语言规范的自动化域适配。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MIRA：基于自锚定评分发现的源感知数据选择

大语言模型中间训练的数据选择面临异构来源和不同格式的挑战，需兼顾可扩展性与源自适应语义标准。现有方法或仅提供隐式质量信号，或依赖固定评分规则。MIRA提出自锚定评分发现框架，先为每组数据源发现应评估的维度，再将判断蒸馏为可扩展的学生评分器用于全语料过滤。在21个来源、5个源组的代码中间训练中，MIRA在9个代码基准上超越多种基线，仅用半数模型token即达到全语料效果。

开源生态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

大规模多语言平行数据的模型化质量评估

针对大规模多语言平行数据中存在的非平行句对与低质量翻译问题，该研究将模型化评估分解为两个部分。一是基于多语言嵌入向量的平行性评估，在FLORES-200和BOUQuET任务上对四个嵌入模型进行了基准测试，覆盖6,654个源-目标方向。二是无参考质量评估，在FLORES-200的专业翻译上评估了九个无参考评估器，覆盖41,412个有序方向。结果显示，没有模型在所有翻译方向上都可靠，简单的质量评估集成会稀释强模型的信号，而文档化的目标语言覆盖率与更高的质量评估分数密切相关。这些发现表明，该问题最好被视为一个方向感知的路由和校准问题。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SOCO：视觉基础模型中的语义物体对应基准测试

为评估视觉基础模型对物体部件的细粒度理解能力，研究提出了新基准SOCO。该基准建立了语义对应类型分类体系，提供了跨100个类别、超过100万对应对的统一关键点标注，并包含关键点语言描述，以支持对大型视觉-语言模型的评估。实验发现，视觉基础模型虽编码了强语义结构，但在相关类别间的对应关系迁移能力较弱；大型视觉-语言模型在文本提示的部件定位上优于视觉参考的跨图像匹配；且对应性能比分更能预测分割、跟踪等密集预测下游任务的表现。

arXiv 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DRIFT：解耦式采样与重要性加权微调实现高效多轮优化

针对多轮交互场景中在线强化学习成本高昂与离线监督微调存在分布偏移的困境，论文提出 DRIFT 框架。该框架将 KL 正则化 RL 目标等效为重要性加权监督学习，通过从固定参考策略采样离线交互轨迹、计算基于回报的重要性权重，再用加权 SFT 进行策略优化。实验表明，DRIFT 在匹配或超越多轮 RL 基线性能的同时，保持了标准监督微调的训练效率和简洁性。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于人类反馈的强化学习的另一面：奖励模型自监督改进的策略内反馈

构建用于大语言模型对齐的强奖励模型，其瓶颈在于获取多样化、可靠的人类偏好数据成本高昂，且当策略模型超出静态奖励模型训练范围时问题加剧。为此，研究提出SAVE框架，它利用价值函数对策略内生成的响应进行评分，将该评分作为反馈信号用于奖励模型的自监督训练。该框架通过提示特定的价值头作为自适应锚点，将评分后的响应转化为监督信号，计算奖励模型优势值并过滤模糊样本，最终通过对比目标更新模型。在六个多样化基准测试上的严格评估验证了其有效性，结果在所有数据集上超越基线，并在GRPO、RLOO、GSPO三种RL算法及不同策略主干上保持一致改进。

安全/对齐数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SCOPE：通过共同演化策略实现开放式任务的自我对弈

SCOPE是一个无需数据、通过自我对弈提升模型开放式任务能力的框架。它通过共同演化两个策略来工作：一个“挑战者”生成基于文档的任务，一个“解答者”通过多轮检索来回答。模型自身的一个冻结副本作为自我裁判，为任务生成评分标准并打分。在三个7-8B参数的指令微调模型（Qwen2.5， Qwen3， OLMo-3）上进行的实验显示，SCOPE将开放式任务性能在八个基准上最高提升了10.4分，达到或超过了使用约9K精调提示训练的GRPO_data。尽管仅针对开放式任务训练，SCOPE在七个留出的简短问答基准上也带来了最高13.8分的提升。消融实验表明，共同演化挑战者对维持任务难度是必要的，检索与合成能力均有贡献，而生成质量是自我评判的瓶颈。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Count Anything

为解决现有对象计数模型在跨类别、跨领域和跨密度分布场景下泛化能力不足的问题，本研究提出了Count Anything，一个文本引导的通用对象计数模型。该模型以图像和自然语言查询为输入，输出实例级的目标点集并以点数作为计数值。为此，研究构建了CLOC跨域大规模对象计数数据集，涵盖六个视觉领域约22万张图像、619个类别和1500万个对象实例。Count Anything采用双粒度实例枚举策略：区域级稀疏计数器为大而稀疏的目标提供锚点，像素级密集计数器处理小而密集的目标。通过互补计数融合机制无参数地结合两者，在多个领域展现出优于现有开世界计数方法的准确性和泛化能力。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LongTraceRL：基于搜索智能体轨迹与评分奖励的长上下文推理学习

针对大语言模型在长上下文推理中难以定位关键信息的问题，现有强化学习方法受限于干扰物挑战性不足和奖励信号稀疏。LongTraceRL方法通过知识图谱随机游走生成多跳问题，并利用搜索智能体的轨迹构建分级干扰文档，从而生成更具挑战性的训练数据。其创新性地提出评分奖励，使用推理链上的金标准实体作为细粒度的过程监督，且仅应用于最终答案正确的响应，以此区分推理质量并防止奖励作弊。实验表明，该方法在多个长上下文基准测试中优于强基线。

智能体 arXiv 推理数据/训练

05:48

Ars Technica：AI（RSS）

精选70

LLMs相信虚假陈述，即使明确警告也无效

微调测试显示，大语言模型存在一种偏见，即倾向于自信地将虚假陈述表述为真实，即使明确告知其陈述为假。

arXiv 安全/对齐数据/训练论文/研究

推荐理由：这项研究让我重新思考幻觉问题的根源——LLM无视「此声明为假」的标签，照样把假话当成真知识，开发者靠标注清洗数据可能根本不够。

04:21

IT之家（RSS）

戴尔 2027 财年第一财季归母净利润 34.38 亿美元，同比增长 256%

戴尔2027财年第一财季财报显示，归母净利润达34.38亿美元，同比增长256%。AI业务爆发式增长，本季AI优化服务器营收161亿美元，同比增长757%，公司因此上调全年AI服务器营收预期至约600亿美元。

数据/训练行业动态

5月28日

23:41

Google Developers Blog（RSS）

精选64

社区如何利用Tunix和TPU训练Gemma学会"思考"

Google在Kaggle举办的Tunix黑客马拉松，挑战开发者利用TPU和有限算力，将小型基础模型转变为通用推理引擎。获胜团队通过多阶段后训练流程实现了这一目标，该流程结合了监督微调（SFT）与GRPO、SimPO等先进对齐技术。比赛结果表明，社区能够借助开源资源成功训练出高能力的结构化推理模型。

Google 开源生态教程/实践数据/训练

推荐理由：Google 官方比赛总结，证明用 Kaggle TPU 和开源工具就能把 Gemma 训练出不错推理能力，对想自己微调模型的小团队是个实用参考。

21:11

Cloudflare Blog

我们如何构建Cloudflare的数据平台及其上的AI智能体

Cloudflare构建了名为Town Lake的统一分析平台，并基于此开发了内部AI智能体Skipper。

智能体教程/实践数据/训练部署/工程

14:28

HuggingFace Daily Papers（社区热门论文）

精选71

DenoiseRL：通过恢复嘈杂前缀来引导推理模型

DenoiseRL是一种强化学习框架，旨在提升大语言模型的推理能力。它无需依赖更强的教师模型或精心筛选的困难数据集，而是通过在弱模型产生的失败推理轨迹上进行基于恢复的优化来直接学习，将错误转化为改进机会。这种方法提供了更丰富多样的学习信号，提升了探索效率。实验表明，DenoiseRL在竞争性的数学和通用推理基准测试中，持续优于强在策略RL基线，并能随着训练难度增加促进更强的自我纠正行为。

推理数据/训练论文/研究

推荐理由：做 RL for reasoning 的团队该看这篇，它把训练信号从“依赖强模型”转向“从弱模型的错误中学习”，可能降低对昂贵 teacher 的依赖，是个架构层面的新思路。

13:28

HuggingFace Daily Papers（社区热门论文）

ProRL：基于修正策略梯度估计的主动推荐强化学习框架

针对主动推荐系统中简单应用策略梯度方法存在的梯度估计缺陷，研究提出ProRL强化学习框架。该框架识别出路径级奖励分解为步级奖励时产生的长度依赖偏差，以及忽略分解结构导致的高方差问题。ProRL引入两个机制：逐步奖励中心化通过减去期望奖励消除长度偏差，位置特定优势估计利用奖励分解结构计算步级基线以降低方差。实验表明，ProRL在三个真实数据集上显著优于现有先进方法。

数据/训练论文/研究

13:28

HuggingFace Daily Papers（社区热门论文）

PEFT-Arena：从稳定性-可塑性视角理解参数高效微调

PEFT-Arena是一个新的参数高效微调评估基准，它同时衡量下游任务性能和大语言模型预训练通用能力的保留情况。研究发现，不同微调方法展现出不同的稳定性-可塑性特征；在相似参数预算下，正交微调取得了最佳的性能-保留权衡帕累托前沿。通过权重空间（谱分析）和激活空间（表示失真度量）两个几何视角的分析，研究解释了这些差异，并指出最终的SFT检查点常常会越过一个更优的目标-保留操作点。基于此，研究通过路径回溯案例展示了一种改进方法。

arXiv 数据/训练论文/研究

12:28

HuggingFace Daily Papers（社区热门论文）

长存平衡：基于信息瓶颈的树策略优化

该研究针对大语言模型在线强化学习中探索与利用的失衡问题，提出了新指标IB-Score，它基于信息瓶颈理论，量化了步级推理多样性与正确答案信息的权衡。分析表明，主流方法如GRPO难以维持此平衡。为此，论文提出IB-TPO框架，将IB-Score作为优化目标，并采用信息瓶颈引导的树采样策略，在相同token预算下可增加50%的轨迹。实验显示，该方法在标准基准上显著优于GRPO基线，性能提升2.9%至3.6%。代码已开源：https://github.com/alibaba/EfficientRL。

推理数据/训练论文/研究