全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「数据/训练」清除

6月5日周五

10:24公众号：龙猫LongCat（美团）45美团LongCat大模型人才校招全球启动

10:06DogeDesigner65马斯克：太空AI数据中心比星链卫星更简单

08:35DogeDesigner63马斯克：月球建城，电磁炮发射AI数据中心至深空

08:00HuggingFace Daily Papers（社区热门论文）58PACI：通过有界权重不一致实现无气泡异步流水线并行训练

08:00HuggingFace Daily Papers（社区热门论文）61WIZARD：基于权重空间元学习的机器人策略适应

08:00HuggingFace Daily Papers（社区热门论文）58SlimSearcher：通过自适应奖励门控训练效率感知的Web智能体

08:00HuggingFace Daily Papers（社区热门论文）58论在线策略蒸馏的几何特性

08:00HuggingFace Daily Papers（社区热门论文）35多流派和弦符号建模：冻结的 pop-jazz Music Transformer 的轻量适配能力与边界

08:00HuggingFace Daily Papers（社区热门论文）63熵作为结构先验：DiT信念空间上的对数障碍驱动音乐多样性与发展

08:00HuggingFace Daily Papers（社区热门论文）59LIMMT：运动跟踪中的少即是多

08:00HuggingFace Daily Papers（社区热门论文）60UnEmbedding矩阵：文本嵌入的潜在特征透镜

06:54MarkTechPost（RSS）56基于ResearchMath-14k数据集构建语义搜索引擎与开放状态分类器

06:17Hacker News 热门（buzzing.cc 中文翻译）69谷歌解雇蒂姆尼特·格布鲁时所依据的那些LLM警告，如今都已成真

04:25Google Research：Blog（网页）79精选Google Research 发布被动心率监测系统 PHRM

04:16Hacker News 热门（buzzing.cc 中文翻译）80同事件精选Anthropic 报告递归式自我改进进展同一事件，精选展示《AI加速自我构建：Anthropic研究院报告揭示趋势》

01:50HuggingFace Daily Papers（社区热门论文）49上下文多实例学习

01:19Ethan Mollick46Anthropic RSI 文章值得一读

00:52Yuchen Jin60Anthropic递归自我改进：速度从3倍跃升至52倍

00:00LMSYS：Blog（Chatbot Arena 团队）62精选不再遗漏任何Token：解析Miles中的Token-In-Token-Out（TITO）

6月4日周四

23:47小互58SpaceX IPO路演视频

22:43HuggingFace Daily Papers（社区热门论文）62KletterMix：面向高质量德语预训练数据的构建与验证

21:44Nathan Lambert60Nvidia加入多教师在线策略蒸馏（MODP）阵营，后训练标准已确立

19:42Hugging Face：Blog（RSS）68精选Nemotron 预训练的任务种子合成问答生成

18:52Rohan Paul66伊利诺伊大学和清华大学等研究发现：LLM智能体不断重写记忆反而导致记忆不可靠

17:13小互70Anthropic 用 Claude 实现自动化商业分析：准确率从 21% 提升至 95%

16:42HuggingFace Daily Papers（社区热门论文）63DeepMDMD：面向代数保持的Koopman学习的深度嵌入乘性动态模式分解

15:42HuggingFace Daily Papers（社区热门论文）65基于评分的强化学习中奖励黑客的再现、分析与检测

11:42HuggingFace Daily Papers（社区热门论文）65ThoughtFold：通过内省偏好学习折叠推理链

11:42HuggingFace Daily Papers（社区热门论文）65STRIDE：通过子集扰动的稀疏恢复实现训练数据归因

11:21AK62dMoE：带可学习块专家的dLLM

11:10小互82精选Cloudflare Radar：机器人流量首次超过人类占比57.5%

10:51AK60统一神经缩放定律

10:39Nathan Lambert62Sasha Rush 讲解现代在线策略蒸馏：后训练中的针对性自蒸馏方法

09:42HuggingFace Daily Papers（社区热门论文）63GRAIL：面向可验证奖励强化学习的梯度重加权优势方法

08:10IT之家（RSS）72同事件精选深陷版权诉讼仍受资本热捧，AI 音乐生成公司 Suno 再融资 4 亿美元同一事件，精选展示《Suno完成4亿美元D轮融资》

08:00HuggingFace Daily Papers（社区热门论文）51在LLM个性化中重新以人为中心

08:00HuggingFace Daily Papers（社区热门论文）42ActiveMimic：基于主动感知的自我中心视频预训练

08:00HuggingFace Daily Papers（社区热门论文）47AsyncWebRL：面向视觉Web智能体的高效多步强化学习

08:00HuggingFace Daily Papers（社区热门论文）56OPDLM：基于On-Policy蒸馏的数据高效自回归到扩散语言模型转换

08:00HuggingFace Daily Papers（社区热门论文）57压缩-蒸馏：面向高效知识蒸馏的推理轨迹压缩

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月5日

10:24

公众号：龙猫LongCat（美团）

45

美团LongCat大模型人才校招全球启动

美团LongCat大模型启动全球人才校招，面向全球招募人才，目标是构建从数字世界到物理世界的全球标杆AGI，欢迎加入。

数据/训练行业动态

10:06

DogeDesigner@cb_doge

65

马斯克：太空AI数据中心比星链卫星更简单

在摩根大通直播中，Elon Musk 谈到在太空建设 AI 数据中心时表示，这并非难事，甚至比 Starlink V3 通信卫星更简单。AI 数据中心只需太阳能供电、散热器及基本卫星设备，通过激光链接接入 Starlink 通信星座，再传回地面；由于 Starlink 使用可穿透云层甚至屋顶的频率，地面链接不受天气影响。

J.P. Morgan: Live from our global headquarters: Jamie Dimon and Elon Musk discuss SpaceX and more. https://x.com/i/broadcasts/1NGarrM...

xAI 大佬观点数据/训练部署/工程

08:35

DogeDesigner@cb_doge

63

马斯克：月球建城，电磁炮发射AI数据中心至深空

Elon Musk 在摩根大通直播中提出，可在月球上更快建成自生长城市，并利用月球无大气、1/6地球引力的条件，通过电磁加速器（磁轨炮/质量驱动器）将 AI 数据中心直接射入深空，无需火箭。月球的太阳能和散热器可用月面材料制造，使 AI 空间算力规模从地球每年约 1 太瓦（terawatt）跃升至每年超 1000 太瓦。

J.P. Morgan: Live from our global headquarters: Jamie Dimon and Elon Musk discuss SpaceX and more. https://x.com/i/broadcasts/1NGarrM...

xAI 大佬观点数据/训练现象/趋势

08:00

HuggingFace Daily Papers（社区热门论文）

58

PACI：通过有界权重不一致实现无气泡异步流水线并行训练

针对流水线并行中同步调度有气泡、异步调度引入权重版本不匹配的问题，PACI提出一种无气泡异步方法，利用局部梯度累积作为版本控制机制，限制前向/反向版本漂移，无需权重存储、预测或全局同步。在GPT风格语言模型预训练中，PACI匹配同步1F1B-flush的稳定性与最终困惑度，保持相同峰值内存，实现完全流水线吞吐量，训练时间-准确率提升最高达1.69倍。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

WIZARD：基于权重空间元学习的机器人策略适应

针对视觉-语言-动作（VLA）模型部署成本高的问题，WIZARD提出权重空间元学习框架，仅需语言指令和简短演示视频，在一轮前向传播中为冻结的VLA策略生成任务特定LoRA参数，无需动作标签或测试时优化。在LIBERO上，WIZARD在未见过数据集集合上性能提升最高约2倍，在未见过任务上最高约14倍；在Franka Emika Panda真实机器人上，WIZARD持续优于域适应基线。

arXiv 具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

58

SlimSearcher：通过自适应奖励门控训练效率感知的Web智能体

SlimSearcher提出兼顾准确性与计算成本的训练框架。监督微调阶段采用Pareto高效过滤，仅保留成功且经济的轨迹；强化学习阶段引入自适应奖励门控，动态评估工具与token效率，避免绝对惩罚导致的简洁性偏差（brevity bias）和奖励作弊（reward hacking）。在GAIA、BrowseComp和XBenchDeepSearch等基准上，工具调用轮次减少17%-58%，同时保持或提升准确率。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

58

论在线策略蒸馏的几何特性

研究对比了在线策略蒸馏（OPD）与监督微调（SFT）及带可验证奖励的强化学习（RLVR）在参数空间中的更新轨迹。OPD的更新影响更少权重，更强地避开主方向，且约束比RLVR松弛。OPD表现出子空间锁定：累积更新快速进入低维通道，且锁定子空间对OPD功能足够。控制实验表明，稀疏化更新token或off-policy生成不改变秩动态，而混合RLVR目标会改变。结论：OPD并非SFT与RLVR的中间点，而具有自身独特的更新几何。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

35

多流派和弦符号建模：冻结的 pop-jazz Music Transformer 的轻量适配能力与边界

研究使用冻结的 pop-jazz Music Transformer 检查点，通过 LoRA、IA3、BitFit、prefix tuning 和 full fine-tuning 五种轻量适配方法，将模型扩展到 blues、bossa nova、Bach chorales 等11个目标流派。在165组实验中，所有方法在保留和弦预测上均优于冻结基模型，宏观增益+2.89至+3.61分；LoRA 和 IA3 得分最高，但统计检验不支持决定性胜者。控制数据大小后 IA3 仍领先，LoRA 的全数据优势消失。诊断表明和弦符号适配可靠改善流派局部和声预测，但单独和弦符号不足以承载完整流派特征。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

63

熵作为结构先验：DiT信念空间上的对数障碍驱动音乐多样性与发展

在监督式扩散训练中，Eisbach log-barrier利用DiT输出空间能量分布的熵导出无参数权重：高熵抑制梯度，低熵保留梯度。应用于Stable Audio 3 Medium在MusicCaps上的LoRA微调，意外产生更强的主题发展、更清晰的声学区分和更高的纹理多样性，而非模式坍缩。原因在于监督扩散中梯度方向锁定于真实值，置信度仅缩放步长，且时间熵压低平坦样本而保留高对比样本。该方法形成在线自参照数据课程，伴随噪声层级动力学分析与可检验预测。

数据/训练论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

59

LIMMT：运动跟踪中的少即是多

LIMMT 提出首个以数据为中心的人形运动跟踪框架，从物理可行性、多样性和复杂度三个维度定义运动数据质量。实验表明，仅用不到 3% 的 AMASS 数据集训练，跟踪性能即优于使用完整数据集。该研究还对网络估算的动捕数据进行了清洗，验证了数据质量驱动的有效性。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

60

UnEmbedding矩阵：文本嵌入的潜在特征透镜

大语言模型在零样本文本嵌入任务中表现不佳，原因在于嵌入向量倾向于与高频但无信息的token对齐，抑制语义捕获。本文提出EmbedFilter，一种简单的线性变换方法，通过利用LLM内部unembedding矩阵编码的潜在空间，过滤掉高频token子空间，从而增强语义表示。该方法可自然降维，减少索引存储并加速检索，同时保持精炼后嵌入质量。实验表明，嵌入EmbedFilter的LLM在显著降低嵌入维度时仍取得更优零样本下游性能。代码已开源。

检索增强数据/训练论文/研究

06:54

MarkTechPost（RSS）

56

基于ResearchMath-14k数据集构建语义搜索引擎与开放状态分类器

该教程展示了面向研究级数学问题的完整NLP流水线：利用ResearchMath-14k数据集，通过TF-IDF提取领域关键词、生成句子嵌入，使用UMAP进行问题景观可视化，并结合K-Means聚类。进一步构建语义搜索引擎，训练分类器预测每个问题的开放状态，并基于相似性发现近似重复问题。

搜索教程/实践数据/训练

06:17

Hacker News 热门（buzzing.cc 中文翻译）

69

谷歌解雇蒂姆尼特·格布鲁时所依据的那些LLM警告，如今都已成真

一篇博客文章指出，谷歌曾因蒂姆尼特·格布鲁合著论文中对LLM风险的警告而将其解雇，如今这些关于大语言模型的安全与伦理警告已被现实事件逐一证实。

Google 数据/训练行业动态

04:25

Google Research：Blog（网页）

精选79

Google Research 发布被动心率监测系统 PHRM

Google Research 开发了一种被动心率监测系统（PHRM），利用智能手机前置摄像头在日常使用中（人脸解锁后数秒内）捕捉面部视频，通过深度学习估算心率，平均绝对百分比误差（MAPE）低于10%（对比心电图金标准），满足各肤色人群的行业精度标准。系统将全天心率测量整合为每日静息心率（RHR），平均绝对误差（MAE）低于5 bpm（对比可穿戴设备）。研究同时发布了迄今最大规模的公开智能手机视频数据集及预训练模型PHRM-mini，合格研究人员可申请访问。

Google 数据/训练端侧论文/研究

推荐理由：Google 这项发表在 Nature 上的研究，把手机前置摄像头变成了被动心率仪，而且专门解决了深肤色人群精度差的老问题，虽然离产品还远，但方向很对，穿戴设备的护城河可能又浅了一点。

04:16

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选80

Anthropic 报告递归式自我改进进展

Anthropic 近日发表文章《当人工智能自我构建：我们在递归式自我改进方面的进展》，报告其在递归式自我改进方面的进展，探讨 AI 系统自我构建的能力。该文章发布在 Hacker News 上。

Anthropic 数据/训练现象/趋势

同一事件，精选展示《AI加速自我构建：Anthropic研究院报告揭示趋势》

推荐理由：Anthropic这篇不是PR，是用真实内部数据画的递归路线图，代码产量8倍、实验提速50倍，让“人类设定方向、AI干活”不再只是愿景，每个从业者都该认真读一遍。

01:50

HuggingFace Daily Papers（社区热门论文）

49

上下文多实例学习

多实例学习（MIL）解决监督信号仅存在于包级别的问题，现有算法在低标注数据场景下表现不佳。本文提出在合成数据上预训练一个基于Perceiver架构的上下文学习器，能通过少量标注包解决新任务，推理时仅需单次前向传播，无需梯度更新。研究比较了多种包结构合成数据生成器，发现其互补的归纳偏置经混合预训练后能继承各自优势，在12个MIL基准测试上取得平均最佳性能，超越需要任务特定训练的监督基线。

推理数据/训练论文/研究

01:19

Ethan Mollick@emollick

46

我认为这篇关于Anthropic的RSI（递归自我改进）的文章非常值得一读。其中有一些自省、一些营销，以及大量关于Anthropic认为AI近期可能发展方向的真挚观点，你或许应该了解。https://www.anthropic.com/institute/recursive-self-improvement

Anthropic 大佬观点数据/训练

00:52

Yuchen Jin@Yuchenj_UW

60

Anthropic 发布的递归自我改进帖子： "每次我们发布一个模型，都会给它代码，让它训练一个小型 AI 模型，然后让新模型加速训练。 2024 年 5 月，Claude Opus 4 平均实现约 3 倍加速。今年 4 月，Mythos Preview 达到约 52 倍。" RSI 正在发生，我等不及要看到 Mythos 了。

Anthropic 大佬观点推理数据/训练

00:00

LMSYS：Blog（Chatbot Arena 团队）

精选62

不再遗漏任何Token：解析Miles中的Token-In-Token-Out（TITO）

Miles框架提出Token-In-Token-Out（TITO）原则，解决智能体强化学习中训练-推理不匹配：确保rollout过程token序列与训练器评估序列逐位一致。TITO将多轮轨迹视为一个连续序列（每任务一个样本），节省一个数量级计算开销并维持on-policy性。三种破坏场景：反分词-再分词不匹配、聊天模板修剪推理内容、有损模板重新渲染。Miles通过推理会话服务器、三级只追加保证、可插拔TITO分词器和序列比较器实现。典型任务（如SWE-Bench）轨迹含30-50轮。

开源生态数据/训练论文/研究

推荐理由：LMSYS团队把agent RL里最隐秘的训练-推理不一致问题解释透了，TITO原则直接告诉你为什么之前训练不稳，做agent训练的都该看看这篇。

6月4日

23:47

小互@xiaohu

58

SpaceX IPO路演视频

SpaceX CFO披露：Starlink在轨卫星超9600颗，用户数440万（24年底）翻倍至890万（25年底），Q1达1030万，覆盖164国30亿人；直连手机覆盖19亿人。拥有全球最大超算中心Colossus 2，计划将AI数据中心搬上太空。2025年营收190亿美元，EBITDA 78亿美元，目标毛利率70%、净利率45%。

数据/训练行业动态

22:43

HuggingFace Daily Papers（社区热门论文）

62

KletterMix：面向高质量德语预训练数据的构建与验证

针对德语预训练数据资源匮乏且缺乏系统验证的问题，研究团队构建了KletterMix——一个高质量德语语料库，用于大语言模型预训练与退火阶段。KletterMix通过翻译一份最优英语预训练语料生成，保留了原文档边界、元数据、来源结构和主题多样性。COMETKiwi评估表明翻译文档在多个领域保持语义与风格丰富性。在受控预训练和退火实验中，基于KletterMix训练的模型在德语下游评测中取得可衡量性能提升，证实精心策划的翻译数据能有效增强德语预训练数据生态。

开源/仓库数据/训练论文/研究

21:44

Nathan Lambert@natolambert

60

Nvidia采用多教师在线策略蒸馏（MODP）作为后训练核心方法，标志该范式成为行业标准。其流水线重新设计：先进行SFT，再在多智能体/推理/代码/安全环境中执行多环境RLVR，最后用10+领域专长教师通过密集token级指导蒸馏到学生模型的自生成输出上。该标准由DeepSeek R1开创，微软早期模型也使用多教师SFT→RL路线。

Oleksii Kuchaiev: Our post-training pipeline is a substantial redesign from Super. The core idea: don't rely on stacked RL stages alone. W...

数据/训练现象/趋势

19:42

Hugging Face：Blog（RSS）

精选68

Nemotron 预训练的任务种子合成问答生成

在 Nemotron-3 Nano 模型的 100B token 续训练实验中，任务种子合成数据生成（Task-Seeded SDG）使 MMLU-Pro 提升 1.8 分，平均代码提升 1.9 分，常识理解提升 1.6 分，GPQA 提升 11.1 分，数学成绩保持稳定。该流程利用 lm-eval-harness 中约 70 个公开任务（约 700 子任务）的训练集作为种子，生成新示例并补充推理和上下文，经过格式校验、去重和答案验证后得到精选合成数据集，用于 Nemotron Ultra 和 Super 训练。

推理数据/训练论文/研究

推荐理由：NVIDIA 公开了 Nemotron 训练中造合成数据的详细方法论，用 70 个公开任务训练集做种子生成新题目，100B token 实验把 GPQA 拉高 11 个点，做预训练的人值得看看他们怎么造的数据。

18:52

Rohan Paul@rohanpaul_ai

66

伊利诺伊大学和清华大学等研究发现：LLM智能体不断重写记忆反而导致记忆不可靠

伊利诺伊大学和清华大学等实验室研究发现，LLM智能体重复重写自身记忆会导致记忆变得更不可靠。原始经历（实际过往尝试和解决方案）往往比提炼后的总结更有用。测试中，GPT-5.4在小型ARC-AGI数据集上无记忆时正确率100%，但建立记忆并持续更新后降至约54%。失败原因包括分组不当、教训过度泛化及过拟合。研究建议智能体不应自动将每个经历重写为摘要，保留原始证据并仅偶尔总结效果更好。

智能体 arXiv 数据/训练论文/研究

17:13

小互@xiaohu

70

Anthropic 用 Claude 实现自动化商业分析：准确率从 21% 提升至 95%

Anthropic 将 95% 的业务分析查询交给 Claude，准确率约 95%。最初仅 21%，通过搭建数据基础、权威来源、技能等四层系统提升。核心发现：准确性问题本质是上下文和验证，而非代码生成。三种失败模式：概念对应错误、数据过时、找不到正确字段。重复分析由 Claude 承担，数据科学团队专注更高价值任务。

智能体 Anthropic 教程/实践数据/训练

16:42

HuggingFace Daily Papers（社区热门论文）

63

DeepMDMD：面向代数保持的Koopman学习的深度嵌入乘性动态模式分解

DeepMDMD结合深度Koopman方法与结构保持方法，学习潜空间并分区，同时将Koopman乘积规则作为精确代数约束强制执行。训练交替进行精确乘法算子更新和可微潜聚类步骤，得到非零谱位于单位圆上的有限转移图，字典由动力学而非环境几何塑造。在哈密顿、混沌和流体示例中，比几何MDMD更紧凑且动态一致，减少谱污染，揭示更丰富的连续谱结构，并在严重噪声下稳定预测。在高维流（包括158,624维圆柱尾流和噪声Re=20,000顶盖驱动空腔）中，保持相干结构和长期谱统计，而状态空间MDMD失效。

arXiv 数据/训练论文/研究

15:42

HuggingFace Daily Papers（社区热门论文）

65

基于评分的强化学习中奖励黑客的再现、分析与检测

基于评分标准的强化学习使用 LLM-as-a-Judge 对模型输出打分作为奖励，但策略模型可能利用评判者的潜在偏见导致奖励黑客，使训练结果无效甚至不安全。论文提出 CHERRL，一个可控黑客环境，通过向评判注入已知偏见，稳定再现奖励黑客、观察奖励分歧并精确识别黑客起始点。利用该环境分析了不同评判偏见的可发现性和可利用性，并探索了基于智能体的系统自动从训练日志检测黑客起始点。代码与环境已公开。

安全/对齐数据/训练

11:42

HuggingFace Daily Papers（社区热门论文）

65

ThoughtFold：通过内省偏好学习折叠推理链

Large Reasoning Models (LRMs) 在基于可验证奖励的强化学习（RLVR）下取得进展，但长思维链中的试错和冗余探索被强化，导致过度思考。ThoughtFold 提出细粒度偏好学习框架：通过内省策略识别正确轨迹中的冗余段，生成候选子轨迹谱，并引入掩码偏好优化目标，显式惩罚冗余探索、鼓励模型直接桥接关键推理步骤，从而折叠推理链。在 DeepSeek-R1-Distill-Qwen-7B 上将 token 使用量减少约 56%，同时保持 SOTA 准确率。

推理数据/训练论文/研究

11:42

HuggingFace Daily Papers（社区热门论文）

65

STRIDE：通过子集扰动的稀疏恢复实现训练数据归因

训练数据归因(TDA)旨在追溯模型预测与训练数据的关联。STRIDE框架将TDA建模为压缩感知思想下的稀疏恢复问题，学习轻量级“转向算子”以模拟训练数据子集引起的模型行为变化，通过测量这些算子对测试预测的扰动，利用稀疏线性分解恢复单个训练样本的影响。该方法在大语言模型(LLM)预训练归因任务上达到当前最优，且速度比此前方法快13倍。下游实验验证了其在数据选择、数据污染检测及定性分析中的实用性。

数据/训练论文/研究

11:21

AK@_akhaliq

62

dMoE 具有可学习块专家的dLLM

图像生成数据/训练论文/研究

11:10

小互@xiaohu

精选82

Cloudflare Radar：机器人流量首次超过人类占比57.5%

Cloudflare Radar 实时统计显示，过去一周（5月28日至6月4日）全球所有 HTML 网页请求流量中，57.5% 来自机器人（爬虫、AI 抓取、自动化脚本），仅42.5%来自真人浏览器，机器人流量首次超过人类。按所有 HTTP 流量返回内容分类，JSON（API 机器通信）占33.1%居首，HTML 仅12%。互联网流量主体已从人类浏览网页转向机器间通信和机器人抓取。

搜索数据/训练现象/趋势

关联讨论 2 条X：SemiAnalysis (@SemiAnalysis_)IT之家（RSS）

推荐理由：互联网流量首次以机器人为主，这是AI时代的真正里程碑。数据来自Cloudflare实时统计，比任何预测都更直白地告诉内容产业，以后网页得同时伺候人和爬虫了。

10:51

AK@_akhaliq

60

统一神经缩放定律

数据/训练论文/研究

10:39

Nathan Lambert@natolambert

62

Nathan Lambert 评论该视频正是其写书所需，认为前沿自蒸馏工作影响显著。Dwarkesh Patel 记录 Sasha Rush 的即兴讲解：当模型在 rollout 中出错（例如调用不存在的工具），无需针对整条轨迹的最终奖励学习（信号噪声大），而是让另一个模型阅读轨迹定位错误位置，在错误处上方插入 hint tokens，再让原模型运行一次前向传播，利用 hint 使模型对错误 token 分配更低概率，然后训练原模型匹配这些新概率。整个过程无需重新生成 rollout（无额外解码开销）。

Dwarkesh Patel: Recently met @srush_nlp and he started giving me an impromptu lecture on how targeted on-policy self-distillation works....

智能体教程/实践数据/训练

09:42

HuggingFace Daily Papers（社区热门论文）

63

GRAIL：面向可验证奖励强化学习的梯度重加权优势方法

可验证奖励强化学习（如GRPO）常用统一的序列级优势更新所有token，稀释了梯度信号。GRAIL提出内在的逐token优势重加权方法，利用梯度激活显著度为对最终答案更敏感的token赋予更高权重。在Qwen3、R1-distilled和OctoThinker家族共5个模型上的评估显示，GRAIL一致优于GRPO，平均准确率提升3.60%，Pass@3提升3.05%，无需过程级监督即可实现细粒度推理对齐。

arXiv 推理数据/训练论文/研究

08:10

IT之家（RSS）

同事件精选72

深陷版权诉讼仍受资本热捧，AI 音乐生成公司 Suno 再融资 4 亿美元

AI 音乐生成企业 Suno 完成 4 亿美元 D 轮融资，投后估值 54 亿美元，较七个月前 C 轮估值翻番。公司承认使用受版权保护歌曲训练 AI 模型，但辩称符合合理使用原则。索尼与环球音乐 2024 年首次起诉后，涉案曲目从 560 首增至超 6.1 万首；华纳音乐于 2024 年 11 月与 Suno 和解并签订授权协议。本轮由 Bond Capital 领投，用户日均生成 AI 歌曲超 700 万首。

数据/训练行业动态语音

同一事件，精选展示《Suno完成4亿美元D轮融资》

推荐理由：一边被三大唱片巨头起诉，一边估值翻倍到54亿美元，资本对AI版权风险的容忍度比我们想的要大得多。创作者和平台都得重新想「合理使用」的边界在哪了。

08:00

HuggingFace Daily Papers（社区热门论文）

51

在LLM个性化中重新以人为中心

研究收集550段人类对话，在三阶段获取人工判断：提取属性5949项、配对属性11919项、生成个性化回复1101项。发现LLM从真实对话中提取属性及配对时均与人类判断分歧，生成回复人类评价不比通用回复好，但LLM自评更高。两种轻量训练干预使前两阶段自动评估更接近人类数据，但第三阶段奖励模型与人类评分仅中等相关。数据集为研究模型提取、选择、融入用户信息提供基础。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

42

ActiveMimic：基于主动感知的自我中心视频预训练

ActiveMimic 是一个预训练框架，从单个人体佩戴的 RGB 摄像头中恢复同步的相机和手腕轨迹，将相机运动建模为视角动作，从而在野外第一人称人类视频上联合学习主动感知和操作能力，再迁移至目标机器人。跨任务真实世界实验表明，ActiveMimic 持续超越基于人类视频预训练的基线，并达到与基于机器人数据预训练的 SOTA 模型相当的性能。进一步分析确认主动感知能力源自第一人称视频预训练，而非机器人微调。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

47

AsyncWebRL：面向视觉Web智能体的高效多步强化学习

AsyncWebRL采用异步系统设计，重叠rollout、梯度更新与策略刷新，并引入永久rollout池和轻量截图处理，比此前最快开源同步流程WebGym实现最高2.9倍端到端训练吞吐加速。算法方面将多步GRPO中每轨迹归一化因子1/|τ_i|替换为常数1/k，解除了失败轨迹对梯度权重的耦合，压缩轨迹长度。在WebGym分布外测试集上创下新开源SOTA（相对+5.8%），Medium子集+42%，Hard子集+48%。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

OPDLM：基于On-Policy蒸馏的数据高效自回归到扩散语言模型转换

现有方法将自回归模型（ARLM）转换为扩散语言模型（DLM）时面临两种分布偏移：目标函数切换导致知识丢失，以及训练时随机掩码序列与推理时置信度解码轨迹不匹配。研究者提出OPDLM，采用On-Policy蒸馏（OPD）进行转换。学生模型（双向注意力的ARLM）生成自身轨迹，教师模型（冻结的原ARLM）在这些轨迹上提供目标logits完成知识蒸馏。OPDLM以on-policy方式训练，消除了DLM的训练-推理不匹配，蒸馏机制保留了原ARLM知识。实验表明，OPDLM仅需原训练token量的1/15至1/7000，在多样任务上表现强劲，使DLM转换成为ARLM后训练手段。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

压缩-蒸馏：面向高效知识蒸馏的推理轨迹压缩

Qwen3.5-397B-A17B与gpt-oss-120B两教师模型各生成约283k条正确轨迹，经指令微调模型压缩至原始字符长度的8.6–21.0%。压缩轨迹使训练token降至原始的12–30%，训练速度提升2.0–7.6倍，推理输出长度缩短3–19倍。但原始轨迹在所有规模下保持最高下游准确率；压缩学生模型可保留高达96%的原始准确率，同时获得最高18倍的每token效率。在0.8B学生规模使用LoRA时，压缩轨迹缩小了与原始轨迹的差距，但未超过原始。

推理数据/训练论文/研究

1…13 141516 17…43