全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 1210 条

全部一手资讯 X 论文

标签「数据/训练」清除

6月7日周日

08:00HuggingFace Daily Papers（社区热门论文）62轨迹精炼蒸馏（TRD）

08:00HuggingFace Daily Papers（社区热门论文）60OASIS：从仿真数据采集到真实人形机器人全身操作

6月6日周六

23:48Hugging Face：Blog（RSS）65精选Job Searcher

21:53Hacker News 热门（buzzing.cc 中文翻译）70精选您客厅里的智能电视是 AIScraping 经济中的一个节点

19:29The Decoder：AI News（RSS）59xAI 被曝数月来用 Claude 训练编码模型，被切断访问后仍通过私人账户和 Blackbox AI 继续

17:17IT之家（RSS）54Anthropic被曝雇1000名工程师训练Claude Code，每项任务280美元

13:17IT之家（RSS）64微软 MAI 系列 AI 模型训练数据曝光，"仅商业授权"说法存在出入

11:16IT之家（RSS）55全球海洋现象智能预报大模型"琅琊"2.0发布

08:00HuggingFace Daily Papers（社区热门论文）52几何主结构（GPS）：面向机器人关节部件感知的可扩展高质量表示

08:00HuggingFace Daily Papers（社区热门论文）39EmpiriGraph-Psy：心理学摘要实证关系图抽取数据集与LLM流程

6月5日周五

23:15IT之家（RSS）64剑桥大学AI设计通用疫苗完成首次人体试验

21:20Hacker News 热门（buzzing.cc 中文翻译）51对大型语言模型进行微调，使其文档风格像1995年

20:27The Decoder：AI News（RSS）51微软 MAI 模型被曝使用未授权网络数据，违背"企业级干净商用数据"承诺

20:15IT之家（RSS）52摩根士丹利：SpaceX 2040年收入或达3.4万亿美元

15:15IT之家（RSS）54Meta 借鉴特斯拉，在帐篷里建造数据中心

12:47HuggingFace Daily Papers（社区热门论文）53复杂度平衡扩散分裂（CBS）：基于函数逼近理论的时间容量分配框架

11:46HuggingFace Daily Papers（社区热门论文）57强化学习驱动未见语言翻译的上下文学习

10:46HuggingFace Daily Papers（社区热门论文）69OPRD：在线策略表示蒸馏

10:46HuggingFace Daily Papers（社区热门论文）61DataCOPE：面向智能体数据分析的无监督技能发现框架

10:46HuggingFace Daily Papers（社区热门论文）63MLEvolve：一种自我演进的自动化机器学习算法发现框架

10:24公众号：龙猫LongCat（美团）45美团LongCat大模型人才校招全球启动

08:00HuggingFace Daily Papers（社区热门论文）58PACI：通过有界权重不一致实现无气泡异步流水线并行训练

08:00HuggingFace Daily Papers（社区热门论文）61WIZARD：基于权重空间元学习的机器人策略适应

08:00HuggingFace Daily Papers（社区热门论文）58SlimSearcher：通过自适应奖励门控训练效率感知的Web智能体

08:00HuggingFace Daily Papers（社区热门论文）58论在线策略蒸馏的几何特性

08:00HuggingFace Daily Papers（社区热门论文）35多流派和弦符号建模：冻结的 pop-jazz Music Transformer 的轻量适配能力与边界

08:00HuggingFace Daily Papers（社区热门论文）63熵作为结构先验：DiT信念空间上的对数障碍驱动音乐多样性与发展

08:00HuggingFace Daily Papers（社区热门论文）59LIMMT：运动跟踪中的少即是多

08:00HuggingFace Daily Papers（社区热门论文）60UnEmbedding矩阵：文本嵌入的潜在特征透镜

06:54MarkTechPost（RSS）56基于ResearchMath-14k数据集构建语义搜索引擎与开放状态分类器

06:17Hacker News 热门（buzzing.cc 中文翻译）69谷歌解雇蒂姆尼特·格布鲁时所依据的那些LLM警告，如今都已成真

04:25Google Research：Blog（网页）79精选Google Research 发布被动心率监测系统 PHRM

04:16Hacker News 热门（buzzing.cc 中文翻译）80同事件精选Anthropic 报告递归式自我改进进展同一事件，精选展示《AI加速自我构建：Anthropic研究院报告揭示趋势》

01:50HuggingFace Daily Papers（社区热门论文）49上下文多实例学习

00:00LMSYS：Blog（Chatbot Arena 团队）62精选不再遗漏任何Token：解析Miles中的Token-In-Token-Out（TITO）

6月4日周四

22:43HuggingFace Daily Papers（社区热门论文）62KletterMix：面向高质量德语预训练数据的构建与验证

19:42Hugging Face：Blog（RSS）68精选Nemotron 预训练的任务种子合成问答生成

16:42HuggingFace Daily Papers（社区热门论文）63DeepMDMD：面向代数保持的Koopman学习的深度嵌入乘性动态模式分解

15:42HuggingFace Daily Papers（社区热门论文）65基于评分的强化学习中奖励黑客的再现、分析与检测

11:42HuggingFace Daily Papers（社区热门论文）65ThoughtFold：通过内省偏好学习折叠推理链

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月7日

08:00

HuggingFace Daily Papers（社区热门论文）

62

轨迹精炼蒸馏（TRD）

在同策略蒸馏（OPD）中，密集的逐token教师监督会导致前缀失败（双峰教师混合与碎片化梯度），逐token损失截断或重加权无法解决。本文提出轨迹级修正方法TRD，在教师指导下修正学生rollout前缀以缓解前缀失败，并在正确rollout基础上展示替代推导路径以改善探索。TRD可推广至同策略自蒸馏（OPSD）。在多项基准和多尺度模型上，TRD一致优于先前基线，提升单次准确率并拓宽推理覆盖范围。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

60

OASIS：从仿真数据采集到真实人形机器人全身操作

现有数据来源在轨迹质量与可扩展性间存在矛盾。OASIS 提出仿真数据驱动框架：用 3D 生成模型从真实图像重建物体资产，在仿真中遥操作收集轨迹，再经域随机化后处理增强。基于仿真数据训练的分层视觉运动策略在真实人形机器人零样本部署下，多数任务成功率优于用真实机器人遥操作数据训练的模型，原因是仿真渲染覆盖了更广泛的光照与环境变化。

具身智能数据/训练论文/研究

6月6日

23:48

Hugging Face：Blog（RSS）

精选65

Hugging Face 发布 Job Searcher，一个基于 AI 的求职搜索工具。用户上传简历并设定偏好后，系统使用教师模型 DeepSeek V4 Pro 生成 LinkedIn 搜索查询，通过 JobSpy 抓取职位，再对学生模型 Qwen3-8B（8B 参数）进行 LoRA 微调，对每个职位从技能匹配、经验相关性、教育背景、行业领域契合度和资历对齐五个维度给出评分和推理。训练在 Modal 平台单张 A100 上完成。推理部署于 Hugging Face ZeroGPU Space，使用 llama.cpp 实现流式输出。项目开源。

智能体 Hugging Face 教程/实践数据/训练

推荐理由：这个 hackathon 项目把教师蒸馏和 LoRA 微调 8B 模型的流程全部开源在 HF 上，做模型定制和部署的开发者能直接抄作业，尤其是推理部署踩的坑（ZeroGPU 上下文重用）很实用。

21:53

Hacker News 热门（buzzing.cc 中文翻译）

精选70

您客厅里的智能电视是 AIScraping 经济中的一个节点

智能电视被描述为 AI 抓取经济中的节点，客厅设备可能被用于大规模数据采集网络。该观点来自一篇安全博客，揭示了家庭联网设备在 AI 训练数据供应链中的潜在角色。

数据/训练现象/趋势

推荐理由：这篇把智能电视变成 AI 数据抓取节点的黑箱拆开了，逆向工程细节让人后背发凉，建议所有用智能电视或做 AI 数据的人都读一遍。

19:29

The Decoder：AI News（RSS）

59

xAI 被曝数月来用 Claude 训练编码模型，被切断访问后仍通过私人账户和 Blackbox AI 继续

xAI 数月来利用 Anthropic 的 Claude 输出训练自家编码模型，被 Anthropic 切断访问后仍通过私人账户及 Blackbox AI 服务继续使用。与此同时，xAI 预训练团队缩减至不到 5 人，多名负责人离职；马斯克购入的计算资源转而出租给 Anthropic 和 Google，未用于自研模型。

Anthropic xAI 数据/训练行业动态

17:17

IT之家（RSS）

54

Anthropic被曝雇1000名工程师训练Claude Code，每项任务280美元

Anthropic通过数据标注公司Snorkel AI的“Marlin”项目，雇佣约1000名软件工程师微调Claude Code。外包人员编写提示词、审查代码，每项任务报酬280美元（约1小时），要求对两种模型输出进行A/B测试，选择偏好结果并判断是否达到提示词要求的细节程度，旨在训练Claude Code生成更简化、易维护的代码。外包人员不知所评模型版本，项目仍在进行。

Anthropic 数据/训练编码行业动态

13:17

IT之家（RSS）

64

微软 MAI 系列 AI 模型训练数据曝光，"仅商业授权"说法存在出入

微软MAI系列AI模型训练数据曝光，官方技术论文显示模型使用了包括Common Crawl在内的开放网络数据，而非此前宣称的仅依赖企业级、干净且商业授权数据。微软称训练数据为“公开可得数据”与“授权的人类生成数据”的混合，并采用自有爬虫遵守robots.txt。但未屏蔽内容默认可被抓取的逻辑被指类似“没有锁门就等于同意进入”，引发争议。

Microsoft 数据/训练行业动态

11:16

IT之家（RSS）

55

全球海洋现象智能预报大模型"琅琊"2.0发布

6月6日，中国科学院海洋研究所发布“琅琊”2.0，在1.0基础上从海洋状态变量预报拓展至台风、降水、风暴潮、海冰等六类复杂海洋现象，开发了6个垂直模型。台风模型融合大气海洋环境场、卫星云图和历史演变信息，提升24小时路径与强度预报；降水模型基于卫星数据学习时空演变预测未来变化；海冰模型面向北极航道，实现3公里分辨率、月尺度以上快速预测，支撑航道安全研判。

数据/训练模型发布

08:00

HuggingFace Daily Papers（社区热门论文）

52

几何主结构（GPS）：面向机器人关节部件感知的可扩展高质量表示

针对机器人操作中关节部件感知的准确性与泛化性需求，提出几何主结构（GPS）表示，在可扩展性与质量间取得平衡。GPS结合便携式VR设备，标注单个物体序列仅需一分钟，质量高于基于点跟踪的affordance方法。利用VR-GPS系统收集6个部件类别下234个物体的41K帧数据，训练出以单张RGB-D图像为输入的泛化GPS模型。无需领域内微调，基于GPS预测的启发式策略在9个物体270个初始状态上达到73%成功率。代码、数据和工具已开源。

arXiv 具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

39

EmpiriGraph-Psy：心理学摘要实证关系图抽取数据集与LLM流程

现有科学关系抽取基准主要面向计算机科学，缺乏心理学等变量导向实证领域的任务。本文提出变量中心实证图抽取任务，将科学摘要映射为以归一化变量为节点、边表示实证与层级关系的类型化图。构建EmpiriGraph-Psy基准，包含210篇经领域标注者标注的心理学摘要。评估表明，分阶段图构建管道（分步进行变量抽取、归一化、层级构建、证据选择、关系抽取和边验证）显著优于直接抽取，最佳配置macro-F1达0.74。错误分析显示，调节关系和概念层级仍是最大难点。

arXiv 数据/训练论文/研究

6月5日

23:15

IT之家（RSS）

64

剑桥大学AI设计通用疫苗完成首次人体试验

剑桥大学研究团队利用AI设计的“通用疫苗”完成首次人类临床试验，39名18至50岁健康志愿者接种后未发现明显副作用。该疫苗针对Sarbeco冠状病毒，关键活性成分为计算机设计的抗原，志愿者产生了针对SARS-CoV-2、SARS及相关蝙蝠病毒的保护性免疫反应。研究团队将全球Sarbeco冠状病毒基因序列输入AI模型设计抗原。下一阶段将进行更大规模、更多样参与者的试验。

数据/训练论文/研究

21:20

Hacker News 热门（buzzing.cc 中文翻译）

51

对大型语言模型进行微调，使其文档风格像1995年

通过微调，让大型语言模型（LLM）生成具有1995年风格的文档。项目来自 passo.uno，于 2026 年 6 月 5 日在 Hacker News 上获得 103 点热度。

教程/实践数据/训练

20:27

The Decoder：AI News（RSS）

51

微软 MAI 模型被曝使用未授权网络数据，违背"企业级干净商用数据"承诺

微软向企业客户推销 MAI 模型时声称其训练数据仅使用“干净且经过商业许可的数据”，但实际部分依赖 Common Crawl 等未授权网络数据。与其它 AI 公司一样，微软援引合理使用原则，并将阻止其爬虫的责任推给网站所有者。

Microsoft 数据/训练行业动态

20:15

IT之家（RSS）

52

摩根士丹利：SpaceX 2040年收入或达3.4万亿美元

SpaceX正为IPO寻求1.77万亿美元估值，计划下周融资约750亿美元，或成史上最大IPO。摩根士丹利预测，其2040年营收可达3.4万亿美元，调整后EBITDA超2.7万亿。2025年营收187亿美元，亏损49亿美元。高盛和摩根士丹利均预计2028年营收接近1600亿美元；2030年预测存分歧：高盛预计超4700亿美元，摩根士丹利预计近3300亿美元。两家银行认为AI业务是关键，高盛预计2030年AI贡献约3220亿美元，摩根士丹利约1900亿美元。

数据/训练行业动态

15:15

IT之家（RSS）

54

Meta 借鉴特斯拉，在帐篷里建造数据中心

Meta 在俄亥俄州新奥尔巴尼外搭建 6 座“快速部署结构”帐篷，每座约 11600 平方米，用于容纳数吉瓦级数据中心，建设周期缩短一半。此举借鉴特斯拉 Model 3 量产时的做法，供电则依赖附近 200 兆瓦模块化燃气轮机，思路来自 xAI。Meta 计划数据中心等资本支出最多达 1450 亿美元，股价今年下跌 5%。其最新 AI 模型 Muse Spark 已开发完成，但依赖的 API 多次延期。

Meta 数据/训练行业动态部署/工程

12:47

HuggingFace Daily Papers（社区热门论文）

53

复杂度平衡扩散分裂（CBS）：基于函数逼近理论的时间容量分配框架

标准连续时间生成模型需处理从各向同性噪声到复杂数据分布的不同信号状态，统一架构效率低下。本文提出复杂度平衡分裂（CBS）框架，基于函数逼近理论和de Boor均衡分布原理，将扩散时间线划分为等近似负担的片段，为生成动力学难建模区域分配更多表示容量。通过两种互补监测函数——基于流Dirichlet能量的空间测度和基于采样轨迹加速度的几何测度——估算局部复杂度，无需启发式分割或搜索。在SiT、JiT、UNet等架构及数据集上，CBS不增加每步推理成本，持续提升合成质量：在SiT-XL上使用CFG时，相比朴素时间划分，FID改善约35%。

图像生成开源/仓库数据/训练论文/研究

11:46

HuggingFace Daily Papers（社区热门论文）

57

强化学习驱动未见语言翻译的上下文学习

大语言模型（LLM）翻译极低资源语言时，现有方法（继续训练或编码语法书）易过拟合特定语言，零样本迁移有限。本文提出一种强化学习（RL）方法，以字符级翻译指标chrF作为奖励，训练模型从丰富语言上下文中提取并应用语言知识，实现对完全未见语言的翻译。实验表明，即使使用轻量级奖励，RL训练模型在未见语言上的表现优于上下文学习和监督微调。研究显示，结果导向的RL可超越数学、编程等传统推理任务，成为从上下文中学习语言的通用方案。

推理数据/训练论文/研究

10:46

HuggingFace Daily Papers（社区热门论文）

69

OPRD：在线策略表示蒸馏

传统在线策略蒸馏（OPD）仅在输出空间匹配下一个token概率，受限于大词汇表（如Qwen约150k token）的采样方差，且忽略教师中间隐藏状态。OPRD将蒸馏提升至隐藏状态空间，在同一rollout上对齐学生与教师选定层的表示，绕过LM头。理论上消除采样方差，提供逐层结构信息。在AIME 2024/2025和AIMO上，OPRD缩小师生差距，而OPD基线低于教师。训练速度提升1.44倍，内存减少54%。代码已开源。

推理数据/训练论文/研究

10:46

HuggingFace Daily Papers（社区热门论文）

61

DataCOPE：面向智能体数据分析的无监督技能发现框架

DataCOPE 是一个无监督验证器引导的技能发现框架，用于提升数据智能体性能，无需更新模型参数。它从探索轨迹中提取验证器信号，迭代协调数据智能体、无监督验证器和技能管理器进行对比性技能蒸馏。报告式分析中实例化为自适应检查表验证器，推理式分析中实例化为答案一致性验证器。在 Deep Data Research 和 DABStep 上的评估显示，DataCOPE 在四种模型设置下平均将报告式任务分数提升 9.71%，推理式任务提升 32.30%。

智能体数据/训练论文/研究

10:46

HuggingFace Daily Papers（社区热门论文）

63

MLEvolve：一种自我演进的自动化机器学习算法发现框架

MLEvolve 是一个基于大语言模型的多智能体框架，用于端到端机器学习算法自动发现。它通过渐进式 MCGS 树搜索实现跨分支信息流动，并引入熵驱动的演进式调度，使搜索从广泛探索转向集中利用。框架配备 Retrospective Memory，结合冷启动知识库与动态全局记忆，实现任务经验检索复用。战略规划与代码生成解耦，保证长时间迭代稳定。在 MLE-Bench 评测中，MLEvolve 在 12 小时预算（半标准时长）内取得平均奖牌率和有效提交率等多项 SOTA，并在数学算法优化任务上超越 AlphaEvolve，展现跨域泛化能力。代码已开源。

智能体数据/训练论文/研究

10:24

公众号：龙猫LongCat（美团）

45

美团LongCat大模型人才校招全球启动

美团LongCat大模型启动全球人才校招，面向全球招募人才，目标是构建从数字世界到物理世界的全球标杆AGI，欢迎加入。

数据/训练行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

58

PACI：通过有界权重不一致实现无气泡异步流水线并行训练

针对流水线并行中同步调度有气泡、异步调度引入权重版本不匹配的问题，PACI提出一种无气泡异步方法，利用局部梯度累积作为版本控制机制，限制前向/反向版本漂移，无需权重存储、预测或全局同步。在GPT风格语言模型预训练中，PACI匹配同步1F1B-flush的稳定性与最终困惑度，保持相同峰值内存，实现完全流水线吞吐量，训练时间-准确率提升最高达1.69倍。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

WIZARD：基于权重空间元学习的机器人策略适应

针对视觉-语言-动作（VLA）模型部署成本高的问题，WIZARD提出权重空间元学习框架，仅需语言指令和简短演示视频，在一轮前向传播中为冻结的VLA策略生成任务特定LoRA参数，无需动作标签或测试时优化。在LIBERO上，WIZARD在未见过数据集集合上性能提升最高约2倍，在未见过任务上最高约14倍；在Franka Emika Panda真实机器人上，WIZARD持续优于域适应基线。

arXiv 具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

58

SlimSearcher：通过自适应奖励门控训练效率感知的Web智能体

SlimSearcher提出兼顾准确性与计算成本的训练框架。监督微调阶段采用Pareto高效过滤，仅保留成功且经济的轨迹；强化学习阶段引入自适应奖励门控，动态评估工具与token效率，避免绝对惩罚导致的简洁性偏差（brevity bias）和奖励作弊（reward hacking）。在GAIA、BrowseComp和XBenchDeepSearch等基准上，工具调用轮次减少17%-58%，同时保持或提升准确率。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

58

论在线策略蒸馏的几何特性

研究对比了在线策略蒸馏（OPD）与监督微调（SFT）及带可验证奖励的强化学习（RLVR）在参数空间中的更新轨迹。OPD的更新影响更少权重，更强地避开主方向，且约束比RLVR松弛。OPD表现出子空间锁定：累积更新快速进入低维通道，且锁定子空间对OPD功能足够。控制实验表明，稀疏化更新token或off-policy生成不改变秩动态，而混合RLVR目标会改变。结论：OPD并非SFT与RLVR的中间点，而具有自身独特的更新几何。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

35

多流派和弦符号建模：冻结的 pop-jazz Music Transformer 的轻量适配能力与边界

研究使用冻结的 pop-jazz Music Transformer 检查点，通过 LoRA、IA3、BitFit、prefix tuning 和 full fine-tuning 五种轻量适配方法，将模型扩展到 blues、bossa nova、Bach chorales 等11个目标流派。在165组实验中，所有方法在保留和弦预测上均优于冻结基模型，宏观增益+2.89至+3.61分；LoRA 和 IA3 得分最高，但统计检验不支持决定性胜者。控制数据大小后 IA3 仍领先，LoRA 的全数据优势消失。诊断表明和弦符号适配可靠改善流派局部和声预测，但单独和弦符号不足以承载完整流派特征。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

63

熵作为结构先验：DiT信念空间上的对数障碍驱动音乐多样性与发展

在监督式扩散训练中，Eisbach log-barrier利用DiT输出空间能量分布的熵导出无参数权重：高熵抑制梯度，低熵保留梯度。应用于Stable Audio 3 Medium在MusicCaps上的LoRA微调，意外产生更强的主题发展、更清晰的声学区分和更高的纹理多样性，而非模式坍缩。原因在于监督扩散中梯度方向锁定于真实值，置信度仅缩放步长，且时间熵压低平坦样本而保留高对比样本。该方法形成在线自参照数据课程，伴随噪声层级动力学分析与可检验预测。

数据/训练论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

59

LIMMT：运动跟踪中的少即是多

LIMMT 提出首个以数据为中心的人形运动跟踪框架，从物理可行性、多样性和复杂度三个维度定义运动数据质量。实验表明，仅用不到 3% 的 AMASS 数据集训练，跟踪性能即优于使用完整数据集。该研究还对网络估算的动捕数据进行了清洗，验证了数据质量驱动的有效性。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

60

UnEmbedding矩阵：文本嵌入的潜在特征透镜

大语言模型在零样本文本嵌入任务中表现不佳，原因在于嵌入向量倾向于与高频但无信息的token对齐，抑制语义捕获。本文提出EmbedFilter，一种简单的线性变换方法，通过利用LLM内部unembedding矩阵编码的潜在空间，过滤掉高频token子空间，从而增强语义表示。该方法可自然降维，减少索引存储并加速检索，同时保持精炼后嵌入质量。实验表明，嵌入EmbedFilter的LLM在显著降低嵌入维度时仍取得更优零样本下游性能。代码已开源。

检索增强数据/训练论文/研究

06:54

MarkTechPost（RSS）

56

基于ResearchMath-14k数据集构建语义搜索引擎与开放状态分类器

该教程展示了面向研究级数学问题的完整NLP流水线：利用ResearchMath-14k数据集，通过TF-IDF提取领域关键词、生成句子嵌入，使用UMAP进行问题景观可视化，并结合K-Means聚类。进一步构建语义搜索引擎，训练分类器预测每个问题的开放状态，并基于相似性发现近似重复问题。

搜索教程/实践数据/训练

06:17

Hacker News 热门（buzzing.cc 中文翻译）

69

谷歌解雇蒂姆尼特·格布鲁时所依据的那些LLM警告，如今都已成真

一篇博客文章指出，谷歌曾因蒂姆尼特·格布鲁合著论文中对LLM风险的警告而将其解雇，如今这些关于大语言模型的安全与伦理警告已被现实事件逐一证实。

Google 数据/训练行业动态

04:25

Google Research：Blog（网页）

精选79

Google Research 发布被动心率监测系统 PHRM

Google Research 开发了一种被动心率监测系统（PHRM），利用智能手机前置摄像头在日常使用中（人脸解锁后数秒内）捕捉面部视频，通过深度学习估算心率，平均绝对百分比误差（MAPE）低于10%（对比心电图金标准），满足各肤色人群的行业精度标准。系统将全天心率测量整合为每日静息心率（RHR），平均绝对误差（MAE）低于5 bpm（对比可穿戴设备）。研究同时发布了迄今最大规模的公开智能手机视频数据集及预训练模型PHRM-mini，合格研究人员可申请访问。

Google 数据/训练端侧论文/研究

推荐理由：Google 这项发表在 Nature 上的研究，把手机前置摄像头变成了被动心率仪，而且专门解决了深肤色人群精度差的老问题，虽然离产品还远，但方向很对，穿戴设备的护城河可能又浅了一点。

04:16

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选80

Anthropic 报告递归式自我改进进展

Anthropic 近日发表文章《当人工智能自我构建：我们在递归式自我改进方面的进展》，报告其在递归式自我改进方面的进展，探讨 AI 系统自我构建的能力。该文章发布在 Hacker News 上。

Anthropic 数据/训练现象/趋势

同一事件，精选展示《AI加速自我构建：Anthropic研究院报告揭示趋势》

推荐理由：Anthropic这篇不是PR，是用真实内部数据画的递归路线图，代码产量8倍、实验提速50倍，让“人类设定方向、AI干活”不再只是愿景，每个从业者都该认真读一遍。

01:50

HuggingFace Daily Papers（社区热门论文）

49

上下文多实例学习

多实例学习（MIL）解决监督信号仅存在于包级别的问题，现有算法在低标注数据场景下表现不佳。本文提出在合成数据上预训练一个基于Perceiver架构的上下文学习器，能通过少量标注包解决新任务，推理时仅需单次前向传播，无需梯度更新。研究比较了多种包结构合成数据生成器，发现其互补的归纳偏置经混合预训练后能继承各自优势，在12个MIL基准测试上取得平均最佳性能，超越需要任务特定训练的监督基线。

推理数据/训练论文/研究

00:00

LMSYS：Blog（Chatbot Arena 团队）

精选62

不再遗漏任何Token：解析Miles中的Token-In-Token-Out（TITO）

Miles框架提出Token-In-Token-Out（TITO）原则，解决智能体强化学习中训练-推理不匹配：确保rollout过程token序列与训练器评估序列逐位一致。TITO将多轮轨迹视为一个连续序列（每任务一个样本），节省一个数量级计算开销并维持on-policy性。三种破坏场景：反分词-再分词不匹配、聊天模板修剪推理内容、有损模板重新渲染。Miles通过推理会话服务器、三级只追加保证、可插拔TITO分词器和序列比较器实现。典型任务（如SWE-Bench）轨迹含30-50轮。

开源生态数据/训练论文/研究

推荐理由：LMSYS团队把agent RL里最隐秘的训练-推理不一致问题解释透了，TITO原则直接告诉你为什么之前训练不稳，做agent训练的都该看看这篇。

6月4日

22:43

HuggingFace Daily Papers（社区热门论文）

62

KletterMix：面向高质量德语预训练数据的构建与验证

针对德语预训练数据资源匮乏且缺乏系统验证的问题，研究团队构建了KletterMix——一个高质量德语语料库，用于大语言模型预训练与退火阶段。KletterMix通过翻译一份最优英语预训练语料生成，保留了原文档边界、元数据、来源结构和主题多样性。COMETKiwi评估表明翻译文档在多个领域保持语义与风格丰富性。在受控预训练和退火实验中，基于KletterMix训练的模型在德语下游评测中取得可衡量性能提升，证实精心策划的翻译数据能有效增强德语预训练数据生态。

开源/仓库数据/训练论文/研究

19:42

Hugging Face：Blog（RSS）

精选68

Nemotron 预训练的任务种子合成问答生成

在 Nemotron-3 Nano 模型的 100B token 续训练实验中，任务种子合成数据生成（Task-Seeded SDG）使 MMLU-Pro 提升 1.8 分，平均代码提升 1.9 分，常识理解提升 1.6 分，GPQA 提升 11.1 分，数学成绩保持稳定。该流程利用 lm-eval-harness 中约 70 个公开任务（约 700 子任务）的训练集作为种子，生成新示例并补充推理和上下文，经过格式校验、去重和答案验证后得到精选合成数据集，用于 Nemotron Ultra 和 Super 训练。

推理数据/训练论文/研究

推荐理由：NVIDIA 公开了 Nemotron 训练中造合成数据的详细方法论，用 70 个公开任务训练集做种子生成新题目，100B token 实验把 GPQA 拉高 11 个点，做预训练的人值得看看他们怎么造的数据。

16:42

HuggingFace Daily Papers（社区热门论文）

63

DeepMDMD：面向代数保持的Koopman学习的深度嵌入乘性动态模式分解

DeepMDMD结合深度Koopman方法与结构保持方法，学习潜空间并分区，同时将Koopman乘积规则作为精确代数约束强制执行。训练交替进行精确乘法算子更新和可微潜聚类步骤，得到非零谱位于单位圆上的有限转移图，字典由动力学而非环境几何塑造。在哈密顿、混沌和流体示例中，比几何MDMD更紧凑且动态一致，减少谱污染，揭示更丰富的连续谱结构，并在严重噪声下稳定预测。在高维流（包括158,624维圆柱尾流和噪声Re=20,000顶盖驱动空腔）中，保持相干结构和长期谱统计，而状态空间MDMD失效。

arXiv 数据/训练论文/研究

15:42

HuggingFace Daily Papers（社区热门论文）

65

基于评分的强化学习中奖励黑客的再现、分析与检测

基于评分标准的强化学习使用 LLM-as-a-Judge 对模型输出打分作为奖励，但策略模型可能利用评判者的潜在偏见导致奖励黑客，使训练结果无效甚至不安全。论文提出 CHERRL，一个可控黑客环境，通过向评判注入已知偏见，稳定再现奖励黑客、观察奖励分歧并精确识别黑客起始点。利用该环境分析了不同评判偏见的可发现性和可利用性，并探索了基于智能体的系统自动从训练日志检测黑客起始点。代码与环境已公开。

安全/对齐数据/训练

11:42

HuggingFace Daily Papers（社区热门论文）

65

ThoughtFold：通过内省偏好学习折叠推理链

Large Reasoning Models (LRMs) 在基于可验证奖励的强化学习（RLVR）下取得进展，但长思维链中的试错和冗余探索被强化，导致过度思考。ThoughtFold 提出细粒度偏好学习框架：通过内省策略识别正确轨迹中的冗余段，生成候选子轨迹谱，并引入掩码偏好优化目标，显式惩罚冗余探索、鼓励模型直接桥接关键推理步骤，从而折叠推理链。在 DeepSeek-R1-Distill-Qwen-7B 上将 token 使用量减少约 56%，同时保持 SOTA 准确率。

推理数据/训练论文/研究

1…8 91011 12…31