6月4日

08:00

HuggingFace Daily Papers（社区热门论文）

现有方法将自回归模型（ARLM）转换为扩散语言模型（DLM）时面临两种分布偏移：目标函数切换导致知识丢失，以及训练时随机掩码序列与推理时置信度解码轨迹不匹配。研究者提出OPDLM，采用On-Policy蒸馏（OPD）进行转换。学生模型（双向注意力的ARLM）生成自身轨迹，教师模型（冻结的原ARLM）在这些轨迹上提供目标logits完成知识蒸馏。OPDLM以on-policy方式训练，消除了DLM的训练-推理不匹配，蒸馏机制保留了原ARLM知识。实验表明，OPDLM仅需原训练token量的1/15至1/7000，在多样任务上表现强劲，使DLM转换成为ARLM后训练手段。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

压缩-蒸馏：面向高效知识蒸馏的推理轨迹压缩

Qwen3.5-397B-A17B与gpt-oss-120B两教师模型各生成约283k条正确轨迹，经指令微调模型压缩至原始字符长度的8.6–21.0%。压缩轨迹使训练token降至原始的12–30%，训练速度提升2.0–7.6倍，推理输出长度缩短3–19倍。但原始轨迹在所有规模下保持最高下游准确率；压缩学生模型可保留高达96%的原始准确率，同时获得最高18倍的每token效率。在0.8B学生规模使用LoRA时，压缩轨迹缩小了与原始轨迹的差距，但未超过原始。

推理数据/训练论文/研究

02:49

Google Research：Blog（网页）

精选72

洪水韧性新篇章：Google 开源水文建模框架

Google Research 在 GitHub 开源了其水文建模框架，这是一个基于 PyTorch 的 Python 包，采用与 Flood Hub 河段洪水预报相同的模型架构和训练数据。该框架允许研究者和预报员训练 AI 洪水预报模型、添加新模型与数据，并已与捷克水文气象研究所（CHMI）等合作测试。开放模型架构和训练管线旨在让各国气象水文部门在保留数据完全控制权的同时，整合基于 AI 的洪水预报。

Google 开源/仓库开源生态数据/训练

推荐理由：谷歌开源的水文模型框架，是少数真正能救命的AI应用。不是秀参数，而是把工具直接塞给一线预报员，让他们用本地数据训练。务实，值得给赞。

02:42

HuggingFace Daily Papers（社区热门论文）

条件假设生成：基于大语言模型的文本分析中研究者指定协变量

计算社会科学的核心目标是发现语言在不同结果中的可解释差异。现有基于LLM的假设生成方法仅选取全局判别模式，忽略研究者领域知识中的协变量，导致所选模式可能反映混淆而非实质差异。本文提出条件假设生成框架，通过纳入研究者指定的协变量，引导假设发现聚焦于相关子群内成立的差异。针对子群代表性不足（层不平衡）和差异方向可能逆转（符号反转）两个挑战，提出两种方法：引入特征-协变量交互检测符号反转，以及应用层内去均值和逆频率重加权平衡欠代表层。实验表明，协变量感知的生成方法能在相关子群内产出更有用的假设。

arXiv 数据/训练论文/研究

01:23

Claude：Blog（网页）

精选73

Anthropic 用 Claude 赋能自助数据分析

Anthropic 使用 Claude 自动化了 95% 的业务分析查询，整体准确率约 95%。其关键在于构建智能体分析栈（agentic analytics stack），通过数据基础层、维护验证流程和技能（skills）分别解决概念-实体歧义、数据过时和检索失败三大错误来源。相比编码场景，数据分析的难点在于将用户问题映射到正确的数据实体，而执行 SQL 反而是简单的。Anthropic 的数据科学团队因此得以专注于因果建模、预测和机器学习等战略工作。

智能体 Anthropic 教程/实践数据/训练

关联讨论 1 条

推荐理由：Anthropic 把内部用 Claude 搞自助分析踩过的坑全摊开，技能模板和「语义层优先」的强制流程是实打实的干货，做数据 agent 的团队可以直接抄作业。

6月3日

22:09

IT之家（RSS）

谷歌母公司 Alphabet 宣布将股权融资规模增至 847.5 亿美元

Alphabet 将股权融资规模从 800 亿美元增至 847.5 亿美元，用于投资 AI 基础设施与算力。其中 A 类普通股和 C 类资本股发行增至 180 亿美元，存托股份发行增至 167.5 亿美元；伯克希尔·哈撒韦以私募形式投资 100 亿美元。发行预计 2026 年 6 月初完成。

数据/训练行业动态

21:41

Hugging Face：Blog（RSS）

精选55

DharmaOCR 利用 DPO 将文本退化率降低 59.4%

4月发布的DharmaOCR（结构化OCR模型）在巴西葡萄牙语文档提取任务中，使用直接偏好优化（DPO）作为监督微调（SFT）后的第二训练阶段。SFT无法直接惩罚文本退化（重复循环），而DPO以模型自身失败输出（退化循环）作为负样本进行偏好训练，使所有测试模型族的文本退化率平均降低59.4%，最高达87.6%（如Nanonets-OCR2-3B从1.61%降至0.20%）。传统DPO多用于聊天对齐，该工作将其扩展至客观的OCR任务，证明DPO可针对性修复特定失败模式。

Hugging Face 教程/实践数据/训练

推荐理由：DPO 不只能对齐，这篇直接用模型自身的垃圾输出当反例，把 OCR 的重复错误平均降了 59%。思路不复杂，但告诉做结构化生成的工程师：训练数据里最该保留的就是模型犯的错。