6月4日

19:42

Hugging Face：Blog（RSS）

精选68

在 Nemotron-3 Nano 模型的 100B token 续训练实验中，任务种子合成数据生成（Task-Seeded SDG）使 MMLU-Pro 提升 1.8 分，平均代码提升 1.9 分，常识理解提升 1.6 分，GPQA 提升 11.1 分，数学成绩保持稳定。该流程利用 lm-eval-harness 中约 70 个公开任务（约 700 子任务）的训练集作为种子，生成新示例并补充推理和上下文，经过格式校验、去重和答案验证后得到精选合成数据集，用于 Nemotron Ultra 和 Super 训练。

推理数据/训练论文/研究

推荐理由：NVIDIA 公开了 Nemotron 训练中造合成数据的详细方法论，用 70 个公开任务训练集做种子生成新题目，100B token 实验把 GPQA 拉高 11 个点，做预训练的人值得看看他们怎么造的数据。

02:49

Google Research：Blog（网页）

精选72

洪水韧性新篇章：Google 开源水文建模框架

Google Research 在 GitHub 开源了其水文建模框架，这是一个基于 PyTorch 的 Python 包，采用与 Flood Hub 河段洪水预报相同的模型架构和训练数据。该框架允许研究者和预报员训练 AI 洪水预报模型、添加新模型与数据，并已与捷克水文气象研究所（CHMI）等合作测试。开放模型架构和训练管线旨在让各国气象水文部门在保留数据完全控制权的同时，整合基于 AI 的洪水预报。

Google 开源/仓库开源生态数据/训练

推荐理由：谷歌开源的水文模型框架，是少数真正能救命的AI应用。不是秀参数，而是把工具直接塞给一线预报员，让他们用本地数据训练。务实，值得给赞。

01:23

Claude：Blog（网页）

精选73

Anthropic 用 Claude 赋能自助数据分析

Anthropic 使用 Claude 自动化了 95% 的业务分析查询，整体准确率约 95%。其关键在于构建智能体分析栈（agentic analytics stack），通过数据基础层、维护验证流程和技能（skills）分别解决概念-实体歧义、数据过时和检索失败三大错误来源。相比编码场景，数据分析的难点在于将用户问题映射到正确的数据实体，而执行 SQL 反而是简单的。Anthropic 的数据科学团队因此得以专注于因果建模、预测和机器学习等战略工作。

智能体 Anthropic 教程/实践数据/训练

关联讨论 1 条

推荐理由：Anthropic 把内部用 Claude 搞自助分析踩过的坑全摊开，技能模板和「语义层优先」的强制流程是实打实的干货，做数据 agent 的团队可以直接抄作业。

6月3日

21:41

Hugging Face：Blog（RSS）

精选55

DharmaOCR 利用 DPO 将文本退化率降低 59.4%

4月发布的DharmaOCR（结构化OCR模型）在巴西葡萄牙语文档提取任务中，使用直接偏好优化（DPO）作为监督微调（SFT）后的第二训练阶段。SFT无法直接惩罚文本退化（重复循环），而DPO以模型自身失败输出（退化循环）作为负样本进行偏好训练，使所有测试模型族的文本退化率平均降低59.4%，最高达87.6%（如Nanonets-OCR2-3B从1.61%降至0.20%）。传统DPO多用于聊天对齐，该工作将其扩展至客观的OCR任务，证明DPO可针对性修复特定失败模式。

Hugging Face 教程/实践数据/训练

推荐理由：DPO 不只能对齐，这篇直接用模型自身的垃圾输出当反例，把 OCR 的重复错误平均降了 59%。思路不复杂，但告诉做结构化生成的工程师：训练数据里最该保留的就是模型犯的错。

00:22

Gary Marcus：The Road to AI We Can Trust（RSS）

精选55

Gary Marcus：为什么事情终将崩塌

知名人工智能批评者Gary Marcus在其关于可信赖AI的专栏中，探讨了人工智能发展面临的根本性挑战。文章开篇即指向问题的核心，指出相关数学理论的局限性与人类心理的复杂性，是导致AI系统最终可能出现问题的根源。

Anthropic OpenAI 大佬观点数据/训练

推荐理由：Gary Marcus 把 AI 行业缺乏护城河、价格战、ROI 存疑的经济死结讲得很直白，金融圈越来越认同。虽然观点不新，但这回时机恰好卡在 Google 融资和 Anthropic 取消无限 API 的时候，信号意义很强。

6月2日

09:00

公众号：蚂蚁百灵（Ling）

KPop：用对称二元KL散度解决MoE大模型RL训练推理不一致问题

KPop针对MoE大模型强化学习中的训练-推理不一致问题，提出用对称二元KL散度代替IcePop的固定ratio阈值。该方法只需一个超参数，根据token概率自适应调整屏蔽边界：稀有token更宽容，高频token更严格。在Ring-flash-2.0（100B总参，6.1B激活）的RLVR训练中，支撑800+步稳定训练，屏蔽比例从10%动态升至30%+（IcePop仅约0.2%）；在AIME25、HMMT25-Nov、ARC-AGI-2、LiveCodeBench上全面优于IcePop。在长程智能体任务中，基于Ring-2.6-1T（1万亿总参，63B激活）的SWE-bench Verified得分从70.8%提升至76.28%，且仅需更新70%~80% token即可收敛。

推理数据/训练论文/研究

5月29日

11:35

公众号：面壁智能（MiniCPM）

精选61

面壁智能联合清华、OpenBMB开源最大中文预训练合成数据集及千万级SFT数据集，公开MiniCPM5-1B核心数据

面壁智能联合清华大学、OpenBMB发布并开源两大数据集：Ultra-FineWeb-L3（超600B Tokens，中文200B+，为当前最大中文预训练合成数据集）和UltraData-SFT-2605（国内首个千万级同时含深思考与非思考标注的SFT数据集）。两者基于UltraData数据分级治理体系构建，在MiniCPM5-1B训练流程中得到完全验证，覆盖预训练退火到后训练SFT全链路。已上线UltraData网站与HuggingFace，免费开放。

Hugging Face 开源/仓库数据/训练端侧

关联讨论 1 条

推荐理由：填补了中文大规模合成数据空白，三年前还在用英文数据做中文模型的日子可以翻篇了，做端侧模型的可以直接拿这份数据跑一版 MiniCPM5-1B 级别的效果。

09:39

公众号：蚂蚁百灵（Ling）

蚂蚁百灵团队提出 PowLU 激活函数，解决低精度训练中 SwiGLU 的异常值问题

SwiGLU 在大模型低精度训练中因输出近似二次增长导致异常值逐层放大，引发 Loss Spike。蚂蚁百灵（Ling）团队提出的 PowLU，在正半轴用幂函数替代指数衰减因子，使增长曲线更平缓。Scaling Law 实验（26M–368M 参数）显示 PowLU 与 SwiGLU 拟合曲线几乎重合；7.9B（600B token）和 124B（800B token）模型在 17 个基准上 PowLU 均优于或持平 SwiGLU。FP8 训练下 PowLU Loss 稳定在约 1.32，有效压缩数值动态范围，减少极端异常值。

数据/训练论文/研究

5月28日

23:41

Google Developers Blog（RSS）

精选64

社区如何利用Tunix和TPU训练Gemma学会"思考"

Google在Kaggle举办的Tunix黑客马拉松，挑战开发者利用TPU和有限算力，将小型基础模型转变为通用推理引擎。获胜团队通过多阶段后训练流程实现了这一目标，该流程结合了监督微调（SFT）与GRPO、SimPO等先进对齐技术。比赛结果表明，社区能够借助开源资源成功训练出高能力的结构化推理模型。

Google 开源生态教程/实践数据/训练

推荐理由：Google 官方比赛总结，证明用 Kaggle TPU 和开源工具就能把 Gemma 训练出不错推理能力，对想自己微调模型的小团队是个实用参考。

21:11

Cloudflare Blog

我们如何构建Cloudflare的数据平台及其上的AI智能体

Cloudflare构建了名为Town Lake的统一分析平台，并基于此开发了内部AI智能体Skipper。

智能体教程/实践数据/训练部署/工程

07:07

Anthropic：Research（发表成果 · 网页）

精选69

社会科学中的编码智能体

一项针对1260名定量社会科学家的调查显示，虽然81%的受访者用过AI聊天机器人，但仅有20%将Claude Code、Codex等编码智能体常规应用于工作。采用率存在显著差异：以男性名字命名的研究者使用率是女性研究者的两倍；顶尖大学研究者可能性高出40%。用户产出更多工作论文和基金申请，但这可能反映早期采用者自身差异。研究者对AI助力撰写可发表论文更乐观，但对重塑整个社会科学领域持保留态度。这是一项初步调查，更深入研究仍在进行中。

智能体 Anthropic 数据/训练论文/研究

推荐理由：Anthropic 这份调查把编码代理在社科领域的真实渗透率摸清了，只有 20% 的研究者真在用，而且男女、校际差距比 AI 聊天工具大得多，做学术工具的可以认真看看。

5月27日

22:20

Hugging Face：Blog（RSS）

精选61

TRL 新增 Delta Weight Sync：通过 Hub Bucket 传输权重变化，每步从 1.2 GB 降至 20-35 MB

异步强化学习中，训练器每步需将完整模型权重（如1T参数checkpoint约1 TB）传输给推理引擎。TRL新增PR利用相邻RL优化步骤间约99%的bf16权重比特相同的特点，仅将变化的权重编码为稀疏safetensors文件，上传至Hugging Face Bucket并通知vLLM获取。在Qwen3-0.6B上，每步传输从1.2 GB降至20–35 MB。实验还展示了完全分离的训练场景：训练器、vLLM和Wordle环境分别位于不同机器和Hugging Face Space中，权重通过单个Hub bucket流动，无需共享集群、RDMA或VPN。

Hugging Face 教程/实践数据/训练部署/工程

推荐理由：异步RL训练中权重同步的瓶颈被HuggingFace用稀疏增量方案解决了，带宽直接省了两个数量级，还给了可运行的TRL分支，做RL训练的可以直接上手试。

11:35

公众号：面壁智能（MiniCPM）

精选64

AI 制造 AI：面壁智能发布并开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain

面壁智能联合清华大学、OpenBMB发布ForgeTrain，全球首个完全由AI编写、零人类代码介入的生产级大模型训练框架。在英伟达H100上训练速度超越Megatron 10%，节省10%算力；在华为昇腾上完整跑通预训练，并训出MiniCPM5-1B模型，综合性能在AA榜单2B规模以下Top1。框架及Agent Harness工具链一并开源。

开源/仓库数据/训练部署/工程

关联讨论 1 条

推荐理由：面壁这波把 AI 写代码从玩具推进到了生产车间，ForgeTrain 跑得比英伟达 Megatron 还快 10%，而且直接在昇腾上训出了 MiniCPM5-1B，国产算力跟 AI 自举这两条线在这一刻交汇了，做训练的可以认真看看。

03:31

Tomer Tunguz 博客（VC 分析）

精选58

智能体重力：谁在运行你的智能体？

在数据时代，数据重力是核心力量；而在智能体时代，智能体重力将扮演同样角色。智能体运行需要巨大算力，主要平台将激烈争夺以将其留在自家生态。平台上的智能体与数据越多，其智能体重力就越强。例如，Databricks在微软平台推出的某个功能，虽未明言此目的，却让用户更容易在Databricks中构建智能体，而非微软自家的Fabric。这可能使用户不知不觉间将高价值的智能体及数据工作负载迁移至该平台。因此，赢得并维持智能体重力，将成为智能体时代的核心竞争主题。

智能体大佬观点数据/训练

推荐理由：Tomer Tunguz 提出「Agent Gravity」概念，把数据平台竞争的逻辑从数据引力延伸到了代理引力，做 Infra 和做 Agent 的人都应该读一读，这可能会影响你对平台锁定的判断。

5月26日

20:12

公众号：百度智能云（文心）

百度智能云发布具身智能Ego-Centric采集解决方案

百度智能云发布具身智能Ego-Centric采集解决方案，以轻量化数采套件（120FPS、150°视场、毫米级定位、毫秒级同步）实现低门槛第一视角数据采集；首创无本体设计，通过RGB视频到三维手部姿态估计与动作重定向，达成毫米级机械臂轨迹映射。方案配备六相机真值评估体系、三层数据质检机制及智能化数据管理平台，覆盖采、标、管、仿、训、测全栈能力。已服务智元机器人、星海图等超30家重点企业，并支持北京、上海、浙江、四川等国家创新中心。

产品更新具身智能数据/训练

00:00

MiniMax：Blog（网页）

精选59

为什么MiniMax大语言模型无法说出"马嘉祺"？稀疏Token遗忘的内部调查

MiniMax M2系列大语言模型在生成时无法输出稀疏token“嘉祺”（如“马嘉祺”）。内部调查排除tokenizer对齐问题，发现根因是后训练阶段对低频token的生成概率产生抑制。该问题已在后续模型更新中修复，并顺带解决了其他小语种混合问题。

数据/训练论文/研究

推荐理由：这种官方自己拆自己的技术调查不多见，把「低频token遗忘」从社区猜测一路推到SFT数据缺失导致lm_head漂移的根因，做模型训练的可以当案例看。

5月23日