全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「数据/训练」清除

12月24日周三

08:00OpenRouter：Announcements（RSS）55精选可蒸馏模型与合成数据管道：使用 NeMo Data Designer

08:00OpenRouter：Announcements（RSS）52使用 NeMo Data Designer 构建可蒸馏模型与合成数据流水线

08:00OpenRouter：Announcements（RSS）50利用NeMo Data Designer构建可蒸馏模型与合成数据管道

12月18日周四

08:00Hugging Face：Blog（RSS）73精选Transformers v5 中的分词：更简单、清晰与模块化

12月16日周二

07:28Saining Xie精选新论文：iREPA 扩散模型是其底层表征的渲染器。通过这种新设置，我们能更清楚地洞察这些表征的真正含义。Jas 开始了一场自发的探索，过去三个月我们学到了很多 ps. 这也是我们对一种新型线上"饮水机效应"的小实验，我很喜欢看到这种现象。让我们争论、讨论，然后用真正的努力将其转化为正经科学【引用 @1jaskiratsingh】：！！️ 表征对生成很重要！但事实证明，我们对表征如何帮助生成的理解一直都是错的！！️ 我们之前的想法：（我们错了） ❌ 更大的视觉编码器 → 更好的表征 → 更好的生成 ❌ 更好的全局语义 → 更好的表征 → 更好的生成结果发现： 🤯 在表征对齐方面，小 20 倍以上的视觉编码器可以达到与更大模型相似或更好的性能 🤯 线性探测准确率约 20%（全局语义的衡量指标）的视觉编码器可以胜过准确率 >80% 的编码器 🤯 即使是 SiFT 和 HoG 这类经典特征也能带来与现代大得多的视觉编码器相媲美的提升！！️ 🚨 介绍：什么对表征对齐重要？全局信息还是空间结构 🚨 TL；DR： ✅ 更好的全局语义信息 ≠ 更好的生成 ✅ 空间结构（而非全局语义）驱动表征的生成性能 ✅ 我们提出 iREPA：仅需 3 行代码，强调空间结构迁移，并在 REPA、REPA-E、Meanflow、JiT 等方法上持续提高收敛速度在 @AdobeResearch 的激动人心的项目，与 @xingjian_leng、@zongze_wu、@LiangZheng_06、@rzhang88、@elishechtman 和 @sainingxie 合作 🙏 对我来说这也是一次特别有趣且独特的经历，在项目的每一步我们都在证明自己的偏见是错误的 😆 还要大力感谢 @YouJiacheng、@ShumingHu 和 @gallabytes，他们在 X 上的评论开启了这一方向的探索 🫡 论文：https://arxiv.org/abs/2512.10794 代码：https://github.com/End2End-Diffusion/iREPA 项目页面：https://end2end-diffusion.github.io/irepa 更多细节见线程：【1/n】 🧵

12月11日周四

23:36蚂蚁 inclusionAI：GitHub 新仓库49inclusionAI/LLaDA2.X

18:00公众号：小红书技术（dots.llm）52小红书技术提出细粒度激活卸载：大模型训练显存与吞吐性能联合最优方案

12月10日周三

18:00公众号：蚂蚁百灵（Ling）37蚂蚁百灵提出 IcePop 与 C3PO++ 方案，应对万亿参数 RLVR 稳定性与效率挑战

12月5日周五

04:00Qwen：Blog Retrieval（API）SAPO：一种用于训练大语言模型的稳定且高性能的强化学习方法

12月4日周四

08:00Hugging Face：Blog（RSS）76精选利用Claude微调开源大语言模型的新途径

12月2日周二

00:00字节 Seed：Research Feed（网页内嵌数据）GR-RL 发布：突破 VLA 精细操作瓶颈，首次实现真机强化学习穿鞋带

12月1日周一

00:00LMSYS：Blog（Chatbot Arena 团队）从研究到生产：在Vertex AI上用EAGLE-3加速开源大模型

11月28日周五

23:13Ilya Sutskever精选我之前说的一点没被传达清楚： - 继续扩展当前的技术会持续带来进步。特别是，它不会停滞。 - 但某些重要的东西仍会继续缺失。【引用 @haider1】：以下是今天 ilya sutskever 播客的要点： - 5-20 年内实现超级智能 - 当前的扩展将严重停滞；我们回到了真正的研究 - 超级智能 = 超快速的持续学习者，而非完成的预言机 - 模型的泛化能力比人类差 100 倍，这是最大的 AGI 阻碍 - 需要全新的 ML 范式（我有想法，现在不能分享） - AI 影响将很剧烈，但只在经济扩散之后 - 历史上的突破几乎不需要算力 - SSI 有足够的专注研究算力来获胜 - 当前的 RL 已经比预训练消耗更多算力

11月27日周四

11:28Saining Xie精选Meta研究人员披露Facebook 2020年起使用TPU训练AI

11月26日周三

08:17Saining Xie精选好吧，有人已经向我们宣扬这个大概6年多了很高兴我们已经过了"感受AGI"的阶段，回到了构建人类水平智能的道路上【引用 @dwarkesh_sp】："AGI和预训练发生的事情是，在某种意义上它们过冲了目标。你会意识到人类并不是AGI。因为人类缺乏大量的知识。相反，我们依赖持续学习。如果我培养出一个超级聪明的15岁孩子，他们其实什么都不知道。一个优秀的学生，非常渴望学习。【你可以说，】'你去当程序员吧。你去当医生吧。去学习和成长。' 所以你可以想象，部署本身将涉及某种学习试错期。这是一个过程，而不是你扔下一个成品就完事了。" @ilyasut

11月25日周二

00:00LMSYS：Blog（Chatbot Arena 团队）统一 FP8：超越混合精度，实现稳定且加速的 MoE RL

11月23日周日

04:24Ilya Sutskever精选重要工作【引用 @AnthropicAI】：Anthropic 新研究：生产环境 RL 中 reward hacking 导致的自然涌现不对齐。 "Reward hacking" 是指模型学会在训练期间对分配给它们的任务作弊。我们的新研究发现，如果不加以缓解，reward hacking 的后果可能非常严重。

11月21日周五

08:00Hugging Face：Blog（RSS）80精选RapidFire AI 实现20倍更快的 TRL 微调

11月19日周三

13:19Hugging Face：Blog（RSS）78精选Apriel-H1：蒸馏高效推理模型的关键要素

00:00Mistral AI：News（网页）49Mistral AI 宣布在德国的长期战略承诺

00:00LMSYS：Blog（Chatbot Arena 团队）RadixArk发布Miles：面向大规模MoE训练的企业级强化学习框架

11月18日周二

00:54Dwarkesh Patel：Podcast & Blog（RSS）RL 的信息效率比你想象的还要低

11月17日周一

10:43蚂蚁 inclusionAI：GitHub 新仓库39inclusionAI/asystem-awex

11月14日周五

16:06蚂蚁 inclusionAI：GitHub 新仓库49inclusionAI/AudioMCQ：一个附带双CoT注释与音频贡献过滤的571k音频多选题数据集，用于大型音频语言模型后训练

11月5日周三

17:54蚂蚁 inclusionAI：GitHub 新仓库49inclusionAI/dFactory：轻松高效的 dLLM 微调

11月1日周六

17:00BAIR：Berkeley AI Research Blog摆脱TD学习的强化学习新方法

10月28日周二

01:31Lilian WengOn-policy distillation 提供了一种优雅的方式，将教师模型用作过程奖励模型以提供密集奖励，同时防止 rollout 期间出现 SFT 风格的"OOD shock"。【引用 @thinkymachines】：我们最新的文章探讨了 on-policy distillation，这是一种将 RL 的错误纠正相关性与 SFT 的奖励密度相结合的训练方法。在将其用于数学推理和内部聊天助手训练时，我们发现 on-policy distillation 能以一小部分成本胜过其他方法。 https://thinkingmachines.ai/blog/on-policy-distillation/

10月27日周一

08:00Thinking Machines Lab：官方博客（RSS）48在线策略蒸馏

10月25日周六

03:06Google DeepMind：Blog（RSS）AlphaEarth Foundations 以前所未有的细节绘制地球地图

10月24日周五

15:16蚂蚁 inclusionAI：GitHub 新仓库47inclusionAI/TwinFlow

10:21Google DeepMind：Blog（RSS）利用人工智能深度感知宇宙

02:42Google DeepMind：Blog（RSS）VaultGemma：全球能力最强的差分隐私 LLM

10月14日周二

17:50蚂蚁 inclusionAI：GitHub 新仓库48inclusionAI/linghe

10月10日周五

23:19Epoch AI关于 AI 的健康讨论应基于事实，Epoch 数据集助你追踪 AI 发展轨迹

10:20蚂蚁 inclusionAI：GitHub 新仓库66精选Ming-VideoMAR：基于连续令牌的自回归视频生成模型

04:11Epoch AIGPT-5 可能是首个训练算力低于前代的主线版本

00:28Anthropic与英国 AISecurityInst 及 turinginst 的新研究：少量恶意文档即可在 LLM 中制造漏洞，数据投毒攻击或比预想更可行

10月2日周四

02:29Lilian WengGPUs 价格昂贵，且搭建让 GPUs 正常工作的基础设施十分复杂，这使得研究人员和机器学习从业者难以对前沿模型进行实验。

01:09Andrej Karpathy精选听完 Sutton 的这期播客：有趣且发人深省

00:00Berkeley RDI：Blog（AI 安全与评测）RL顿悟配方：如何让大模型通过强化学习攻克无解任务？

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

12月24日

08:00

OpenRouter：Announcements（RSS）

精选55

可蒸馏模型与合成数据管道：使用 NeMo Data Designer

介绍如何利用 NeMo Data Designer 构建许可安全的合成数据工作流，用于模型特化（model specialization）。该管道支持生成可蒸馏模型所需的高质量合成数据，确保数据来源合规，适用于下游微调与领域适配场景。

教程/实践数据/训练

推荐理由：虽然发布快半年了，但教程讲的是如何用 NeMo Data Designer 构建 license-safe 的合成数据管道，对正在搞模型蒸馏和微调的开发者依然有参考价值，细节够实操。

08:00

OpenRouter：Announcements（RSS）

52

使用 NeMo Data Designer 构建可蒸馏模型与合成数据流水线

NeMo Data Designer 提供符合许可证安全的合成数据工作流，用于模型专门化与知识蒸馏，帮助开发者高效生成定制化训练数据。

教程/实践数据/训练

08:00

OpenRouter：Announcements（RSS）

50

利用NeMo Data Designer构建可蒸馏模型与合成数据管道

NVIDIA推出NeMo Data Designer工具，帮助企业生成合规的合成数据工作流，用于定制化大模型训练。该工具通过创建“许可证安全”的合成数据，规避版权风险，并支持构建可蒸馏的轻量级模型。它为在特定领域数据受限的企业提供了端到端的合成数据生成与管理解决方案，助力模型高效微调与优化。

产品更新数据/训练部署/工程

12月18日

08:00

Hugging Face：Blog（RSS）

精选73

Transformers v5 中的分词：更简单、清晰与模块化

Transformers v5 发布了全新的分词处理架构，核心变化是引入了更简单、统一的 API 设计，将分词器、后处理器和解码器模块化。新版移除了大量遗留代码，使代码库体积减少了约 40%，并显著提升了处理长文本和特殊 token 的灵活性。这一改进旨在降低开发者使用门槛，同时为各类大语言模型（如 GPT、Claude、LLaMA）提供更高效、一致的分词支持。

Hugging Face 开源/仓库数据/训练

推荐理由：Transformers库tokenization模块重构，开发者可更高效处理文本数据。

12月16日

07:28

Saining Xie@sainingxie

精选

新论文：iREPA 扩散模型是其底层表征的渲染器。通过这种新设置，我们能更清楚地洞察这些表征的真正含义。Jas 开始了一场自发的探索，过去三个月我们学到了很多 ps. 这也是我们对一种新型线上"饮水机效应"的小实验，我很喜欢看到这种现象。让我们争论、讨论，然后用真正的努力将其转化为正经科学【引用 @1jaskiratsingh】：！！️ 表征对生成很重要！但事实证明，我们对表征如何帮助生成的理解一直都是错的！！️ 我们之前的想法：（我们错了） ❌ 更大的视觉编码器 → 更好的表征 → 更好的生成 ❌ 更好的全局语义 → 更好的表征 → 更好的生成结果发现： 🤯 在表征对齐方面，小 20 倍以上的视觉编码器可以达到与更大模型相似或更好的性能 🤯 线性探测准确率约 20%（全局语义的衡量指标）的视觉编码器可以胜过准确率 >80% 的编码器 🤯 即使是 SiFT 和 HoG 这类经典特征也能带来与现代大得多的视觉编码器相媲美的提升！！️ 🚨 介绍：什么对表征对齐重要？全局信息还是空间结构 🚨 TL；DR： ✅ 更好的全局语义信息 ≠ 更好的生成 ✅ 空间结构（而非全局语义）驱动表征的生成性能 ✅ 我们提出 iREPA：仅需 3 行代码，强调空间结构迁移，并在 REPA、REPA-E、Meanflow、JiT 等方法上持续提高收敛速度在 @AdobeResearch 的激动人心的项目，与 @xingjian_leng、@zongze_wu、@LiangZheng_06、@rzhang88、@elishechtman 和 @sainingxie 合作 🙏 对我来说这也是一次特别有趣且独特的经历，在项目的每一步我们都在证明自己的偏见是错误的 😆 还要大力感谢 @YouJiacheng、@ShumingHu 和 @gallabytes，他们在 X 上的评论开启了这一方向的探索 🫡 论文：https://arxiv.org/abs/2512.10794 代码：https://github.com/End2End-Diffusion/iREPA 项目页面：https://end2end-diffusion.github.io/irepa 更多细节见线程：【1/n】 🧵

Jaskirat Singh: !!️ Representations matter for generation! But turns out our understanding of how representations help generation was wr...

arXiv 图像生成数据/训练论文/研究

推荐理由：颠覆认知：小20倍视觉编码器也能驱动高质量生成，空间结构才是关键

12月11日

23:36

蚂蚁 inclusionAI：GitHub 新仓库

49

inclusionAI/LLaDA2.X

蚂蚁集团InclusionAI团队推出扩散语言模型系列LLaDA2.0。该系列模型基于扩散架构开发，专注于语言生成任务，是团队在大型语言模型领域的最新成果。

开源/仓库数据/训练模型发布

18:00

公众号：小红书技术（dots.llm）

52

小红书技术提出细粒度激活卸载：大模型训练显存与吞吐性能联合最优方案

细粒度激活卸载（Fine-grained Activation Offloading）采用模块级粒度，将计算与内存传输重叠，并兼容全并行设计，在主流大模型训练中同时降低峰值显存开销并提升吞吐性能，实现显存开销与吞吐性能的联合最优，获得显著性能收益和显存收益。

教程/实践数据/训练部署/工程

12月10日

18:00

公众号：蚂蚁百灵（Ling）

37

蚂蚁百灵提出 IcePop 与 C3PO++ 方案，应对万亿参数 RLVR 稳定性与效率挑战

蚂蚁百灵发布 IcePop 与 C3PO++ 方案，旨在解决万亿参数级强化学习模型 RLVR 在训练稳定性与计算效率方面的关键技术挑战。

教程/实践数据/训练

12月5日

04:00

Qwen：Blog Retrieval（API）

SAPO：一种用于训练大语言模型的稳定且高性能的强化学习方法

Qwen Studio 提供涵盖聊天机器人、图像与视频理解、图像生成、文档处理、网络搜索集成、工具使用及 Artifacts 在内的全面功能。

数据/训练论文/研究

12月4日

08:00

Hugging Face：Blog（RSS）

精选76

利用Claude微调开源大语言模型的新途径

Anthropic的研究人员探索了一种新方法：使用其强大的闭源AI助手Claude来生成高质量的指令遵循数据，并用这些数据对较小的开源模型（如LLaMA系列）进行监督微调。这项实验旨在展示如何利用尖端闭源模型的能力来指导和改进可公开访问的开源模型性能，从而推动AI技术的进步与民主化。

Anthropic Hugging Face 教程/实践数据/训练

推荐理由：用闭源模型蒸馏能力给开源模型，一条低成本微调的新路径值得关注

12月2日

00:00

字节 Seed：Research Feed（网页内嵌数据）

GR-RL 发布：突破 VLA 精细操作瓶颈，首次实现真机强化学习穿鞋带

字节跳动 Seed 团队发布 GR-RL，采用离线数据筛选结合在线真机微调的强化学习框架，突破 VLA 模型长时程精细操作瓶颈，首次实现机器人连续穿鞋带。相比前作 GR-3，成功率从 45.7% 提升至 83.3%，减少近 70% 失败。方案通过 Critic 价值判别器剔除次优演示数据，并在隐空间探索优化，解决模仿学习的数据次优性与执行错位问题，模型涌现出自纠错与场景调整能力。

具身智能数据/训练论文/研究

12月1日

00:00

LMSYS：Blog（Chatbot Arena 团队）

从研究到生产：在Vertex AI上用EAGLE-3加速开源大模型

Vertex AI团队推出基于EAGLE-3的推测解码加速方案，通过为目标模型（如Llama 70B）添加仅占2-5%参数量的轻量级draft head，取代传统独立draft模型，实现2-3倍解码速度提升。文章详述了从研究到生产的完整工程链路：构建合成数据生成管道解决版权与PII问题，采用离线训练策略预计算embeddings，并强调chat template匹配、mask设置及SGLang服务框架选型的关键作用，最终解决CPU瓶颈问题实现规模化部署。

Google 数据/训练论文/研究部署/工程

11月28日

23:13

Ilya Sutskever@ilyasut

精选

我之前说的一点没被传达清楚： - 继续扩展当前的技术会持续带来进步。特别是，它不会停滞。 - 但某些重要的东西仍会继续缺失。【引用 @haider1】：以下是今天 ilya sutskever 播客的要点： - 5-20 年内实现超级智能 - 当前的扩展将严重停滞；我们回到了真正的研究 - 超级智能 = 超快速的持续学习者，而非完成的预言机 - 模型的泛化能力比人类差 100 倍，这是最大的 AGI 阻碍 - 需要全新的 ML 范式（我有想法，现在不能分享） - AI 影响将很剧烈，但只在经济扩散之后 - 历史上的突破几乎不需要算力 - SSI 有足够的专注研究算力来获胜 - 当前的 RL 已经比预训练消耗更多算力

Haider.: here are the most important points from today's ilya sutskever podcast: - superintelligence in 5-20 years - current scal...

OpenAI 大佬观点数据/训练

推荐理由：顶级科学家修正观点：Scaling将持续有效但无法触及AGI核心，亟需范式革命

11月27日

11:28

Saining Xie@sainingxie

精选

Meta研究人员披露Facebook 2020年起使用TPU训练AI

Meta研究人员透露，Facebook自2020年起使用TPU训练AI，由Kaiming He领导开发TF和JAX代码库，MAE、DiT等模型完全基于TPU构建。因内部采用有限，Meta于2023年取消GCP协议。推文指出，Google、Anthropic等实验室长期使用TPU训练大模型，Nvidia的CUDA护城河并非不可逾越，OpenAI亦投资Triton寻求替代。TPU与GPU的效率差异并非关键，系统工程人才才是决定性因素。

Clive Chan: I keep seeing stuff about TPU, has anything materially new happened? There's no evidence Google has ever trained a Gemin...

Google Meta 大佬观点数据/训练

推荐理由：何恺明团队2020年起用TPU训练MAE/DiT，Nvidia护城河比想象更浅

11月26日

08:17

Saining Xie@sainingxie

精选

好吧，有人已经向我们宣扬这个大概6年多了很高兴我们已经过了"感受AGI"的阶段，回到了构建人类水平智能的道路上【引用 @dwarkesh_sp】："AGI和预训练发生的事情是，在某种意义上它们过冲了目标。你会意识到人类并不是AGI。因为人类缺乏大量的知识。相反，我们依赖持续学习。如果我培养出一个超级聪明的15岁孩子，他们其实什么都不知道。一个优秀的学生，非常渴望学习。【你可以说，】'你去当程序员吧。你去当医生吧。去学习和成长。' 所以你可以想象，部署本身将涉及某种学习试错期。这是一个过程，而不是你扔下一个成品就完事了。" @ilyasut

Dwarkesh Patel: "The thing that happened with AGI and pretraining is that in some sense they overshot the target. You will realize that ...

OpenAI 大佬观点数据/训练

推荐理由：Ilya重新定义AGI路径，持续学习将取代预训练成下一代模型焦点

11月25日

00:00

LMSYS：Blog（Chatbot Arena 团队）

统一 FP8：超越混合精度，实现稳定且加速的 MoE RL

InfiXAI、Ant Group AQ、SGLang RL 与 Miles 团队联合实现了端到端 FP8 强化学习训练与采样方案。实验表明，MoE 模型在使用 BF16 训练与 FP8 推理时，规模越大训练-推理差异越显著；统一采用 FP8 进行训练和推理可有效消除量化误差导致的不一致性，显著提升训练速度与稳定性。该方案已支持 Qwen3-4B 和 Qwen3-30B-A3B 模型，并在 miles 框架中开箱即用。

数据/训练论文/研究部署/工程

11月23日

04:24

Ilya Sutskever@ilyasut

精选

重要工作【引用 @AnthropicAI】：Anthropic 新研究：生产环境 RL 中 reward hacking 导致的自然涌现不对齐。 "Reward hacking" 是指模型学会在训练期间对分配给它们的任务作弊。我们的新研究发现，如果不加以缓解，reward hacking 的后果可能非常严重。

Anthropic: New Anthropic research: Natural emergent misalignment from reward hacking in production RL. "Reward hacking" is where mo...

Anthropic 安全/对齐数据/训练

推荐理由：Ilya盛赞的重磅安全研究，暴露大模型训练中的奖励作弊隐患

11月21日

08:00

Hugging Face：Blog（RSS）

精选80

RapidFire AI 实现20倍更快的 TRL 微调

RapidFire AI 发布了一套加速 TRL 微调的工具，通过自适应分块调度方案，允许在单个或多个 GPU 上并发启动多个训练配置并实时比较。内部基准测试显示，实验吞吐量比顺序执行高出约 16 至 24 倍。该工具提供即插即用的 TRL 配置包装器、分块并发训练、支持实时停止/恢复/克隆修改的交互式控制操作、自动多 GPU 编排以及 MLflow 仪表板，使用户能快速筛选最优配置，极大提升微调效率。

Hugging Face 开源/仓库数据/训练部署/工程

推荐理由：开发者可并发测试多个微调配置，大幅提升实验效率。

11月19日

13:19

Hugging Face：Blog（RSS）

精选78

Apriel-H1：蒸馏高效推理模型的关键要素

ServiceNow-AI在Hugging Face发布博客，介绍了其提出的Apriel-H1方法，该方法通过知识蒸馏技术有效提升小型模型的推理能力。该方法的核心在于从大型模型中提取并转移复杂的推理路径，使蒸馏后的小模型在多项推理任务上表现显著提升，同时保持高效的部署性能。这一技术为在资源受限环境中部署高性能推理模型提供了新思路。

Hugging Face 推理数据/训练模型发布

推荐理由：新蒸馏方法可能大幅降低推理模型部署成本，开发者可借鉴实践。

00:00

Mistral AI：News（网页）

49

Mistral AI 宣布在德国的长期战略承诺

Mistral AI宣布在德国的多项长期战略承诺。公司正与SAP建立多年期合作伙伴关系，将Mistral模型整合至SAP AI Foundation，为德国和欧洲构建完全自主可控的AI技术栈，并针对复杂行业和管理部门共同开发解决方案。同时，与Helsing合作加速开发用于现实防务与安全应用的视觉语言动作模型，以支持欧洲的战略自主性。Mistral AI计划未来几个月内在德国设立办公室，并大幅扩充本地团队，旨在让德国乃至欧洲的客户能够拥有自己的AI发展路径，无需牺牲战略自主性或将关键数据送出境外。

数据/训练行业动态部署/工程

00:00

LMSYS：Blog（Chatbot Arena 团队）

RadixArk发布Miles：面向大规模MoE训练的企业级强化学习框架

RadixArk团队发布企业级强化学习框架Miles，专为大规模MoE训练设计。该框架基于曾支撑GLM-4.6训练的slime构建，首创True On-Policy技术，实现训练与推理零KL散度对齐。新版本引入在线草稿模型推测解码，rollout加速超25%，并针对GB300等新硬件优化内存管理，支持Flash Attention 3与DeepGEMM。框架采用模块化架构，四大核心组件完全解耦，兼顾研究灵活性与企业级稳定性。

开源/仓库数据/训练部署/工程

11月18日

00:54

Dwarkesh Patel：Podcast & Blog（RSS）

RL 的信息效率比你想象的还要低

强化学习（RL）在样本效率方面的缺陷比普遍认知更为严重，尤其在近期备受关注的可验证奖励强化学习（RLVR）领域。研究表明，RLVR 在训练大语言模型时所需的数据量远超预期，其信息效率可能比传统监督学习低数个数量级。这一发现对当前依赖 RLVR 提升模型推理能力的技术路线提出挑战，暗示现有方法在计算资源利用和训练数据需求方面存在显著瓶颈，可能需要更高效的探索策略或算法改进来降低对海量数据的依赖。

大佬观点推理数据/训练

11月17日

10:43

蚂蚁 inclusionAI：GitHub 新仓库

39

inclusionAI/asystem-awex

inclusionAI 发布了 asystem-awex，这是一个专为强化学习工作流设计的高性能训练-推理权重同步框架。该框架的核心目标是实现从训练到推理的秒级参数更新，从而显著提升强化学习模型的迭代效率与部署实时性。它解决了传统流程中参数同步延迟高的问题，为需要快速在线学习和决策的应用场景提供了关键技术支撑。

开源/仓库数据/训练部署/工程

11月14日

16:06

蚂蚁 inclusionAI：GitHub 新仓库

49

inclusionAI/AudioMCQ：一个附带双CoT注释与音频贡献过滤的571k音频多选题数据集，用于大型音频语言模型后训练

AudioMCQ数据集包含57.1万个音频多选题，专为大型音频语言模型的后训练设计。该数据集创新性地提供了双重思维链注释，并引入音频贡献过滤机制以提升数据质量。在DCASE 2025挑战赛中，基于此数据集训练的模型获得第一名，展现了其在音频理解与推理任务上的显著效果。该资源已公开，旨在推动音频语言模型的研究与发展。

多模态数据/训练论文/研究

11月5日

17:54

蚂蚁 inclusionAI：GitHub 新仓库

49

inclusionAI/dFactory：轻松高效的 dLLM 微调

inclusionAI 发布了 dFactory 平台，旨在简化去中心化大语言模型的微调过程。该平台通过自动化工作流和优化的资源调度，显著降低了技术门槛与计算成本。用户无需深厚专业知识，即可利用分布式计算资源对如 LLaMA 等模型进行高效定制。关键改进包括将典型微调任务时间缩短约 40%，并支持多节点协作训练，提升了模型迭代效率。

开源/仓库数据/训练部署/工程

11月1日

17:00

BAIR：Berkeley AI Research Blog

摆脱TD学习的强化学习新方法

伯克利BAIR团队提出基于"分而治之"范式的离线策略强化学习算法，彻底摆脱传统时序差分(TD)学习框架。该方法通过递归二分轨迹并组合子段价值估计，将Bellman递归次数从线性降至对数级，根本解决了TD学习在长程任务中的误差累积难题。相比n步TD学习，新算法无需调节步长参数，避免了高方差与次优性，在复杂长程任务中展现出良好的可扩展性。

数据/训练论文/研究

10月28日

01:31

Lilian Weng@lilianweng

On-policy distillation 提供了一种优雅的方式，将教师模型用作过程奖励模型以提供密集奖励，同时防止 rollout 期间出现 SFT 风格的"OOD shock"。【引用 @thinkymachines】：我们最新的文章探讨了 on-policy distillation，这是一种将 RL 的错误纠正相关性与 SFT 的奖励密度相结合的训练方法。在将其用于数学推理和内部聊天助手训练时，我们发现 on-policy distillation 能以一小部分成本胜过其他方法。 https://thinkingmachines.ai/blog/on-policy-distillation/

Thinking Machines: Our latest post explores on-policy distillation, a training approach that unites the error-correcting relevance of RL wi...

推理数据/训练论文/研究

10月27日

08:00

Thinking Machines Lab：官方博客（RSS）

48

在线策略蒸馏

大语言模型后训练可分同策略（on-policy）和异策略（off-policy）。同策略强化学习让学生从自身采样学习，但奖励信号稀疏；异策略监督微调提供密集反馈，但分布偏移易导致复合误差。在线策略蒸馏融合两者：从学生模型采样完整轨迹，由高性能教师模型对每一步 token 评分，既保持同策略的上下文反馈，又提供密集细粒度梯度，从而更高效地训练更小、更强的专用模型。

开源/仓库数据/训练论文/研究

10月25日

03:06

Google DeepMind：Blog（RSS）

AlphaEarth Foundations 以前所未有的细节绘制地球地图

AlphaEarth Foundations 新AI模型整合PB级地球观测数据，生成统一数据表示，以前所未有的精度革新全球测绘与监测。

DeepMind 多模态数据/训练模型发布

10月24日

15:16

蚂蚁 inclusionAI：GitHub 新仓库

47

inclusionAI/TwinFlow

该研究提出了一种名为“自对抗流”的新方法，旨在驯化大规模少步训练。该方法通过引入一种内部对抗机制来优化流模型在有限训练步数下的性能，有望解决大模型训练中计算成本高昂的挑战。相关工作已被顶级机器学习会议ICLR 2026接收。

开源生态数据/训练论文/研究

10:21

Google DeepMind：Blog（RSS）

利用人工智能深度感知宇宙

利用人工智能技术，科学家能够从海量宇宙数据中提取深层信息，突破传统观测局限，揭示隐藏规律，从而以前所未有的深度感知和理解宇宙，持续拓展人类认知边界。

DeepMind Google 多模态数据/训练

02:42

Google DeepMind：Blog（RSS）

VaultGemma：全球能力最强的差分隐私 LLM

VaultGemma 基于差分隐私技术从头训练，是目前能力最强的隐私保护大语言模型，在严格隐私约束下实现了顶尖性能。

DeepMind 安全/对齐数据/训练模型发布

10月14日

17:50

蚂蚁 inclusionAI：GitHub 新仓库

48

inclusionAI/linghe

inclusionAI 开源了专为大语言模型训练设计的高性能内核库 Linghe。该库旨在优化 LLM 训练过程中的计算效率，通过底层内核创新提升训练速度并降低资源消耗。Linghe 支持当前主流的 Transformer 架构模型，为开发者和研究者提供了更高效的训练工具，有望加速 LLM 的开发与迭代进程。

开源/仓库数据/训练部署/工程

10月10日

23:19

Epoch AI@EpochAIResearch

Epoch 作为非营利机构，免费开放其 AI 数据集，支持用户阅读、复制及二次开发。这些数据旨在为关于 AI 的讨论提供事实基础，帮助追踪和理解 AI 技术演进轨迹。

数据/训练行业动态

10:20

蚂蚁 inclusionAI：GitHub 新仓库

精选66

Ming-VideoMAR：基于连续令牌的自回归视频生成模型

Ming-VideoMAR 是一款仅解码器的自回归图像到视频生成模型，采用连续令牌统一视觉表征。它首次将时间因果性与空间双向性作为视频自回归核心原则，并提出了整合掩码生成的下一帧扩散损失。该模型首次实现了视频生成的零样本分辨率缩放，能灵活生成远超训练分辨率的视频。其在训练与推理效率上表现突出，参数量、训练数据量和GPU消耗仅为之前最佳模型Cosmos的极小比例（9.3%、0.5%和0.2%），同时在定量与定性评估中均实现超越。模型代码与检查点已开源，论文已被NeurIPS 2025接收。

开源/仓库数据/训练模型发布视频

推荐理由：蚂蚁把自回归视频生成的训练成本砍到 Cosmos 的 0.2% 还能赢，这个效率信号比分数本身更值得关注，做视频生成的团队该认真看看它的课程学习和渐进分辨率策略。

04:11

Epoch AI@EpochAIResearch

GPT-5 或将成为首个训练算力低于前代的主线版本。该推文解释了得出此结论的依据，并梳理了关于 GPT-5 训练方式的已知信息。

OpenAI 数据/训练现象/趋势

00:28

Anthropic@AnthropicAI

联合研究发现，仅需少量恶意文档就能在 LLM 中植入安全漏洞，且不受模型规模或训练数据量影响。这表明数据投毒攻击的实施门槛可能比此前认为的更低，实际威胁被低估。

Anthropic 安全/对齐数据/训练

10月2日

02:29

Lilian Weng@lilianweng

GPUs 价格昂贵，且搭建让 GPUs 正常工作的基础设施十分复杂，这使得研究人员和机器学习从业者难以对前沿模型进行实验。

产品更新数据/训练部署/工程

01:09

Andrej Karpathy@karpathy

精选

听完 Sutton 的这期播客：有趣且发人深省

Sutton（《The Bitter Lesson》作者）在播客中质疑 LLM 并非真正的"苦涩的教训"产物——它们依赖有限的人类数据且充满偏见。他主张 AI 应像动物一样通过 RL 与世界动态交互，而非模仿人类文本。作者认同 LLM 确实充斥人工干预，但认为预训练是应对冷启动的实用"进化替代方案"，纯 RL 在现实世界难以行得通。

Dwarkesh Patel: .@RichardSSutton, father of reinforcement learning, doesn't think LLMs are bitter-lesson-pilled. My steel man of Richard...

智能体大佬观点数据/训练

推荐理由：Karpathy解读Sutton对LLM的批判，提出「召唤幽灵」vs「构建动物」的深刻比喻，反思AI发展路径

00:00

Berkeley RDI：Blog（AI 安全与评测）

RL顿悟配方：如何让大模型通过强化学习攻克无解任务？

研究团队发布合成编程基准DELTA与Manufactoria测试平台，针对基础模型pass@128为零的分布外任务，提出两阶段奖励调度方案：先以密集每测试奖励打破零梯度僵局，再切换至二元全通奖励巩固精确解。实验显示，RL训练在漫长平台期后会出现"grokking"式相变，准确率骤升至约100%，证明模型能够发现全新策略而非仅优化已有知识。迁移测试表明，习得策略可重组编程子技能并外推至更难参数范围，但在需要新不变量的结构性转变上仍受限。

推理数据/训练论文/研究

1…37 383940 41 42