全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 1199 条

全部一手资讯 X 论文

标签「数据/训练」清除

1月8日周四

08:00HuggingFace Daily Papers（社区热门论文）面向高效低成本 RAG 系统的网页检索感知分块（W-RAC）

12月31日周三

01:07Dwarkesh Patel：Podcast & Blog（RSS）精选Adam Marblestone - AI 缺失了关于大脑的根本认知

12月24日周三

08:00OpenRouter：Announcements（RSS）55精选可蒸馏模型与合成数据管道：使用 NeMo Data Designer

08:00OpenRouter：Announcements（RSS）52使用 NeMo Data Designer 构建可蒸馏模型与合成数据流水线

08:00OpenRouter：Announcements（RSS）50利用NeMo Data Designer构建可蒸馏模型与合成数据管道

12月18日周四

08:00Hugging Face：Blog（RSS）73精选Transformers v5 中的分词：更简单、清晰与模块化

12月11日周四

23:36蚂蚁 inclusionAI：GitHub 新仓库49inclusionAI/LLaDA2.X

18:00公众号：小红书技术（dots.llm）52小红书技术提出细粒度激活卸载：大模型训练显存与吞吐性能联合最优方案

12月10日周三

18:00公众号：蚂蚁百灵（Ling）37蚂蚁百灵提出 IcePop 与 C3PO++ 方案，应对万亿参数 RLVR 稳定性与效率挑战

12月5日周五

04:00Qwen：Blog Retrieval（API）SAPO：一种用于训练大语言模型的稳定且高性能的强化学习方法

12月4日周四

08:00Hugging Face：Blog（RSS）76精选利用Claude微调开源大语言模型的新途径

12月2日周二

00:00字节 Seed：Research Feed（网页内嵌数据）GR-RL 发布：突破 VLA 精细操作瓶颈，首次实现真机强化学习穿鞋带

12月1日周一

00:00LMSYS：Blog（Chatbot Arena 团队）从研究到生产：在Vertex AI上用EAGLE-3加速开源大模型

11月25日周二

00:00LMSYS：Blog（Chatbot Arena 团队）统一 FP8：超越混合精度，实现稳定且加速的 MoE RL

11月21日周五

08:00Hugging Face：Blog（RSS）80精选RapidFire AI 实现20倍更快的 TRL 微调

11月19日周三

13:19Hugging Face：Blog（RSS）78精选Apriel-H1：蒸馏高效推理模型的关键要素

00:00Mistral AI：News（网页）49Mistral AI 宣布在德国的长期战略承诺

00:00LMSYS：Blog（Chatbot Arena 团队）RadixArk发布Miles：面向大规模MoE训练的企业级强化学习框架

11月18日周二

00:54Dwarkesh Patel：Podcast & Blog（RSS）RL 的信息效率比你想象的还要低

11月17日周一

10:43蚂蚁 inclusionAI：GitHub 新仓库39inclusionAI/asystem-awex

11月14日周五

16:06蚂蚁 inclusionAI：GitHub 新仓库49inclusionAI/AudioMCQ：一个附带双CoT注释与音频贡献过滤的571k音频多选题数据集，用于大型音频语言模型后训练

11月5日周三

17:54蚂蚁 inclusionAI：GitHub 新仓库49inclusionAI/dFactory：轻松高效的 dLLM 微调

11月1日周六

17:00BAIR：Berkeley AI Research Blog摆脱TD学习的强化学习新方法

10月27日周一

08:00Thinking Machines Lab：官方博客（RSS）48在线策略蒸馏

10月25日周六

03:06Google DeepMind：Blog（RSS）AlphaEarth Foundations 以前所未有的细节绘制地球地图

10月24日周五

15:16蚂蚁 inclusionAI：GitHub 新仓库47inclusionAI/TwinFlow

10:21Google DeepMind：Blog（RSS）利用人工智能深度感知宇宙

02:42Google DeepMind：Blog（RSS）VaultGemma：全球能力最强的差分隐私 LLM

10月14日周二

17:50蚂蚁 inclusionAI：GitHub 新仓库48inclusionAI/linghe

10月10日周五

10:20蚂蚁 inclusionAI：GitHub 新仓库66精选Ming-VideoMAR：基于连续令牌的自回归视频生成模型

10月2日周四

00:00Berkeley RDI：Blog（AI 安全与评测）RL顿悟配方：如何让大模型通过强化学习攻克无解任务？

9月29日周一

08:00Thinking Machines Lab：官方博客（RSS）62LoRA 无悔

9月26日周五

08:00Thinking Machines Lab：官方博客（RSS）45Modular Manifolds

9月25日周四

22:28Hacker News：AI 热帖精选Launch HN： Webhound （YC S23） - 从网络构建数据集的研究智能体

9月22日周一

00:00LMSYS：Blog（Chatbot Arena 团队）SGLang 实现确定性推理与可复现 RL 训练

9月21日周日

00:00LMSYS：Blog（Chatbot Arena 团队）在 AMD GPU 上优化 FP4 混合精度推理

9月9日周二

08:10Sam Altman：Blog（RSS）精选Jakub 与 Szymon

9月1日周一

17:00BAIR：Berkeley AI Research Blogword2vec究竟学到了什么？

8月28日周四

00:00LMSYS：Blog（Chatbot Arena 团队）gpt-oss MXFP4 微调和部署：ModelOpt + SGLang（8月29日更新）

8月13日周三

04:00EleutherAI：Blog面向开放权重 AI 安全的预训练数据过滤

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

1月8日

08:00

HuggingFace Daily Papers（社区热门论文）

面向高效低成本 RAG 系统的网页检索感知分块（W-RAC）

研究团队提出专为网页文档设计的 W-RAC 分块框架，将文本提取与语义分块规划解耦，以结构化 ID 寻址单元管理内容，并仅利用 LLM 执行检索感知分组决策而非文本生成。该方法在消除幻觉风险、提升系统可观测性的同时，将分块相关 LLM 成本降低一个数量级，且保持或优于传统方法的检索性能。

arXiv 检索增强数据/训练论文/研究

12月31日

01:07

Dwarkesh Patel：Podcast & Blog（RSS）

精选

Adam Marblestone - AI 缺失了关于大脑的根本认知

Adam Marblestone 指出，当前人工智能研究忽略了大脑运作的核心机制。与业界普遍关注神经网络架构不同，大脑的真正优势在于其奖励函数而非结构本身。这一观点挑战了主流 AI 研究范式，暗示未来突破可能来自对大脑激励系统的深入理解，而非单纯的架构模仿。该论断为人工智能发展提供了新的思考维度。

大佬观点数据/训练

推荐理由：AI研发或应转向奖励函数设计，而非一味堆叠架构复杂度

12月24日

08:00

OpenRouter：Announcements（RSS）

精选55

可蒸馏模型与合成数据管道：使用 NeMo Data Designer

介绍如何利用 NeMo Data Designer 构建许可安全的合成数据工作流，用于模型特化（model specialization）。该管道支持生成可蒸馏模型所需的高质量合成数据，确保数据来源合规，适用于下游微调与领域适配场景。

教程/实践数据/训练

推荐理由：虽然发布快半年了，但教程讲的是如何用 NeMo Data Designer 构建 license-safe 的合成数据管道，对正在搞模型蒸馏和微调的开发者依然有参考价值，细节够实操。

08:00

OpenRouter：Announcements（RSS）

52

使用 NeMo Data Designer 构建可蒸馏模型与合成数据流水线

NeMo Data Designer 提供符合许可证安全的合成数据工作流，用于模型专门化与知识蒸馏，帮助开发者高效生成定制化训练数据。

教程/实践数据/训练

08:00

OpenRouter：Announcements（RSS）

50

利用NeMo Data Designer构建可蒸馏模型与合成数据管道

NVIDIA推出NeMo Data Designer工具，帮助企业生成合规的合成数据工作流，用于定制化大模型训练。该工具通过创建“许可证安全”的合成数据，规避版权风险，并支持构建可蒸馏的轻量级模型。它为在特定领域数据受限的企业提供了端到端的合成数据生成与管理解决方案，助力模型高效微调与优化。

产品更新数据/训练部署/工程

12月18日

08:00

Hugging Face：Blog（RSS）

精选73

Transformers v5 中的分词：更简单、清晰与模块化

Transformers v5 发布了全新的分词处理架构，核心变化是引入了更简单、统一的 API 设计，将分词器、后处理器和解码器模块化。新版移除了大量遗留代码，使代码库体积减少了约 40%，并显著提升了处理长文本和特殊 token 的灵活性。这一改进旨在降低开发者使用门槛，同时为各类大语言模型（如 GPT、Claude、LLaMA）提供更高效、一致的分词支持。

Hugging Face 开源/仓库数据/训练

推荐理由：Transformers库tokenization模块重构，开发者可更高效处理文本数据。

12月11日

23:36

蚂蚁 inclusionAI：GitHub 新仓库

49

inclusionAI/LLaDA2.X

蚂蚁集团InclusionAI团队推出扩散语言模型系列LLaDA2.0。该系列模型基于扩散架构开发，专注于语言生成任务，是团队在大型语言模型领域的最新成果。

开源/仓库数据/训练模型发布

18:00

公众号：小红书技术（dots.llm）

52

小红书技术提出细粒度激活卸载：大模型训练显存与吞吐性能联合最优方案

细粒度激活卸载（Fine-grained Activation Offloading）采用模块级粒度，将计算与内存传输重叠，并兼容全并行设计，在主流大模型训练中同时降低峰值显存开销并提升吞吐性能，实现显存开销与吞吐性能的联合最优，获得显著性能收益和显存收益。

教程/实践数据/训练部署/工程

12月10日

18:00

公众号：蚂蚁百灵（Ling）

37

蚂蚁百灵提出 IcePop 与 C3PO++ 方案，应对万亿参数 RLVR 稳定性与效率挑战

蚂蚁百灵发布 IcePop 与 C3PO++ 方案，旨在解决万亿参数级强化学习模型 RLVR 在训练稳定性与计算效率方面的关键技术挑战。

教程/实践数据/训练

12月5日

04:00

Qwen：Blog Retrieval（API）

SAPO：一种用于训练大语言模型的稳定且高性能的强化学习方法

Qwen Studio 提供涵盖聊天机器人、图像与视频理解、图像生成、文档处理、网络搜索集成、工具使用及 Artifacts 在内的全面功能。

数据/训练论文/研究

12月4日

08:00

Hugging Face：Blog（RSS）

精选76

利用Claude微调开源大语言模型的新途径

Anthropic的研究人员探索了一种新方法：使用其强大的闭源AI助手Claude来生成高质量的指令遵循数据，并用这些数据对较小的开源模型（如LLaMA系列）进行监督微调。这项实验旨在展示如何利用尖端闭源模型的能力来指导和改进可公开访问的开源模型性能，从而推动AI技术的进步与民主化。

Anthropic Hugging Face 教程/实践数据/训练

推荐理由：用闭源模型蒸馏能力给开源模型，一条低成本微调的新路径值得关注

12月2日

00:00

字节 Seed：Research Feed（网页内嵌数据）

GR-RL 发布：突破 VLA 精细操作瓶颈，首次实现真机强化学习穿鞋带

字节跳动 Seed 团队发布 GR-RL，采用离线数据筛选结合在线真机微调的强化学习框架，突破 VLA 模型长时程精细操作瓶颈，首次实现机器人连续穿鞋带。相比前作 GR-3，成功率从 45.7% 提升至 83.3%，减少近 70% 失败。方案通过 Critic 价值判别器剔除次优演示数据，并在隐空间探索优化，解决模仿学习的数据次优性与执行错位问题，模型涌现出自纠错与场景调整能力。

具身智能数据/训练论文/研究

12月1日

00:00

LMSYS：Blog（Chatbot Arena 团队）

从研究到生产：在Vertex AI上用EAGLE-3加速开源大模型

Vertex AI团队推出基于EAGLE-3的推测解码加速方案，通过为目标模型（如Llama 70B）添加仅占2-5%参数量的轻量级draft head，取代传统独立draft模型，实现2-3倍解码速度提升。文章详述了从研究到生产的完整工程链路：构建合成数据生成管道解决版权与PII问题，采用离线训练策略预计算embeddings，并强调chat template匹配、mask设置及SGLang服务框架选型的关键作用，最终解决CPU瓶颈问题实现规模化部署。

Google 数据/训练论文/研究部署/工程

11月25日

00:00

LMSYS：Blog（Chatbot Arena 团队）

统一 FP8：超越混合精度，实现稳定且加速的 MoE RL

InfiXAI、Ant Group AQ、SGLang RL 与 Miles 团队联合实现了端到端 FP8 强化学习训练与采样方案。实验表明，MoE 模型在使用 BF16 训练与 FP8 推理时，规模越大训练-推理差异越显著；统一采用 FP8 进行训练和推理可有效消除量化误差导致的不一致性，显著提升训练速度与稳定性。该方案已支持 Qwen3-4B 和 Qwen3-30B-A3B 模型，并在 miles 框架中开箱即用。

数据/训练论文/研究部署/工程

11月21日

08:00

Hugging Face：Blog（RSS）

精选80

RapidFire AI 实现20倍更快的 TRL 微调

RapidFire AI 发布了一套加速 TRL 微调的工具，通过自适应分块调度方案，允许在单个或多个 GPU 上并发启动多个训练配置并实时比较。内部基准测试显示，实验吞吐量比顺序执行高出约 16 至 24 倍。该工具提供即插即用的 TRL 配置包装器、分块并发训练、支持实时停止/恢复/克隆修改的交互式控制操作、自动多 GPU 编排以及 MLflow 仪表板，使用户能快速筛选最优配置，极大提升微调效率。

Hugging Face 开源/仓库数据/训练部署/工程

推荐理由：开发者可并发测试多个微调配置，大幅提升实验效率。

11月19日

13:19

Hugging Face：Blog（RSS）

精选78

Apriel-H1：蒸馏高效推理模型的关键要素

ServiceNow-AI在Hugging Face发布博客，介绍了其提出的Apriel-H1方法，该方法通过知识蒸馏技术有效提升小型模型的推理能力。该方法的核心在于从大型模型中提取并转移复杂的推理路径，使蒸馏后的小模型在多项推理任务上表现显著提升，同时保持高效的部署性能。这一技术为在资源受限环境中部署高性能推理模型提供了新思路。

Hugging Face 推理数据/训练模型发布

推荐理由：新蒸馏方法可能大幅降低推理模型部署成本，开发者可借鉴实践。

00:00

Mistral AI：News（网页）

49

Mistral AI 宣布在德国的长期战略承诺

Mistral AI宣布在德国的多项长期战略承诺。公司正与SAP建立多年期合作伙伴关系，将Mistral模型整合至SAP AI Foundation，为德国和欧洲构建完全自主可控的AI技术栈，并针对复杂行业和管理部门共同开发解决方案。同时，与Helsing合作加速开发用于现实防务与安全应用的视觉语言动作模型，以支持欧洲的战略自主性。Mistral AI计划未来几个月内在德国设立办公室，并大幅扩充本地团队，旨在让德国乃至欧洲的客户能够拥有自己的AI发展路径，无需牺牲战略自主性或将关键数据送出境外。

数据/训练行业动态部署/工程

00:00

LMSYS：Blog（Chatbot Arena 团队）

RadixArk发布Miles：面向大规模MoE训练的企业级强化学习框架

RadixArk团队发布企业级强化学习框架Miles，专为大规模MoE训练设计。该框架基于曾支撑GLM-4.6训练的slime构建，首创True On-Policy技术，实现训练与推理零KL散度对齐。新版本引入在线草稿模型推测解码，rollout加速超25%，并针对GB300等新硬件优化内存管理，支持Flash Attention 3与DeepGEMM。框架采用模块化架构，四大核心组件完全解耦，兼顾研究灵活性与企业级稳定性。

开源/仓库数据/训练部署/工程

11月18日

00:54

Dwarkesh Patel：Podcast & Blog（RSS）

RL 的信息效率比你想象的还要低

强化学习（RL）在样本效率方面的缺陷比普遍认知更为严重，尤其在近期备受关注的可验证奖励强化学习（RLVR）领域。研究表明，RLVR 在训练大语言模型时所需的数据量远超预期，其信息效率可能比传统监督学习低数个数量级。这一发现对当前依赖 RLVR 提升模型推理能力的技术路线提出挑战，暗示现有方法在计算资源利用和训练数据需求方面存在显著瓶颈，可能需要更高效的探索策略或算法改进来降低对海量数据的依赖。

大佬观点推理数据/训练

11月17日

10:43

蚂蚁 inclusionAI：GitHub 新仓库

39

inclusionAI/asystem-awex

inclusionAI 发布了 asystem-awex，这是一个专为强化学习工作流设计的高性能训练-推理权重同步框架。该框架的核心目标是实现从训练到推理的秒级参数更新，从而显著提升强化学习模型的迭代效率与部署实时性。它解决了传统流程中参数同步延迟高的问题，为需要快速在线学习和决策的应用场景提供了关键技术支撑。

开源/仓库数据/训练部署/工程

11月14日

16:06

蚂蚁 inclusionAI：GitHub 新仓库

49

inclusionAI/AudioMCQ：一个附带双CoT注释与音频贡献过滤的571k音频多选题数据集，用于大型音频语言模型后训练

AudioMCQ数据集包含57.1万个音频多选题，专为大型音频语言模型的后训练设计。该数据集创新性地提供了双重思维链注释，并引入音频贡献过滤机制以提升数据质量。在DCASE 2025挑战赛中，基于此数据集训练的模型获得第一名，展现了其在音频理解与推理任务上的显著效果。该资源已公开，旨在推动音频语言模型的研究与发展。

多模态数据/训练论文/研究

11月5日

17:54

蚂蚁 inclusionAI：GitHub 新仓库

49

inclusionAI/dFactory：轻松高效的 dLLM 微调

inclusionAI 发布了 dFactory 平台，旨在简化去中心化大语言模型的微调过程。该平台通过自动化工作流和优化的资源调度，显著降低了技术门槛与计算成本。用户无需深厚专业知识，即可利用分布式计算资源对如 LLaMA 等模型进行高效定制。关键改进包括将典型微调任务时间缩短约 40%，并支持多节点协作训练，提升了模型迭代效率。

开源/仓库数据/训练部署/工程

11月1日

17:00

BAIR：Berkeley AI Research Blog

摆脱TD学习的强化学习新方法

伯克利BAIR团队提出基于"分而治之"范式的离线策略强化学习算法，彻底摆脱传统时序差分(TD)学习框架。该方法通过递归二分轨迹并组合子段价值估计，将Bellman递归次数从线性降至对数级，根本解决了TD学习在长程任务中的误差累积难题。相比n步TD学习，新算法无需调节步长参数，避免了高方差与次优性，在复杂长程任务中展现出良好的可扩展性。

数据/训练论文/研究

10月27日

08:00

Thinking Machines Lab：官方博客（RSS）

48

在线策略蒸馏

大语言模型后训练可分同策略（on-policy）和异策略（off-policy）。同策略强化学习让学生从自身采样学习，但奖励信号稀疏；异策略监督微调提供密集反馈，但分布偏移易导致复合误差。在线策略蒸馏融合两者：从学生模型采样完整轨迹，由高性能教师模型对每一步 token 评分，既保持同策略的上下文反馈，又提供密集细粒度梯度，从而更高效地训练更小、更强的专用模型。

开源/仓库数据/训练论文/研究

10月25日

03:06

Google DeepMind：Blog（RSS）

AlphaEarth Foundations 以前所未有的细节绘制地球地图

AlphaEarth Foundations 新AI模型整合PB级地球观测数据，生成统一数据表示，以前所未有的精度革新全球测绘与监测。

DeepMind 多模态数据/训练模型发布

10月24日

15:16

蚂蚁 inclusionAI：GitHub 新仓库

47

inclusionAI/TwinFlow

该研究提出了一种名为“自对抗流”的新方法，旨在驯化大规模少步训练。该方法通过引入一种内部对抗机制来优化流模型在有限训练步数下的性能，有望解决大模型训练中计算成本高昂的挑战。相关工作已被顶级机器学习会议ICLR 2026接收。

开源生态数据/训练论文/研究

10:21

Google DeepMind：Blog（RSS）

利用人工智能深度感知宇宙

利用人工智能技术，科学家能够从海量宇宙数据中提取深层信息，突破传统观测局限，揭示隐藏规律，从而以前所未有的深度感知和理解宇宙，持续拓展人类认知边界。

DeepMind Google 多模态数据/训练

02:42

Google DeepMind：Blog（RSS）

VaultGemma：全球能力最强的差分隐私 LLM

VaultGemma 基于差分隐私技术从头训练，是目前能力最强的隐私保护大语言模型，在严格隐私约束下实现了顶尖性能。

DeepMind 安全/对齐数据/训练模型发布

10月14日

17:50

蚂蚁 inclusionAI：GitHub 新仓库

48

inclusionAI/linghe

inclusionAI 开源了专为大语言模型训练设计的高性能内核库 Linghe。该库旨在优化 LLM 训练过程中的计算效率，通过底层内核创新提升训练速度并降低资源消耗。Linghe 支持当前主流的 Transformer 架构模型，为开发者和研究者提供了更高效的训练工具，有望加速 LLM 的开发与迭代进程。

开源/仓库数据/训练部署/工程

10月10日

10:20

蚂蚁 inclusionAI：GitHub 新仓库

精选66

Ming-VideoMAR：基于连续令牌的自回归视频生成模型

Ming-VideoMAR 是一款仅解码器的自回归图像到视频生成模型，采用连续令牌统一视觉表征。它首次将时间因果性与空间双向性作为视频自回归核心原则，并提出了整合掩码生成的下一帧扩散损失。该模型首次实现了视频生成的零样本分辨率缩放，能灵活生成远超训练分辨率的视频。其在训练与推理效率上表现突出，参数量、训练数据量和GPU消耗仅为之前最佳模型Cosmos的极小比例（9.3%、0.5%和0.2%），同时在定量与定性评估中均实现超越。模型代码与检查点已开源，论文已被NeurIPS 2025接收。

开源/仓库数据/训练模型发布视频

推荐理由：蚂蚁把自回归视频生成的训练成本砍到 Cosmos 的 0.2% 还能赢，这个效率信号比分数本身更值得关注，做视频生成的团队该认真看看它的课程学习和渐进分辨率策略。

10月2日

00:00

Berkeley RDI：Blog（AI 安全与评测）

RL顿悟配方：如何让大模型通过强化学习攻克无解任务？

研究团队发布合成编程基准DELTA与Manufactoria测试平台，针对基础模型pass@128为零的分布外任务，提出两阶段奖励调度方案：先以密集每测试奖励打破零梯度僵局，再切换至二元全通奖励巩固精确解。实验显示，RL训练在漫长平台期后会出现"grokking"式相变，准确率骤升至约100%，证明模型能够发现全新策略而非仅优化已有知识。迁移测试表明，习得策略可重组编程子技能并外推至更难参数范围，但在需要新不变量的结构性转变上仍受限。

推理数据/训练论文/研究

9月29日

08:00

Thinking Machines Lab：官方博客（RSS）

62

本文探讨了低秩适配（LoRA）与全量微调的性能差异及实践优势。LoRA 通过低秩矩阵更新权重，在保持模型参数不变的同时节省训练内存，支持多租户推理服务、降低硬件需求并便于传输。文献对两者性能比较仍不明确，但共识认为 LoRA 在类似预训练的大规模数据集上表现不佳，因其参数容量有限；而对于中等及以下规模的数据集，其效果尚需进一步研究。

数据/训练论文/研究

9月26日

08:00

Thinking Machines Lab：官方博客（RSS）

45

Modular Manifolds

训练大型神经网络时，张量过大或过小会引发数值问题。标准化为黄金标准，但权重矩阵标准化不常见。本文提出将权重矩阵约束到子流形，以简化更新理解、消除范数爆炸、简化超参数调优并保证 Lipschitz 鲁棒性。具体提出流形版 Muon 优化器，将权重约束至 Stiefel 流形（单位条件数矩阵），并定义可组合的模块化流形（Modular Manifold），旨在简化大型网络的缩放与训练。本文为研究方向介绍，并展望未来工作。

数据/训练论文/研究

9月25日

22:28

Hacker News：AI 热帖

精选

Launch HN： Webhound （YC S23） - 从网络构建数据集的研究智能体

YC S23 孵化的 Webhound 发布，这是一款研究智能体，可自动从网络抓取多源信息并构建结构化数据集，用于支持数据分析与研究工作。

智能体产品更新数据/训练

推荐理由：YC孵化的Web研究Agent，可自动从网络构建数据集

9月22日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang 实现确定性推理与可复现 RL 训练

SGLang 基于 Thinking Machines Lab 的 batch-invariant 算子实现全确定性推理，解决动态批处理导致的输出差异问题，兼容 chunked prefill、CUDA graphs 及非贪婪采样。该方案将性能开销从 61.5% 降至 34.35%，配合 CUDA graphs 可实现 2.8 倍加速。SGLang 与 slime 合作进一步实现 100% 可复现的 RL 训练，在 Qwen3-8B 验证中两次独立训练产生完全一致的曲线，为科学实验提供可靠保障。

开源/仓库数据/训练部署/工程

9月21日

00:00

LMSYS：Blog（Chatbot Arena 团队）

在 AMD GPU 上优化 FP4 混合精度推理

针对 AMD Instinct MI250/MI300 系列 GPU 缺乏原生 FP4 矩阵乘法支持的问题，研究团队推出 Petit 内核集合，通过 FP16/BF16 × FP4 混合精度计算实现在现有硬件上高效运行 FP4 量化模型。该方案使 Llama 3.3 70B 端到端推理性能提升 1.74 倍，矩阵乘法操作较 AMD 官方 hipBLASLt 库快 3.7 倍。Petit 采用离线重排、LDS 无冲突访问及芯片拓扑感知分区等优化技术，已以 BSD 协议开源并集成至 SGLang 0.4.10 版本。

开源/仓库数据/训练部署/工程

9月9日

08:10

Sam Altman：Blog（RSS）

精选

Jakub 与 Szymon

OpenAI 高层公开致谢首席科学家 Jakub Pachocki 与 Szymon Sidor，二人多次联手攻克被认为不可能的技术难题，主导 Dota RL 扩展、GPT-4 预训练及推理突破，被形容为“不知疲倦”的黄金搭档。

OpenAI 大佬观点推理数据/训练

推荐理由：Sam Altman 揭秘 OpenAI 核心科学家与关键技术突破历程

9月1日

17:00

BAIR：Berkeley AI Research Blog

word2vec究竟学到了什么？

本研究提出了word2vec学习机制的完整定量理论，证明其在实际条件下等价于无加权最小二乘矩阵分解。梯度流动力学具有闭式解，最终词嵌入即为PCA结果。从小初始化开始时，模型通过离散步骤逐次学习正交线性子空间（概念），递增嵌入矩阵的秩。这些潜在特征对应由词共现概率和单字概率等可测量语料统计量决定的矩阵顶部特征向量。

数据/训练论文/研究

8月28日

00:00

LMSYS：Blog（Chatbot Arena 团队）

gpt-oss MXFP4 微调和部署：ModelOpt + SGLang（8月29日更新）

OpenAI 开源模型 gpt-oss 原生采用 MXFP4 量化，但社区长期缺乏针对该低精度格式的训练支持。NVIDIA 推出基于 Model Optimizer 的量化感知训练（QAT）方案，允许在 Blackwell、Hopper、Ampere 及 Ada 等常见 GPU 上直接微调模型，无需转换为 BF16 而牺牲性能。实测显示，经 QAT 微调的 gpt-oss-20b 在多语言推理任务中通过率从 16% 提升至 100%，在安全提示识别任务中从 30% 优化至 97%。微调后的模型可通过 SGLang 部署，保持 MXFP4 格式的推理速度与内存优势。

OpenAI 教程/实践数据/训练部署/工程

8月13日

04:00

EleutherAI：Blog

面向开放权重 AI 安全的预训练数据过滤

Deep Ignorance 技术通过预训练数据过滤为开放权重 LLM 构建内置式防篡改安全防护。该方法在训练阶段筛选数据，将安全能力深度集成于模型权重，使其难以被后续微调或提示注入绕过。这一方案针对开放权重模型易被恶意修改的痛点，提供了从预训练源头建立安全屏障的新路径，在保障模型开放性的同时增强安全性。

安全/对齐开源生态数据/训练

1…26 272829 30