介绍如何利用 NeMo Data Designer 构建许可安全的合成数据工作流,用于模型特化(model specialization)。该管道支持生成可蒸馏模型所需的高质量合成数据,确保数据来源合规,适用于下游微调与领域适配场景。
介绍如何利用 NeMo Data Designer 构建许可安全的合成数据工作流,用于模型特化(model specialization)。该管道支持生成可蒸馏模型所需的高质量合成数据,确保数据来源合规,适用于下游微调与领域适配场景。
NeMo Data Designer 提供符合许可证安全的合成数据工作流,用于模型专门化与知识蒸馏,帮助开发者高效生成定制化训练数据。
NVIDIA推出NeMo Data Designer工具,帮助企业生成合规的合成数据工作流,用于定制化大模型训练。该工具通过创建“许可证安全”的合成数据,规避版权风险,并支持构建可蒸馏的轻量级模型。它为在特定领域数据受限的企业提供了端到端的合成数据生成与管理解决方案,助力模型高效微调与优化。
Transformers v5 发布了全新的分词处理架构,核心变化是引入了更简单、统一的 API 设计,将分词器、后处理器和解码器模块化。新版移除了大量遗留代码,使代码库体积减少了约 40%,并显著提升了处理长文本和特殊 token 的灵活性。这一改进旨在降低开发者使用门槛,同时为各类大语言模型(如 GPT、Claude、LLaMA)提供更高效、一致的分词支持。
!!️ Representations matter for generation! But turns out our understanding of how representations help generation was wr...
蚂蚁集团InclusionAI团队推出扩散语言模型系列LLaDA2.0。该系列模型基于扩散架构开发,专注于语言生成任务,是团队在大型语言模型领域的最新成果。
细粒度激活卸载(Fine-grained Activation Offloading)采用模块级粒度,将计算与内存传输重叠,并兼容全并行设计,在主流大模型训练中同时降低峰值显存开销并提升吞吐性能,实现显存开销与吞吐性能的联合最优,获得显著性能收益和显存收益。
蚂蚁百灵发布 IcePop 与 C3PO++ 方案,旨在解决万亿参数级强化学习模型 RLVR 在训练稳定性与计算效率方面的关键技术挑战。
Qwen Studio 提供涵盖聊天机器人、图像与视频理解、图像生成、文档处理、网络搜索集成、工具使用及 Artifacts 在内的全面功能。
Anthropic的研究人员探索了一种新方法:使用其强大的闭源AI助手Claude来生成高质量的指令遵循数据,并用这些数据对较小的开源模型(如LLaMA系列)进行监督微调。这项实验旨在展示如何利用尖端闭源模型的能力来指导和改进可公开访问的开源模型性能,从而推动AI技术的进步与民主化。
字节跳动 Seed 团队发布 GR-RL,采用离线数据筛选结合在线真机微调的强化学习框架,突破 VLA 模型长时程精细操作瓶颈,首次实现机器人连续穿鞋带。相比前作 GR-3,成功率从 45.7% 提升至 83.3%,减少近 70% 失败。方案通过 Critic 价值判别器剔除次优演示数据,并在隐空间探索优化,解决模仿学习的数据次优性与执行错位问题,模型涌现出自纠错与场景调整能力。
Vertex AI团队推出基于EAGLE-3的推测解码加速方案,通过为目标模型(如Llama 70B)添加仅占2-5%参数量的轻量级draft head,取代传统独立draft模型,实现2-3倍解码速度提升。文章详述了从研究到生产的完整工程链路:构建合成数据生成管道解决版权与PII问题,采用离线训练策略预计算embeddings,并强调chat template匹配、mask设置及SGLang服务框架选型的关键作用,最终解决CPU瓶颈问题实现规模化部署。
here are the most important points from today's ilya sutskever podcast: - superintelligence in 5-20 years - current scal...
Meta研究人员透露,Facebook自2020年起使用TPU训练AI,由Kaiming He领导开发TF和JAX代码库,MAE、DiT等模型完全基于TPU构建。因内部采用有限,Meta于2023年取消GCP协议。推文指出,Google、Anthropic等实验室长期使用TPU训练大模型,Nvidia的CUDA护城河并非不可逾越,OpenAI亦投资Triton寻求替代。TPU与GPU的效率差异并非关键,系统工程人才才是决定性因素。
I keep seeing stuff about TPU, has anything materially new happened? There's no evidence Google has ever trained a Gemin...
"The thing that happened with AGI and pretraining is that in some sense they overshot the target. You will realize that ...
InfiXAI、Ant Group AQ、SGLang RL 与 Miles 团队联合实现了端到端 FP8 强化学习训练与采样方案。实验表明,MoE 模型在使用 BF16 训练与 FP8 推理时,规模越大训练-推理差异越显著;统一采用 FP8 进行训练和推理可有效消除量化误差导致的不一致性,显著提升训练速度与稳定性。该方案已支持 Qwen3-4B 和 Qwen3-30B-A3B 模型,并在 miles 框架中开箱即用。
New Anthropic research: Natural emergent misalignment from reward hacking in production RL. "Reward hacking" is where mo...
RapidFire AI 发布了一套加速 TRL 微调的工具,通过自适应分块调度方案,允许在单个或多个 GPU 上并发启动多个训练配置并实时比较。内部基准测试显示,实验吞吐量比顺序执行高出约 16 至 24 倍。该工具提供即插即用的 TRL 配置包装器、分块并发训练、支持实时停止/恢复/克隆修改的交互式控制操作、自动多 GPU 编排以及 MLflow 仪表板,使用户能快速筛选最优配置,极大提升微调效率。
ServiceNow-AI在Hugging Face发布博客,介绍了其提出的Apriel-H1方法,该方法通过知识蒸馏技术有效提升小型模型的推理能力。该方法的核心在于从大型模型中提取并转移复杂的推理路径,使蒸馏后的小模型在多项推理任务上表现显著提升,同时保持高效的部署性能。这一技术为在资源受限环境中部署高性能推理模型提供了新思路。
Mistral AI宣布在德国的多项长期战略承诺。公司正与SAP建立多年期合作伙伴关系,将Mistral模型整合至SAP AI Foundation,为德国和欧洲构建完全自主可控的AI技术栈,并针对复杂行业和管理部门共同开发解决方案。同时,与Helsing合作加速开发用于现实防务与安全应用的视觉语言动作模型,以支持欧洲的战略自主性。Mistral AI计划未来几个月内在德国设立办公室,并大幅扩充本地团队,旨在让德国乃至欧洲的客户能够拥有自己的AI发展路径,无需牺牲战略自主性或将关键数据送出境外。
RadixArk团队发布企业级强化学习框架Miles,专为大规模MoE训练设计。该框架基于曾支撑GLM-4.6训练的slime构建,首创True On-Policy技术,实现训练与推理零KL散度对齐。新版本引入在线草稿模型推测解码,rollout加速超25%,并针对GB300等新硬件优化内存管理,支持Flash Attention 3与DeepGEMM。框架采用模块化架构,四大核心组件完全解耦,兼顾研究灵活性与企业级稳定性。
强化学习(RL)在样本效率方面的缺陷比普遍认知更为严重,尤其在近期备受关注的可验证奖励强化学习(RLVR)领域。研究表明,RLVR 在训练大语言模型时所需的数据量远超预期,其信息效率可能比传统监督学习低数个数量级。这一发现对当前依赖 RLVR 提升模型推理能力的技术路线提出挑战,暗示现有方法在计算资源利用和训练数据需求方面存在显著瓶颈,可能需要更高效的探索策略或算法改进来降低对海量数据的依赖。
inclusionAI 发布了 asystem-awex,这是一个专为强化学习工作流设计的高性能训练-推理权重同步框架。该框架的核心目标是实现从训练到推理的秒级参数更新,从而显著提升强化学习模型的迭代效率与部署实时性。它解决了传统流程中参数同步延迟高的问题,为需要快速在线学习和决策的应用场景提供了关键技术支撑。
AudioMCQ数据集包含57.1万个音频多选题,专为大型音频语言模型的后训练设计。该数据集创新性地提供了双重思维链注释,并引入音频贡献过滤机制以提升数据质量。在DCASE 2025挑战赛中,基于此数据集训练的模型获得第一名,展现了其在音频理解与推理任务上的显著效果。该资源已公开,旨在推动音频语言模型的研究与发展。
inclusionAI 发布了 dFactory 平台,旨在简化去中心化大语言模型的微调过程。该平台通过自动化工作流和优化的资源调度,显著降低了技术门槛与计算成本。用户无需深厚专业知识,即可利用分布式计算资源对如 LLaMA 等模型进行高效定制。关键改进包括将典型微调任务时间缩短约 40%,并支持多节点协作训练,提升了模型迭代效率。
伯克利BAIR团队提出基于"分而治之"范式的离线策略强化学习算法,彻底摆脱传统时序差分(TD)学习框架。该方法通过递归二分轨迹并组合子段价值估计,将Bellman递归次数从线性降至对数级,根本解决了TD学习在长程任务中的误差累积难题。相比n步TD学习,新算法无需调节步长参数,避免了高方差与次优性,在复杂长程任务中展现出良好的可扩展性。
Our latest post explores on-policy distillation, a training approach that unites the error-correcting relevance of RL wi...
大语言模型后训练可分同策略(on-policy)和异策略(off-policy)。同策略强化学习让学生从自身采样学习,但奖励信号稀疏;异策略监督微调提供密集反馈,但分布偏移易导致复合误差。在线策略蒸馏融合两者:从学生模型采样完整轨迹,由高性能教师模型对每一步 token 评分,既保持同策略的上下文反馈,又提供密集细粒度梯度,从而更高效地训练更小、更强的专用模型。
AlphaEarth Foundations 新AI模型整合PB级地球观测数据,生成统一数据表示,以前所未有的精度革新全球测绘与监测。
该研究提出了一种名为“自对抗流”的新方法,旨在驯化大规模少步训练。该方法通过引入一种内部对抗机制来优化流模型在有限训练步数下的性能,有望解决大模型训练中计算成本高昂的挑战。相关工作已被顶级机器学习会议ICLR 2026接收。
利用人工智能技术,科学家能够从海量宇宙数据中提取深层信息,突破传统观测局限,揭示隐藏规律,从而以前所未有的深度感知和理解宇宙,持续拓展人类认知边界。
VaultGemma 基于差分隐私技术从头训练,是目前能力最强的隐私保护大语言模型,在严格隐私约束下实现了顶尖性能。
inclusionAI 开源了专为大语言模型训练设计的高性能内核库 Linghe。该库旨在优化 LLM 训练过程中的计算效率,通过底层内核创新提升训练速度并降低资源消耗。Linghe 支持当前主流的 Transformer 架构模型,为开发者和研究者提供了更高效的训练工具,有望加速 LLM 的开发与迭代进程。
Ming-VideoMAR 是一款仅解码器的自回归图像到视频生成模型,采用连续令牌统一视觉表征。它首次将时间因果性与空间双向性作为视频自回归核心原则,并提出了整合掩码生成的下一帧扩散损失。该模型首次实现了视频生成的零样本分辨率缩放,能灵活生成远超训练分辨率的视频。其在训练与推理效率上表现突出,参数量、训练数据量和GPU消耗仅为之前最佳模型Cosmos的极小比例(9.3%、0.5%和0.2%),同时在定量与定性评估中均实现超越。模型代码与检查点已开源,论文已被NeurIPS 2025接收。
Sutton(《The Bitter Lesson》作者)在播客中质疑 LLM 并非真正的"苦涩的教训"产物——它们依赖有限的人类数据且充满偏见。他主张 AI 应像动物一样通过 RL 与世界动态交互,而非模仿人类文本。作者认同 LLM 确实充斥人工干预,但认为预训练是应对冷启动的实用"进化替代方案",纯 RL 在现实世界难以行得通。
.@RichardSSutton, father of reinforcement learning, doesn't think LLMs are bitter-lesson-pilled. My steel man of Richard...
研究团队发布合成编程基准DELTA与Manufactoria测试平台,针对基础模型pass@128为零的分布外任务,提出两阶段奖励调度方案:先以密集每测试奖励打破零梯度僵局,再切换至二元全通奖励巩固精确解。实验显示,RL训练在漫长平台期后会出现"grokking"式相变,准确率骤升至约100%,证明模型能够发现全新策略而非仅优化已有知识。迁移测试表明,习得策略可重组编程子技能并外推至更难参数范围,但在需要新不变量的结构性转变上仍受限。