公众号:面壁智能(MiniCPM)
面壁智能发布AI全自动预训练框架ForgeTrain,8小时追平Megatron-LM
精选理由
这是AI编写生产级训练框架的首个实证,8小时追平Megatron-LM并反超,证明AI打穿Infra的范式已到临界点,做训练框架和Infra的都该看看。
AI 摘要
面壁智能发布全球首个完全由AI编写、无人类干预的生产级大模型预训练框架ForgeTrain。该框架针对特定模型和硬件从零自动“锻造”专用训练代码。基准测试显示,ForgeTrain在8小时内追平Megatron-LM,1.5至2天内实现稳定反超,模型FLOPS利用率提升约8%~10%,且可迁移至不同模型(MiniCPM4-0.5B/8B)和硬件(H100及昇腾NPU)。其采用四阶段Harness优化流程,全程自动判定。面壁智能将其工程思想概括为Forge Engineering。
公众号正文需在微信内阅读,站内仅提供摘要。
在微信中打开原文mp.weixin.qq.com