蚂蚁 inclusionAI:GitHub 新仓库
蚂蚁集团开源AState:面向强化学习的高性能状态管理系统
精选理由
蚂蚁把万亿参数 RL 训练的权重同步从分钟级压到 6 秒,这套 AState 系统是真刀真枪的工程解法,做大规模 RL infra 的团队值得拆一拆它的 RDMA P2P 架构。
AI 摘要
蚂蚁集团开源了AState,这是一个专为强化学习设计的高性能通用状态数据管理系统。它旨在解决RL训练与推理中的I/O效率低下、权重同步性能不足及状态恢复不鲁棒等核心挑战。系统采用三层架构:提供张量原生接口的API层、支持多种部署模式的服务层以及具备高效可扩展传输能力的基础层。其关键特性包括统一的张量级API、高性能权重同步和拓扑感知设计。在万亿参数规模下,AState能在约6秒内完成权重同步,远低于业界常见的分钟级延迟,目前已作为ASystem的关键组件在蚂蚁内部生产环境部署。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文github.com