商汤把 SenseNova-U1 的训练代码全量开源,支持多模态任务和 MoE,还给了完整的并行策略,做多模态训练的可以直接 fork 过去用,Apache-2.0 很友好。
商汤开源了SenseNova-U1(8B dense + A3B MoE)的完整训练代码库。这是一个统一的框架,支持文本到图像、图像编辑、交错生成、文本与视觉理解等多种多模态任务的训练。其设计注重实用性与大规模训练,采用混合并行、流式可恢复数据管道、环境变量配置、解耦模块化设计,并支持从1×8 GPU扩展到多节点集群的规模。代码库以Apache-2.0协议开源。
🚀 我们已经开源了 SenseNova-U1(8B 稠密 + A3B MoE)的完整训练代码库。
一个用于训练多模态任务的统一框架,涵盖:文生图、编辑、交织生成、文本与视觉理解。
专为实用的大规模训练而构建: ⚙ 混合 WP/TP/PP + ISP 并行 🌊 流式、可恢复、打包的数据管道 🎛 环境变量驱动的配置,便于实验 🧱 解耦的主干网络、数据和目标模块 📈 可从 1×8 GPU 扩展到多节点集群
Apache-2.0 👇 https://github.com/OpenSenseNova/SenseNova-U1 Discord: https://discord.gg/BuTXPHmQub
@GitHub