商汤把原生多模态模型的训练细节全公开了,无视觉编码器、原生MoE架构,还开源了38B-A3B权重,做多模态模型的可以直接照着技术报告复现。
SenseNova-U1 技术报告详尽披露了构建前沿原生多模态模型的方法,核心包括原生多模态统一建模、无损视觉接口、联合自回归与像素空间流匹配训练、以及原生混合专家骨干网络。报告提供了六阶段训练方案、强化学习后训练与蒸馏的完整实践指南。其开源版本 SenseNova-U1-A3B-MoT 基于混合专家架构,仅激活30亿参数,实现了高效快速的性能。相关资源已全面开放,涵盖技术报告、模型权重、代码和演示平台。
🔥 新一周,新一版 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭 发布——而这一次,深度拉满!🔥
📄 完整技术报告现已发布——这是迄今最详尽的披露,讲述如何构建前沿原生多模态模型。
内容涵盖: ✨ 接近无损的视觉接口(无需 VE,无需 VAE) ✨ 原生多模态统一建模 ✨ 联合 AR + 像素空间流匹配训练 ✨ 原生混合 Transformer 架构主干 ✨ 六阶段训练方案 + RL 后训练 + 知识蒸馏
如果你从事原生多模态模型(NMM)工作,这就是操作指南。
🤗 还有一件事:𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭-𝗔𝟯𝗕-𝗠𝗼𝗧(𝟯𝟴𝗕-𝗔𝟯𝗕 𝗠𝗼𝗘)权重现已开源——这是一个罕见的、基于 MoE 主干的原生统一模型(仅 3B 激活!闪电般快速⚡)
📄 技术报告:https://arxiv.org/abs/2605.12500 🤗 每日论文(投票与讨论):https://huggingface.co/papers/2605.12500 🤗 模型:https://huggingface.co/collections/sensenova/sensenova-u1 💻 代码:https://github.com/OpenSenseNova/SenseNova-U1 🎮 演示:https://unify.light-ai.top 👾 Discord:https://discord.com/invite/BuTXPHmQub