商汤把理解和生成塞进一个端到端模型,砍掉了视觉编码器和 VAE,架构上是真创新不是换皮。8B 参数开源 Apache 2.0,做多模态产品的团队值得花半天跑一下。
SenseNova-U1在ModelScope开源发布,采用Apache 2.0协议。该模型基于NEO-Unify架构,摒弃了传统视觉编码器与VAE,将语言与视觉作为统一的复合信号进行端到端处理。其核心特点在于一个模型同时覆盖文生图、图像编辑、交错生成与视觉问答等多模态任务。模型采用8B密集参数与A3B混合专家系统组合,在开源理解与生成基准测试中达到SOTA性能。
🌟 我们很高兴在 ModelScope 上分享 SenseNova-U1,这是一款原生多模态模型,将理解与生成统一于一体。📄 采用 Apache 2.0 协议。
基于 NEO-Unify 构建,不含视觉编码器和 VAE,语言与视觉被视作一个统一的复合端到端整体。单一模型即可覆盖 T2I、编辑、交错生成和视觉问答。
🏆 在开源理解与生成基准上达到 SOTA。8B-MoT(密集) + A3B-MoT(MoE)。立即体验 🤖 https://modelscope.cn/models/SenseNova/SenseNova-U1