AI 摘要
商汤开源的 SenseNova-U1 模型在架构上实现关键突破。传统多模态模型多采用“语言模型 + 视觉编码器 + VAE”的拼接方式,视觉信息需先翻译再输入 LLM。U1 基于 NEO-Unify 架构,直接移除翻译层,使语言和视觉在同一表征空间中运行。因此,模型能在单次推理中同步完成图像理解、推理和生成等任务,而非分步处理,提升了多模态交互的效率和连贯性。
这两天在试用商汤刚开源的 SenseNova-U1,印象最深的不是 benchmark 分数,是它的架构方向。 现在的多模态模型大多还是"语言模型 + 视觉编码器 + VAE"拼起来的,视觉信息要先被翻译一道再进 LLM。 U1 用的 NEO-Unify 把翻译层直接拿掉了,语言和视觉跑在同一表征里。 所以它读图、想、画图,是在一次推理里完成的,不是分三步走。