# 商汤 SenseNova-U1 架构创新：统一语言视觉表征

- 来源：meng shao (@shao__meng)
- 发布时间：2026-04-29 21:56
- AIHOT 分数：56
- AIHOT 链接：https://aihot.virxact.com/items/cmok4xhkd026qslz3rlqhjsbv
- 原文链接：https://x.com/shao__meng/status/2049488050112414135

## AI 摘要

商汤开源的 SenseNova-U1 模型在架构上实现关键突破。传统多模态模型多采用“语言模型 + 视觉编码器 + VAE”的拼接方式，视觉信息需先翻译再输入 LLM。U1 基于 NEO-Unify 架构，直接移除翻译层，使语言和视觉在同一表征空间中运行。因此，模型能在单次推理中同步完成图像理解、推理和生成等任务，而非分步处理，提升了多模态交互的效率和连贯性。

## 正文

这两天在试用商汤刚开源的 SenseNova-U1，印象最深的不是 benchmark 分数，是它的架构方向。
现在的多模态模型大多还是"语言模型 + 视觉编码器 + VAE"拼起来的，视觉信息要先被翻译一道再进 LLM。
U1 用的 NEO-Unify 把翻译层直接拿掉了，语言和视觉跑在同一表征里。
所以它读图、想、画图，是在一次推理里完成的，不是分三步走。
