meng shao@shao__meng

2026-04-29 21:56·64天前

AI 摘要

商汤开源的 SenseNova-U1 模型在架构上实现关键突破。传统多模态模型多采用“语言模型 + 视觉编码器 + VAE”的拼接方式，视觉信息需先翻译再输入 LLM。U1 基于 NEO-Unify 架构，直接移除翻译层，使语言和视觉在同一表征空间中运行。因此，模型能在单次推理中同步完成图像理解、推理和生成等任务，而非分步处理，提升了多模态交互的效率和连贯性。

这两天在试用商汤刚开源的 SenseNova-U1，印象最深的不是 benchmark 分数，是它的架构方向。现在的多模态模型大多还是"语言模型 + 视觉编码器 + VAE"拼起来的，视觉信息要先被翻译一道再进 LLM。 U1 用的 NEO-Unify 把翻译层直接拿掉了，语言和视觉跑在同一表征里。所以它读图、想、画图，是在一次推理里完成的，不是分三步走。

多模态大佬观点开源生态

在 X 查看原推导出 Markdown

meng shao@shao__meng · X

56导出 Markdown

2026-04-29 21:56·64天前

在 X 看原推· x.com

AI 摘要

多模态大佬观点开源生态