# Ideogram 4.0 开源文生图模型发布

- 来源：IT之家（RSS）
- 发布时间：2026-06-04 13:58
- AIHOT 分数：75
- AIHOT 链接：https://aihot.virxact.com/items/cmpz3khpe05vvsli3w4ocxtxx
- 原文链接：https://www.ithome.com/0/959/805.htm

## AI 摘要

Ideogram 6月3日发布开源文生图模型 Ideogram 4.0，核心规模 9.3B 参数，采用单流架构，文本 tokens 与图像 tokens 共享自注意力序列。模型使用 Qwen3-VL-8B-Instruct 文本编码器、34 层单流 DiT、Euler 流匹配采样器及冻结 KL 自动编码器。擅长文字绘制，能准确呈现较长文本；通过对象和文本边界框训练，配合结构化 JSON 字幕数据，支持用提示词指定版式和布局。在 DesignArena 人类评价排名中位列全球第 4。

## 正文

IT之家 6 月 4 日消息，Ideogram 昨日（6 月 3 日）发布博文，宣布推出 Ideogram 4.0 开放权重文文生图模型，基于跑分数据是全球最佳开源生图 AI 模型。

该模型核心规模为 9.3B 参数，延续近期开源模型的单流架构路线，让文本 tokens 与图像 tokens 共享同 1 个自注意力序列，并把设计控制放在训练和推理格式的中心。

架构方面，该模型包括 Qwen3-VL-8B-Instruct 文本编码器、可训练的 34 层单流 DiT（扩散 Transformer）、Euler 流匹配采样器，以及冻结的 KL 自动编码器。

官方展示的样例显示，该模型可以生成覆盖人物、场景和设计类图像，适合需要图片创作、视觉排版和文字海报的用户尝试。IT之家附上相关图片如下：

该模型最突出的能力是文字绘制。模型可在图像中更准确地呈现较长文本，这对海报、商品图、封面和社媒素材很关键。

Ideogram 还通过训练图片中的对象和文本边界框，让模型理解元素位置关系。配合结构化 JSON（数据交换格式）字幕数据训练后，用户可更清楚地用提示词指定版式、对象位置和文本布局。

DesignArena 的排名显示，Ideogram 4.0 超过 Nano Banana Pro，位列全球第 4。该榜单采用隐藏模型名称后由人类评价生成结果质量的方法，因此这项成绩来自人工观感评估，具有较高可信度。
