全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「图像生成」清除

2月3日周二

19:25Hugging Face：Blog（RSS）73精选文本到图像模型训练设计：来自消融研究的经验

17:46美团 LongCat：HuggingFace 新模型美团-longcat/LongCat-Image-Edit-Turbo

1月28日周三

15:51公众号：腾讯混元5710亿红包后，我们打算开源这个800亿的模型

1月24日周六

06:40Saining Xie> "rae 无法扩展" > "rae 无法泛化到 imagenet 之外" > "rae 无法处理细节" > 没有在网上争论 > 学生们埋头苦干 > 在真正的 t2i 规模上尝试 > 结果出来了 > 看起来非常乐观 > 向 peter、boyang、austin > 以及所有交付成果的人致敬 > 代码、模型、数据 > 全部开源 👇 【引用 @TongPetersb】：去年十月，我们提出了 Representation Autoencoders （RAE），展示了在冻结的语义表示上训练扩散模型是可行的，并且在 ImageNet 上优于 VAEs。我们收到了很多问题：这能否扩展到像 T2I 这样的复杂场景？优势是否依然存在？答案是肯定的。🧵

1月21日周三

00:41Midjourney：Updates（RSS）Web 端更新

1月16日周五

00:00LMSYS：Blog（Chatbot Arena 团队）SGLang-Diffusion：发布两月进展综述

1月14日周三

00:00智谱：研究（网页内嵌数据）精选智谱联合华为开源首个国产芯片训练的多模态SOTA模型

1月10日周六

07:20Midjourney：Updates（RSS）精选Niji V7 正式发布！

12月31日周三

13:08Qwen：Blog Retrieval（API）Qwen-Image-2512：细节更精细，真实感更强

12月23日周二

13:08Qwen：Blog Retrieval（API）Qwen-Image-Edit-2511：提升一致性

12月19日周五

13:08Qwen：Blog Retrieval（API）Qwen-Image-Layered：通过分层分解实现内在可编辑性

12月18日周四

18:00公众号：小红书技术（dots.llm）42NeurIPS2025|小红书AIGC团队提出布局可控生成框架InstanceAssemble

12月16日周二

07:28Saining Xie精选新论文：iREPA 扩散模型是其底层表征的渲染器。通过这种新设置，我们能更清楚地洞察这些表征的真正含义。Jas 开始了一场自发的探索，过去三个月我们学到了很多 ps. 这也是我们对一种新型线上"饮水机效应"的小实验，我很喜欢看到这种现象。让我们争论、讨论，然后用真正的努力将其转化为正经科学【引用 @1jaskiratsingh】：！！️ 表征对生成很重要！但事实证明，我们对表征如何帮助生成的理解一直都是错的！！️ 我们之前的想法：（我们错了） ❌ 更大的视觉编码器 → 更好的表征 → 更好的生成 ❌ 更好的全局语义 → 更好的表征 → 更好的生成结果发现： 🤯 在表征对齐方面，小 20 倍以上的视觉编码器可以达到与更大模型相似或更好的性能 🤯 线性探测准确率约 20%（全局语义的衡量指标）的视觉编码器可以胜过准确率 >80% 的编码器 🤯 即使是 SiFT 和 HoG 这类经典特征也能带来与现代大得多的视觉编码器相媲美的提升！！️ 🚨 介绍：什么对表征对齐重要？全局信息还是空间结构 🚨 TL；DR： ✅ 更好的全局语义信息 ≠ 更好的生成 ✅ 空间结构（而非全局语义）驱动表征的生成性能 ✅ 我们提出 iREPA：仅需 3 行代码，强调空间结构迁移，并在 REPA、REPA-E、Meanflow、JiT 等方法上持续提高收敛速度在 @AdobeResearch 的激动人心的项目，与 @xingjian_leng、@zongze_wu、@LiangZheng_06、@rzhang88、@elishechtman 和 @sainingxie 合作 🙏 对我来说这也是一次特别有趣且独特的经历，在项目的每一步我们都在证明自己的偏见是错误的 😆 还要大力感谢 @YouJiacheng、@ShumingHu 和 @gallabytes，他们在 X 上的评论开启了这一方向的探索 🫡 论文：https://arxiv.org/abs/2512.10794 代码：https://github.com/End2End-Diffusion/iREPA 项目页面：https://end2end-diffusion.github.io/irepa 更多细节见线程：【1/n】 🧵

12月5日周五

15:34美团 LongCat：HuggingFace 新模型美团 LongCat-Image-Edit 图像编辑项目

12月4日周四

21:02美团 LongCat：HuggingFace 新模型美团 LongCat-Image-Dev 开源图像项目

20:38美团 LongCat：HuggingFace 新模型美团-longcat/LongCat-Image

11月25日周二

08:00Hugging Face：Blog（RSS）80精选Diffusers 集成 FLUX-2 模型

11月20日周四

23:13Google DeepMind：Blog（RSS）Gemini 应用新增 AI 图像验证功能，可识别 SynthID 水印

23:05Google DeepMind：Blog（RSS）精选Google DeepMind 发布 Nano Banana Pro 图像生成模型

08:23Midjourney：Updates（RSS）Web 端更新

03:04Midjourney：Updates（RSS）Midjourney 推出用户个人资料功能

11月7日周五

00:00LMSYS：Blog（Chatbot Arena 团队）SGLang Diffusion：加速视频与图像生成

10月24日周五

02:48Google DeepMind：Blog（RSS）Gemini 图像编辑功能迎来重大升级

10月17日周五

02:36Midjourney：Updates（RSS）Midjourney 风格排名与 TV 功能更新

10月2日周四

00:13Google DeepMindAI 如何助力世界知名工业设计师的创作流程？🎨

9月30日周二

19:36蚂蚁 inclusionAI：GitHub 新仓库51inclusionAI/Ming-UniVision

8月26日周二

08:00OpenRouter：Announcements（RSS）49OpenRouter 上线首个图像模型 Gemini 2.5 Flash Image Preview

08:00OpenRouter：Announcements（RSS）46OpenRouter 上线首个图像模型 Gemini 2.5 Flash Image Preview

08:00OpenRouter：Announcements（RSS）42首个图像模型在 OpenRouter 上线

7月1日周二

01:06Saining Xie@jiacheng_chen_ 和 @sanghyunwoo1219 在基于3D的视觉合成方面的工作很棒（演示也很棒！）

6月28日周六

04:00Saining Xiemetaquery 现已开源--数据和代码均已开放。

6月9日周一

08:02Saining Xie下周将和学生一起参加 CVPR，很期待。我们将在主会和多个研讨会及教程上展示我们的工作，包括这个👇

5月29日周四

05:34Saining Xie确实。对于文生图，@xichen_pan 有一个很好的总结支持这种解耦的设计理念："把生成性的归给 diffusion，把理解的归给 LLMs。"

5月20日周二

17:45Google DeepMind：Blog（RSS）精选以全新生成式媒体模型与工具激发创意

5月16日周五

00:00Runway：News（网页）Runway 推出 Gen-4 Image API

2月6日周四

00:00Mistral AI：News（网页）62全新 le Chat：你的生活与工作 AI 助手

12月9日周一

08:00xAI：News（网页）精选Grok 正式发布图像生成功能

11月18日周一

00:00Mistral AI：News（网页）61Mistral AI 为 le Chat 推出重大更新（Beta）

6月10日周五

06:10Lilian Weng：Lil'Log（RSS）41通用视觉语言模型

4月7日周四

02:15Sam Altman：Blog（RSS）DALL•E 2

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

2月3日

19:25

Hugging Face：Blog（RSS）

精选73

文本到图像模型训练设计：来自消融研究的经验

Photoroom团队通过消融研究，总结了文本到图像模型训练的关键发现：混合高质量与多样化数据、在训练中后期引入强数据增强，以及调整无分类器引导的丢弃率，能有效优化模型性能。这些结论为Stable Diffusion等模型的训练提供了实用指导。

Hugging Face 图像生成论文/研究

推荐理由：为文本到图像模型训练提供实用优化建议，帮助开发者提升模型效果。

17:46

美团 LongCat：HuggingFace 新模型

美团-longcat/LongCat-Image-Edit-Turbo

美团-longcat发布LongCat-Image-Edit-Turbo图像编辑模型，秉持开源与开放科学理念推进人工智能技术的普及。该项目专注于图像编辑领域，旨在提供高效的图像处理能力。目前公开信息主要阐述项目愿景与使命，具体技术参数、性能指标及版本更新细节有待进一步披露。

Hugging Face 图像生成模型发布

1月28日

15:51

公众号：腾讯混元

57

10亿红包后，我们打算开源这个800亿的模型

图像生成开源生态模型发布

1月24日

06:40

Saining Xie@sainingxie

> "rae 无法扩展" > "rae 无法泛化到 imagenet 之外" > "rae 无法处理细节" > 没有在网上争论 > 学生们埋头苦干 > 在真正的 t2i 规模上尝试 > 结果出来了 > 看起来非常乐观 > 向 peter、boyang、austin > 以及所有交付成果的人致敬 > 代码、模型、数据 > 全部开源 👇 【引用 @TongPetersb】：去年十月，我们提出了 Representation Autoencoders （RAE），展示了在冻结的语义表示上训练扩散模型是可行的，并且在 ImageNet 上优于 VAEs。我们收到了很多问题：这能否扩展到像 T2I 这样的复杂场景？优势是否依然存在？答案是肯定的。🧵

Peter Tong: Last October, we introduced Representation Autoencoders (RAE), showing that training diffusion on frozen semantic repres...

图像生成开源生态论文/研究

1月21日

00:41

Midjourney：Updates（RSS）

新增 6:11、4:5、5:4、21:9 四种宽高比选项；未使用 cref/oref 时自动去除 --cw/--ow 参数；自动清理 moodboard 任务中不支持的 weird 参数。

产品更新图像生成

1月16日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang-Diffusion：发布两月进展综述

SGLang-Diffusion 最新版本（lmsysorg/sglang:dev-pr-17247）性能较初始版本提升2.5倍，在NVIDIA GPU上较其他方案快5倍。新增Day-0支持Flux.2、Qwen-Image系列、Z-Image-Turbo等多款模型，完整支持LoRA格式与HTTP API，并推出ComfyUI集成插件。技术层面引入Layerwise Offload机制实现计算与权重加载重叠，支持SP/TP混合并行及SageAttention系列后端，兼容AMD、4090、5090及MUSA硬件。

图像生成开源/仓库部署/工程

1月14日

00:00

智谱：研究（网页内嵌数据）

精选

智谱联合华为开源首个国产芯片训练的多模态SOTA模型

智谱联合华为开源多模态生成模型GLM-Image，为首款基于国产昇腾芯片与MindSpore框架全流程训练的SOTA模型。采用9B自回归与7B扩散解码器混合架构，在CVTG-2K复杂视觉文字生成和LongText-Bench长文本渲染榜单均位列开源第一，支持1024×1024至2048×2048多分辨率生成。API调用成本0.1元/张，代码已开源至GitHub、Hugging Face及魔搭社区。

图像生成开源生态模型发布部署/工程

推荐理由：首个国产昇腾芯片训练的SOTA多模态模型开源，文字渲染能力开源第一，生成一张图仅需0.1元

1月10日

07:20

Midjourney：Updates（RSS）

精选

Niji V7 正式发布！

Niji V7 图像模型正式上线。该版本专为亚洲及动漫场景优化，改进了动漫连贯性、提示词理解能力、文字渲染效果及 sref 性能。

图像生成模型发布

推荐理由：Midjourney 动漫专用模型 Niji V7 发布，生成质量再升级

12月31日

13:08

Qwen：Blog Retrieval（API）

Qwen-Image-2512：细节更精细，真实感更强

Qwen-Image-2512 发布，图像细节与真实感显著提升。Qwen Studio 平台提供聊天、图像视频理解/生成、文档处理、网页搜索、工具调用及 artifacts 等全功能支持。

图像生成模型发布

12月23日

13:08

Qwen：Blog Retrieval（API）

Qwen-Image-Edit-2511：提升一致性

Qwen Studio 集成聊天机器人、图像与视频理解、图像生成、文档处理、联网搜索、工具调用及 artifacts 等全栈 AI 功能。

产品更新图像生成多模态

12月19日

13:08

Qwen：Blog Retrieval（API）

Qwen-Image-Layered：通过分层分解实现内在可编辑性

Qwen Studio 集成聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索、工具调用及 Artifacts 等全栈能力，提供一站式多模态 AI 服务。

其他图像生成

12月18日

18:00

公众号：小红书技术（dots.llm）

42

NeurIPS2025|小红书AIGC团队提出布局可控生成框架InstanceAssemble

小红书AIGC团队在NeurIPS2025上提出全新布局可控生成框架InstanceAssemble，专用于复杂场景下的Layout-to-Image任务。该框架通过从布局条件中引导图像生成，实现了对多对象位置、大小及空间关系的精确控制，解决了现有模型在密集布局下对象漏生、重叠等难题。

图像生成多模态论文/研究

12月16日

07:28

Saining Xie@sainingxie

精选

新论文：iREPA 扩散模型是其底层表征的渲染器。通过这种新设置，我们能更清楚地洞察这些表征的真正含义。Jas 开始了一场自发的探索，过去三个月我们学到了很多 ps. 这也是我们对一种新型线上"饮水机效应"的小实验，我很喜欢看到这种现象。让我们争论、讨论，然后用真正的努力将其转化为正经科学【引用 @1jaskiratsingh】：！！️ 表征对生成很重要！但事实证明，我们对表征如何帮助生成的理解一直都是错的！！️ 我们之前的想法：（我们错了） ❌ 更大的视觉编码器 → 更好的表征 → 更好的生成 ❌ 更好的全局语义 → 更好的表征 → 更好的生成结果发现： 🤯 在表征对齐方面，小 20 倍以上的视觉编码器可以达到与更大模型相似或更好的性能 🤯 线性探测准确率约 20%（全局语义的衡量指标）的视觉编码器可以胜过准确率 >80% 的编码器 🤯 即使是 SiFT 和 HoG 这类经典特征也能带来与现代大得多的视觉编码器相媲美的提升！！️ 🚨 介绍：什么对表征对齐重要？全局信息还是空间结构 🚨 TL；DR： ✅ 更好的全局语义信息 ≠ 更好的生成 ✅ 空间结构（而非全局语义）驱动表征的生成性能 ✅ 我们提出 iREPA：仅需 3 行代码，强调空间结构迁移，并在 REPA、REPA-E、Meanflow、JiT 等方法上持续提高收敛速度在 @AdobeResearch 的激动人心的项目，与 @xingjian_leng、@zongze_wu、@LiangZheng_06、@rzhang88、@elishechtman 和 @sainingxie 合作 🙏 对我来说这也是一次特别有趣且独特的经历，在项目的每一步我们都在证明自己的偏见是错误的 😆 还要大力感谢 @YouJiacheng、@ShumingHu 和 @gallabytes，他们在 X 上的评论开启了这一方向的探索 🫡 论文：https://arxiv.org/abs/2512.10794 代码：https://github.com/End2End-Diffusion/iREPA 项目页面：https://end2end-diffusion.github.io/irepa 更多细节见线程：【1/n】 🧵

Jaskirat Singh: !!️ Representations matter for generation! But turns out our understanding of how representations help generation was wr...

arXiv 图像生成数据/训练论文/研究

推荐理由：颠覆认知：小20倍视觉编码器也能驱动高质量生成，空间结构才是关键

12月5日

15:34

美团 LongCat：HuggingFace 新模型

美团 LongCat-Image-Edit 图像编辑项目

美团发布 LongCat-Image-Edit 图像编辑项目，致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 技术应用门槛，通过开放协作促进全球开发者共同参与技术创新，推动先进图像编辑能力的广泛可及。

Hugging Face 图像生成模型发布

12月4日

21:02

美团 LongCat：HuggingFace 新模型

美团 LongCat-Image-Dev 开源图像项目

美团发布 LongCat-Image-Dev 开源项目，致力于通过开源和开放科学推进人工智能技术的普及与民主化。该项目作为 LongCat 系列的图像开发版本，旨在降低 AI 技术门槛，促进全球开发者协作创新，体现了美团在人工智能领域拥抱开源生态的战略布局。

Hugging Face 图像生成模型发布

20:38

美团 LongCat：HuggingFace 新模型

美团-longcat/LongCat-Image

美团-longcat 推出 LongCat-Image 开源项目，致力于通过开源协作与开放科学研究推进人工智能技术的进步与民主化。该项目旨在降低 AI 技术门槛，打破技术壁垒，让先进的 AI 能力更加普惠可及，体现了通过开放生态促进 AI 技术普及的战略愿景。

Hugging Face 图像生成模型发布

11月25日

08:00

Hugging Face：Blog（RSS）

精选80

Diffusers 集成 FLUX-2 模型

Hugging Face 的 Diffusers 库正式集成 Black Forest Labs 开发的 FLUX-2 文生图模型。该模型拥有 120 亿参数，采用多模态扩散 Transformer 架构，在图像质量、提示遵循和分辨率方面表现优异，支持生成 1024x1024 像素图像。此次集成让开发者能通过 Diffusers API 便捷使用这一先进模型。

Hugging Face 图像生成模型发布

推荐理由：FLUX-2 图像生成模型正式进入 Diffusers 生态，本地部署和微调更便捷

11月20日

23:13

Google DeepMind：Blog（RSS）

Gemini 应用新增 AI 图像验证功能，可识别 SynthID 水印

Google 在 Gemini 应用中上线 AI 图像验证工具，用户上传图片即可查询是否由 Google AI 生成或编辑。该功能通过检测 SynthID 数字水印实现，该技术已应用于超 200 亿个 AI 生成内容。未来验证范围将扩展至视频和音频，并支持 C2PA 内容凭证标准。本周起，Nano Banana Pro（Gemini 3 Pro Image）在 Gemini、Vertex AI 和 Google Ads 中生成的图像将嵌入 C2PA 元数据，未来还将支持验证 Google 生态系统外的模型生成内容。

DeepMind Google 产品更新图像生成

23:05

Google DeepMind：Blog（RSS）

精选

Google DeepMind 发布 Nano Banana Pro 图像生成模型

Google DeepMind 发布 Nano Banana Pro 图像生成模型，基于 Gemini 3 Pro 构建，支持多语言可读文本直接渲染，可结合 Google Search 实时信息生成信息图表。该模型支持 14 张图像融合，保持 5 个人物形象一致性，输出 4K 分辨率。现已集成至 Gemini 应用、Google Ads、Google AI Studio 等产品，所有生成内容均嵌入 SynthID 水印以确保透明度。

DeepMind Google 图像生成多模态

关联讨论 2 条Google DeepMind：Blog（RSS）Ethan Mollick：One Useful Thing（RSS）

推荐理由：Google 发布 Nano Banana Pro 图像生成模型，支持多语言文本渲染与 4K 输出

08:23

Midjourney：Updates（RSS）

随 Profiles 功能今日上线，"Hide"过滤器更名为"Trash"。被移至 Trash 的创作内容将不再显示于 Create 页面，功能命名更贴合实际用途。

产品更新图像生成

03:04

Midjourney：Updates（RSS）

Midjourney 推出用户个人资料功能

Midjourney 正式推出用户个人资料功能，用户可创建专属主页向社区展示作品，支持自定义用户名、头像、横幅、简介及社交媒体链接。

产品更新图像生成

11月7日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang Diffusion：加速视频与图像生成

SGLang 推出 Diffusion 推理引擎，将高性能 LLM 服务架构扩展至视频与图像生成领域。该系统支持 Wan、Hunyuan、Qwen-Image、Flux 等主流开源扩散模型，在 H100/H200 GPU 上实现 1.2-5.9 倍加速。通过 ComposedPipelineBase 架构抽象与统一序列并行技术，提供 OpenAI 兼容 API、CLI 及 Python 接口，并与 FastVideo 合作覆盖从训练到部署的全流程。

图像生成开源/仓库视频部署/工程

10月24日

02:48

Google DeepMind：Blog（RSS）

Gemini 图像编辑功能迎来重大升级

Gemini 应用原生图像编辑功能迎来重大升级，用户现可通过更新后的工具以全新方式变换图像，获得更强大的创意编辑能力。

Google 产品更新图像生成多模态

10月17日

02:36

Midjourney：Updates（RSS）

Midjourney 风格排名与 TV 功能更新

Midjourney 启动第二轮高分辨率风格排名活动，改为单图排名模式以学习细节特征、改进风格系统。同期正在新增 TV 功能。

产品更新图像生成

10月2日

00:13

Google DeepMind@GoogleDeepMind

Google 携手工业设计师 Ross Lovegrove 与 modem_works，利用 Gemini 及图像生成技术构建工具，将其标志性美学转化为全新家具设计概念。

DeepMind Google 图像生成多模态

9月30日

19:36

蚂蚁 inclusionAI：GitHub 新仓库

51

inclusionAI/Ming-UniVision

inclusionAI 发布了 Ming-UniVision 的代码。该项目提出了一种创新的连续统一分词器，旨在联合处理图像理解与生成任务。该技术试图将视觉识别和图像合成整合进一个统一的框架内，通过连续化的表示来桥接两类不同性质的视觉任务，有望提升多模态模型的效率和协同能力。此次代码开源意味着相关方法将可供社区研究、复现与应用。

图像生成多模态模型发布

8月26日

08:00

OpenRouter：Announcements（RSS）

49

OpenRouter 上线首个图像模型 Gemini 2.5 Flash Image Preview

OpenRouter 现已上线 Gemini 2.5 Flash Image Preview，这是该平台首个图像生成模型，支持 SOTA 图像生成、角色一致性以及多图像输出。

Google 产品更新图像生成多模态

08:00

OpenRouter：Announcements（RSS）

46

OpenRouter 上线首个图像模型 Gemini 2.5 Flash Image Preview

OpenRouter 现已提供 Gemini 2.5 Flash Image Preview，这是平台上的首个图像模型。该模型具备 SOTA 图像生成能力，支持角色一致性（character consistency）和多图像输出（multi-image outputs）。

产品更新图像生成

08:00

OpenRouter：Announcements（RSS）

42

首个图像模型在 OpenRouter 上线

Gemini 2.5 Flash Image Preview 模型已在 OpenRouter 平台正式发布。该模型是首个在该平台上线的图像生成模型，具备当前最优的图像生成能力。其核心特性包括出色的角色一致性和支持多图像输出功能，为开发者与用户提供了新的图像生成工具选项。

产品更新图像生成部署/工程

7月1日

01:06

Saining Xie@sainingxie

@jiacheng_chen_ 和 @sanghyunwoo1219 在基于3D的视觉合成方面的工作很棒（演示也很棒！）

Sanghyun Woo: Introducing BlenderFusion: Reassemble your visual elements-objects, camera, and background-to compose a new visual narra...

图像生成论文/研究

6月28日

04:00

Saining Xie@sainingxie

metaquery 现已开源--数据和代码均已开放。

Xichen Pan: The code and instruction-tuning data for MetaQuery are now open-sourced! Code: https://github.com/facebookresearch/metaq...

Meta 图像生成开源/仓库数据/训练

6月9日

08:02

Saining Xie@sainingxie

下周将和学生一起参加 CVPR，很期待。我们将在主会和多个研讨会及教程上展示我们的工作，包括这个👇

Willis (Nanye) Ma: Join us for a full-day tutorial on Scalable Generative Models in Computer Vision at @CVPR in Nashville, on Wednesday, Ju...

图像生成行业动态

5月29日

05:34

Saining Xie@sainingxie

确实。对于文生图，@xichen_pan 有一个很好的总结支持这种解耦的设计理念："把生成性的归给 diffusion，把理解的归给 LLMs。"

You Jiacheng: as expected, this matches findings in unified multimodal understanding and generation models by @sainingxie: frozen VLM ...

图像生成多模态大佬观点

5月20日

17:45

Google DeepMind：Blog（RSS）

精选

以全新生成式媒体模型与工具激发创意

发布新一代生成式媒体模型 Veo 3 与 Imagen 4，以及专为电影制作打造的工具 Flow，支持更高质量的视频与图像生成及专业影视创作流程。

DeepMind 图像生成模型发布视频

推荐理由：Google发布Veo 3与Imagen 4生成模型及电影制作工具Flow

5月16日

00:00

Runway：News（网页）

Runway 推出 Gen-4 Image API

Runway 开放 Gen-4 Image API，集成 References 功能，定价 $0.08/张。支持虚拟试衣、游戏资产生成、室内设计等场景，开发者可通过 bounding boxes 精确控制构图，将多模态生成能力接入自有应用。

产品更新图像生成多模态

2月6日

00:00

Mistral AI：News（网页）

62

全新 le Chat：你的生活与工作 AI 助手

Mistral AI 推出全新 le Chat AI 助手，基于其高性能模型提供快速响应（最高约 1000 词/秒）。该助手提供 Pro（$14.99/月起）和 Team 版本，并开启企业版私有预览，支持 SaaS、本地及 VPC 部署。功能包括图像生成、代码执行分析及高质量文档处理，并即将推出数据连接器和多步骤智能体。

产品更新图像生成多模态推理

12月9日

08:00

xAI：News（网页）

精选

Grok 正式发布图像生成功能

Grok 推出图像生成功能，支持通过自然语言指令直接创建图片。该功能已向 X 平台用户开放，标志着这款 AI 助手从文本交互向多模态能力扩展，用户可在对话中直接生成并编辑视觉内容。

xAI 产品更新图像生成

推荐理由：xAI发布Grok图像生成功能，拓展多模态应用场景

11月18日

00:00

Mistral AI：News（网页）

61

Mistral AI 为 le Chat 推出重大更新（Beta）

Mistral AI 对其免费 AI 工作助手 le Chat 进行了重大更新（Beta）。新增功能包括：支持带引用的网络搜索；用于协作创作的 Canvas 界面；由新多模态模型 Pixtral Large 驱动的文档与图像理解功能；由 Black Forest Labs Flux Pro 支持的图像生成能力；以及更快的响应速度（由推测编辑技术驱动）。此次更新也展示了 le Chat 在提供前沿模型访问、网络搜索、Canvas 等多项核心功能方面的免费优势。所有新功能将陆续向用户开放。

产品更新图像生成多模态

6月10日

06:10

Lilian Weng：Lil'Log（RSS）

41

通用视觉语言模型

处理图像生成文本（如图像描述和视觉问答）的技术已有多年研究。传统方法通常依赖目标检测网络作为视觉编码器来捕捉视觉特征，再通过文本解码器生成文字。该内容聚焦于一种特定的技术路径，即扩展预训练的通用语言模型，使其具备处理视觉信号的能力，从而完成视觉语言任务。

图像生成多模态教程/实践

4月7日

02:15

Sam Altman：Blog（RSS）

OpenAI 发布 DALL•E 2 研究版本，支持通过自然语言指令生成和编辑图像。作者认为这标志着计算机界面新趋势——自然语言交互，并指出与 Copilot 不同，DALL•E 2 能独立完成完整作品，可能率先冲击创意工作而非体力劳动，预示 AI 对劳动力市场的潜在影响。团队计划今年夏天正式产品化，当前采用渐进式部署策略以评估风险。

OpenAI 图像生成多模态模型发布