全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态一手 · 100 条

全部一手资讯 X 论文

标签「图像生成」清除

4月15日周三

18:00公众号：生数科技（Vidu·视频）30生数科技Vidu发布《AI漫剧视频模型行业白皮书V1.0》

4月10日周五

08:00OpenAI：官网动态（RSS · 排除企业/客户案例）使用 ChatGPT 创建图像

4月8日周三

15:01公众号：豆包（字节）23如何用豆包一键生成PPT？

4月1日周三

14:57公众号：通义实验室（千问）59Wan2.7-Image：人更真，字更稳，色更准

3月28日周六

22:34公众号：昆仑万维（天工）19昆仑万维携 SkyReels V4 与 Mureka V9 亮相2026中关村论坛，获高度赞誉

3月26日周四

12:10公众号：可灵AI（快手·视频）23周杰伦《太阳之子》AIMV创作挑战赛上线

3月21日周六

08:27Midjourney：Updates（RSS）V8 Alpha 推出 Relax 模式

3月18日周三

05:08Midjourney：Updates（RSS）V8 Alpha

3月10日周二

14:51公众号：生数科技（Vidu·视频）22Vidu 联合浦光星奕举办首届 AIGC 内容产业大会，聚焦 AI 短剧与视频大模型应用

3月8日周日

20:41公众号：小红书技术（dots.llm）47小红书 FireRed-Image-Edit v1.1 发布：OOTD元素融合、人像一致性大幅提升

3月5日周四

08:00Hugging Face：Blog（RSS）53介绍Modular Diffusers--扩散流程的可组合构建模块

3月4日周三

00:50Hugging Face：Blog（RSS）70精选PRX 第三部分 -- 24小时内训练一个文本到图像模型！

3月1日周日

21:08公众号：月之暗面（Kimi）12今日 Kimi Doodle：《月之暗面》专辑 53 周年

2月27日周五

04:13Midjourney：Updates（RSS）Rooms 功能下线通知

03:34Midjourney：Updates（RSS）个性化功能与网页端更新

2月21日周六

05:36Midjourney：Updates（RSS）V8 Rating Party 最终轮

2月19日周四

04:14Midjourney：Updates（RSS）V8 图像评分活动 Round 3

2月18日周三

06:22Midjourney：Updates（RSS）V8 Rating Party！（第二轮）

2月17日周二

07:32Midjourney：Updates（RSS）V8 评分活动更新

2月14日周六

09:59Midjourney：Updates（RSS）V8 评分活动

2月12日周四

18:22公众号：小红书技术（dots.llm）50小红书发布 FireRed-Image-Edit：图像编辑新 SOTA

2月11日周三

08:00蚂蚁百灵：Developer Blog（网页）83精选感知无界·创造有形：百灵全模态 Ming-flash-omni-2.0 焕新生活想象

2月10日周二

13:08Qwen：Blog Retrieval（API）Qwen-Image-2.0：专业信息图表与精美照片级真实感

2月3日周二

19:25Hugging Face：Blog（RSS）73精选文本到图像模型训练设计：来自消融研究的经验

17:46美团 LongCat：HuggingFace 新模型美团-longcat/LongCat-Image-Edit-Turbo

1月28日周三

15:51公众号：腾讯混元5710亿红包后，我们打算开源这个800亿的模型

1月21日周三

00:41Midjourney：Updates（RSS）Web 端更新

1月16日周五

00:00LMSYS：Blog（Chatbot Arena 团队）SGLang-Diffusion：发布两月进展综述

1月14日周三

00:00智谱：研究（网页内嵌数据）精选智谱联合华为开源首个国产芯片训练的多模态SOTA模型

1月10日周六

07:20Midjourney：Updates（RSS）精选Niji V7 正式发布！

12月31日周三

13:08Qwen：Blog Retrieval（API）Qwen-Image-2512：细节更精细，真实感更强

12月23日周二

13:08Qwen：Blog Retrieval（API）Qwen-Image-Edit-2511：提升一致性

12月19日周五

13:08Qwen：Blog Retrieval（API）Qwen-Image-Layered：通过分层分解实现内在可编辑性

12月18日周四

18:00公众号：小红书技术（dots.llm）42NeurIPS2025|小红书AIGC团队提出布局可控生成框架InstanceAssemble

12月5日周五

15:34美团 LongCat：HuggingFace 新模型美团 LongCat-Image-Edit 图像编辑项目

12月4日周四

21:02美团 LongCat：HuggingFace 新模型美团 LongCat-Image-Dev 开源图像项目

20:38美团 LongCat：HuggingFace 新模型美团-longcat/LongCat-Image

11月25日周二

08:00Hugging Face：Blog（RSS）80精选Diffusers 集成 FLUX-2 模型

11月20日周四

23:13Google DeepMind：Blog（RSS）Gemini 应用新增 AI 图像验证功能，可识别 SynthID 水印

23:05Google DeepMind：Blog（RSS）精选Google DeepMind 发布 Nano Banana Pro 图像生成模型

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

4月15日

18:00

公众号：生数科技（Vidu·视频）

30

生数科技Vidu发布《AI漫剧视频模型行业白皮书V1.0》

生数科技Vidu正式发布《AI漫剧视频模型行业白皮书V1.0》，该白皮书已上市。

图像生成行业动态视频

4月10日

08:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

使用 ChatGPT 创建图像

本文介绍如何运用清晰提示词在 ChatGPT 中创建并优化图像，支持设计迭代，可在数分钟内生成高质量视觉内容。

OpenAI 图像生成教程/实践

4月8日

15:01

公众号：豆包（字节）

23

如何用豆包一键生成PPT？

图像生成教程/实践

4月1日

14:57

公众号：通义实验室（千问）

59

Wan2.7-Image：人更真，字更稳，色更准

图像生成模型发布

3月28日

22:34

公众号：昆仑万维（天工）

19

昆仑万维携 SkyReels V4 与 Mureka V9 亮相2026中关村论坛，获高度赞誉

昆仑万维在2026中关村论坛上展示两大全球顶尖模型 SkyReels V4 和 Mureka V9，获得多方高度赞誉。

图像生成行业动态视频

3月26日

12:10

公众号：可灵AI（快手·视频）

23

周杰伦《太阳之子》AIMV创作挑战赛上线

可灵AI邀请创作者参与周杰伦新歌《太阳之子》AIMV创作挑战赛，用AI影像为旋律续写MV故事，具体参与方式及规则见活动页面。

图像生成行业动态视频

3月21日

08:27

Midjourney：Updates（RSS）

V8 Alpha 推出 Relax 模式

V8 Alpha Relax 模式已向 Standard/Pro/Mega 订阅者开放，支持所有生成命令，但不可同时使用 --hd 与 --q 4 参数。官方提示该模式可能存在资源耗尽风险。

产品更新图像生成

3月18日

05:08

Midjourney：Updates（RSS）

Midjourney 开放 V8 模型 Alpha 版本测试，用户可访问 alpha.midjourney.com 体验早期版本并提交反馈。V8 在提示词遵循能力上较此前版本有明显提升。

图像生成模型发布

3月10日

14:51

公众号：生数科技（Vidu·视频）

22

Vidu 联合浦光星奕举办首届 AIGC 内容产业大会，聚焦 AI 短剧与视频大模型应用

3月13日，Vidu 联合浦光星奕举办「AI新视界漫剧新潮流——首届AIGC内容产业大会」，邀请AI技术、影视制作、短剧平台和内容机构等领域嘉宾，共同探讨下一代内容产业机会。议题覆盖AIGC内容生产、AI短剧/AI漫剧、视频大模型应用及内容产业新商业模式。

图像生成行业动态视频

3月8日

20:41

公众号：小红书技术（dots.llm）

47

小红书 FireRed-Image-Edit v1.1 发布：OOTD元素融合、人像一致性大幅提升

小红书 Super Intelligence 团队在 FireRed-Image-Edit 1.0 发布不到一个月后推出 v1.1 版本，主要提升包括 OOTD（穿搭）元素融合、人像一致性大幅改进以及更强的社区友好特性。

图像生成多模态模型发布

3月5日

08:00

Hugging Face：Blog（RSS）

53

介绍Modular Diffusers--扩散流程的可组合构建模块

Hugging Face发布Modular Diffusers库，将扩散模型流程解构为独立模块（如调度器、VAE、UNet）。用户可像组合积木一样自由替换和组合组件，显著提升了模型实验的灵活性与可复现性，简化了自定义流程的创建。该库已开源，旨在支持快速创新。

Hugging Face 产品更新图像生成

3月4日

00:50

Hugging Face：Blog（RSS）

精选70

PRX 第三部分 -- 24小时内训练一个文本到图像模型！

Photoroom团队在Hugging Face上发布博客，宣布成功在24小时内完成一个文本到图像模型的训练。这一突破将此类模型的典型训练周期从数周大幅缩短至仅一天。实现的关键在于采用了名为PRX的高效训练方法，该方法优化了计算资源分配与数据处理流程。此举显著降低了模型训练的时间与成本门槛，为快速迭代和部署高质量的图像生成AI模型提供了新的可能性。

图像生成教程/实践数据/训练

推荐理由：Photoroom 分享 24h 内训练文生图模型的实战路径，想快速复现的团队可直接参考

3月1日

21:08

公众号：月之暗面（Kimi）

12

今日 Kimi Doodle：《月之暗面》专辑 53 周年

Kimi 推出 Kimi Doodle，纪念 Pink Floyd 经典专辑《月之暗面》发行 53 周年。用户可访问 kimi.com 或使用最新版 Kimi App 体验。配乐由 AI 生成，非专辑原音。

其他图像生成

2月27日

04:13

Midjourney：Updates（RSS）

Rooms 功能下线通知

Rooms 功能今日正式从网站移除。这一实验性尝试因试图同时解决过多问题而表现不佳，暴露了当前基础设施的不足，但为团队提供了关于社区需求的宝贵认知。

产品更新图像生成

03:34

Midjourney：Updates（RSS）

个性化功能与网页端更新

网页端推出全新个性化界面，用户可通过点击和滚动图片列表创建个性化档案，操作更快、更准确且更具趣味性。

产品更新图像生成

2月21日

05:36

Midjourney：Updates（RSS）

V8 Rating Party 最终轮

V8 图像评分活动进入最终轮，意味着 V8 发布临近。本轮将持续至最终版本上线，主要目标是校准个性化系统。

产品更新图像生成

2月19日

04:14

Midjourney：Updates（RSS）

V8 图像评分活动 Round 3

V8 图像评分活动进入第三轮。本轮重点从识别"差的"样本转向学习"好的"标准，与上一轮形成对比，邀请用户前往投票链接参与。

产品更新图像生成

2月18日

06:22

Midjourney：Updates（RSS）

V8 Rating Party！（第二轮）

Midjourney 开启 V8 第二轮评级活动，重点针对生成文本的提示词测试模型能力。用户可访问 midjourney.com/rank-v8 参与图片评级，活动持续1天。

产品更新图像生成

2月17日

07:32

Midjourney：Updates（RSS）

V8 评分活动更新

Midjourney 本周将再举办两场 V8 Rating Party，随后正式发布 V8 模型。用户可前往 midjourney.com/rank-v8 参与 Round 1 图片评分，当前反馈已直接用于模型优化。

图像生成模型发布

2月14日

09:59

Midjourney：Updates（RSS）

V8 评分活动

Midjourney V8 进入最后优化阶段，团队邀请用户访问 midjourney.com/rank-v8 参与图片评分。通过两两对比选择更美图片，帮助改进模型质量。

产品更新图像生成

2月12日

18:22

公众号：小红书技术（dots.llm）

50

小红书发布 FireRed-Image-Edit：图像编辑新 SOTA

小红书基础模型 FireRed-Image-Edit 在 GitHub 上正式亮相，该模型专注于图像编辑任务，并达到新的最佳性能（新 SOTA）。

GitHub 图像生成开源/仓库模型发布

2月11日

08:00

蚂蚁百灵：Developer Blog（网页）

精选83

感知无界·创造有形：百灵全模态 Ming-flash-omni-2.0 焕新生活想象

百灵全模态大模型Ming-flash-omni-2.0正式发布。该模型基于MoE架构，在视觉、语音、图像等全模态能力上实现代际跃迁，其核心突破在于一个统一模型同时具备了强大的通用泛化能力和特定模态的专家级表现。具体特色包括：视觉百科能精准识别万物并关联知识；语音生成可控制情绪、方言，提供百种音色，并能统一生成语音、音效与背景音乐；图像创作可实现氛围重构、场景合成与智能擦除。技术层面通过亿级数据细粒度感知、知识对齐及超低帧率音频表征等创新实现性能飞跃。模型已在多个平台开源。

图像生成多模态模型发布

关联讨论 1 条蚂蚁百灵：Developer Blog（网页）

推荐理由：国产全模态模型开源，多模态能力达领先水准，开发者可直接体验或集成。

2月10日

13:08

Qwen：Blog Retrieval（API）

Qwen-Image-2.0：专业信息图表与精美照片级真实感

Qwen-Image-2.0 发布，主打专业信息图表与照片级真实感图像生成。Qwen Studio 平台同步集成聊天、多模态理解、文档处理、网页搜索及工具调用等综合能力。

图像生成多模态模型发布

2月3日

19:25

Hugging Face：Blog（RSS）

精选73

文本到图像模型训练设计：来自消融研究的经验

Photoroom团队通过消融研究，总结了文本到图像模型训练的关键发现：混合高质量与多样化数据、在训练中后期引入强数据增强，以及调整无分类器引导的丢弃率，能有效优化模型性能。这些结论为Stable Diffusion等模型的训练提供了实用指导。

Hugging Face 图像生成论文/研究

推荐理由：为文本到图像模型训练提供实用优化建议，帮助开发者提升模型效果。

17:46

美团 LongCat：HuggingFace 新模型

美团-longcat/LongCat-Image-Edit-Turbo

美团-longcat发布LongCat-Image-Edit-Turbo图像编辑模型，秉持开源与开放科学理念推进人工智能技术的普及。该项目专注于图像编辑领域，旨在提供高效的图像处理能力。目前公开信息主要阐述项目愿景与使命，具体技术参数、性能指标及版本更新细节有待进一步披露。

Hugging Face 图像生成模型发布

1月28日

15:51

公众号：腾讯混元

57

10亿红包后，我们打算开源这个800亿的模型

图像生成开源生态模型发布

1月21日

00:41

Midjourney：Updates（RSS）

新增 6:11、4:5、5:4、21:9 四种宽高比选项；未使用 cref/oref 时自动去除 --cw/--ow 参数；自动清理 moodboard 任务中不支持的 weird 参数。

产品更新图像生成

1月16日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang-Diffusion：发布两月进展综述

SGLang-Diffusion 最新版本（lmsysorg/sglang:dev-pr-17247）性能较初始版本提升2.5倍，在NVIDIA GPU上较其他方案快5倍。新增Day-0支持Flux.2、Qwen-Image系列、Z-Image-Turbo等多款模型，完整支持LoRA格式与HTTP API，并推出ComfyUI集成插件。技术层面引入Layerwise Offload机制实现计算与权重加载重叠，支持SP/TP混合并行及SageAttention系列后端，兼容AMD、4090、5090及MUSA硬件。

图像生成开源/仓库部署/工程

1月14日

00:00

智谱：研究（网页内嵌数据）

精选

智谱联合华为开源首个国产芯片训练的多模态SOTA模型

智谱联合华为开源多模态生成模型GLM-Image，为首款基于国产昇腾芯片与MindSpore框架全流程训练的SOTA模型。采用9B自回归与7B扩散解码器混合架构，在CVTG-2K复杂视觉文字生成和LongText-Bench长文本渲染榜单均位列开源第一，支持1024×1024至2048×2048多分辨率生成。API调用成本0.1元/张，代码已开源至GitHub、Hugging Face及魔搭社区。

图像生成开源生态模型发布部署/工程

推荐理由：首个国产昇腾芯片训练的SOTA多模态模型开源，文字渲染能力开源第一，生成一张图仅需0.1元

1月10日

07:20

Midjourney：Updates（RSS）

精选

Niji V7 正式发布！

Niji V7 图像模型正式上线。该版本专为亚洲及动漫场景优化，改进了动漫连贯性、提示词理解能力、文字渲染效果及 sref 性能。

图像生成模型发布

推荐理由：Midjourney 动漫专用模型 Niji V7 发布，生成质量再升级

12月31日

13:08

Qwen：Blog Retrieval（API）

Qwen-Image-2512：细节更精细，真实感更强

Qwen-Image-2512 发布，图像细节与真实感显著提升。Qwen Studio 平台提供聊天、图像视频理解/生成、文档处理、网页搜索、工具调用及 artifacts 等全功能支持。

图像生成模型发布

12月23日

13:08

Qwen：Blog Retrieval（API）

Qwen-Image-Edit-2511：提升一致性

Qwen Studio 集成聊天机器人、图像与视频理解、图像生成、文档处理、联网搜索、工具调用及 artifacts 等全栈 AI 功能。

产品更新图像生成多模态

12月19日

13:08

Qwen：Blog Retrieval（API）

Qwen-Image-Layered：通过分层分解实现内在可编辑性

Qwen Studio 集成聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索、工具调用及 Artifacts 等全栈能力，提供一站式多模态 AI 服务。

其他图像生成

12月18日

18:00

公众号：小红书技术（dots.llm）

42

NeurIPS2025|小红书AIGC团队提出布局可控生成框架InstanceAssemble

小红书AIGC团队在NeurIPS2025上提出全新布局可控生成框架InstanceAssemble，专用于复杂场景下的Layout-to-Image任务。该框架通过从布局条件中引导图像生成，实现了对多对象位置、大小及空间关系的精确控制，解决了现有模型在密集布局下对象漏生、重叠等难题。

图像生成多模态论文/研究

12月5日

15:34

美团 LongCat：HuggingFace 新模型

美团 LongCat-Image-Edit 图像编辑项目

美团发布 LongCat-Image-Edit 图像编辑项目，致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 技术应用门槛，通过开放协作促进全球开发者共同参与技术创新，推动先进图像编辑能力的广泛可及。

Hugging Face 图像生成模型发布

12月4日

21:02

美团 LongCat：HuggingFace 新模型

美团 LongCat-Image-Dev 开源图像项目

美团发布 LongCat-Image-Dev 开源项目，致力于通过开源和开放科学推进人工智能技术的普及与民主化。该项目作为 LongCat 系列的图像开发版本，旨在降低 AI 技术门槛，促进全球开发者协作创新，体现了美团在人工智能领域拥抱开源生态的战略布局。

Hugging Face 图像生成模型发布

20:38

美团 LongCat：HuggingFace 新模型

美团-longcat/LongCat-Image

美团-longcat 推出 LongCat-Image 开源项目，致力于通过开源协作与开放科学研究推进人工智能技术的进步与民主化。该项目旨在降低 AI 技术门槛，打破技术壁垒，让先进的 AI 能力更加普惠可及，体现了通过开放生态促进 AI 技术普及的战略愿景。

Hugging Face 图像生成模型发布

11月25日

08:00

Hugging Face：Blog（RSS）

精选80

Diffusers 集成 FLUX-2 模型

Hugging Face 的 Diffusers 库正式集成 Black Forest Labs 开发的 FLUX-2 文生图模型。该模型拥有 120 亿参数，采用多模态扩散 Transformer 架构，在图像质量、提示遵循和分辨率方面表现优异，支持生成 1024x1024 像素图像。此次集成让开发者能通过 Diffusers API 便捷使用这一先进模型。

Hugging Face 图像生成模型发布

推荐理由：FLUX-2 图像生成模型正式进入 Diffusers 生态，本地部署和微调更便捷

11月20日

23:13

Google DeepMind：Blog（RSS）

Gemini 应用新增 AI 图像验证功能，可识别 SynthID 水印

Google 在 Gemini 应用中上线 AI 图像验证工具，用户上传图片即可查询是否由 Google AI 生成或编辑。该功能通过检测 SynthID 数字水印实现，该技术已应用于超 200 亿个 AI 生成内容。未来验证范围将扩展至视频和音频，并支持 C2PA 内容凭证标准。本周起，Nano Banana Pro（Gemini 3 Pro Image）在 Gemini、Vertex AI 和 Google Ads 中生成的图像将嵌入 C2PA 元数据，未来还将支持验证 Google 生态系统外的模型生成内容。

DeepMind Google 产品更新图像生成

23:05

Google DeepMind：Blog（RSS）

精选

Google DeepMind 发布 Nano Banana Pro 图像生成模型

Google DeepMind 发布 Nano Banana Pro 图像生成模型，基于 Gemini 3 Pro 构建，支持多语言可读文本直接渲染，可结合 Google Search 实时信息生成信息图表。该模型支持 14 张图像融合，保持 5 个人物形象一致性，输出 4K 分辨率。现已集成至 Gemini 应用、Google Ads、Google AI Studio 等产品，所有生成内容均嵌入 SynthID 水印以确保透明度。

DeepMind Google 图像生成多模态

关联讨论 2 条Google DeepMind：Blog（RSS）Ethan Mollick：One Useful Thing（RSS）

推荐理由：Google 发布 Nano Banana Pro 图像生成模型，支持多语言文本渲染与 4K 输出