全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「图像生成」清除

4月12日周日

04:51TestingCatalog News 🗞Google 正为 Mixboard 实验项目开发语音模式及全新协作工具

4月11日周六

08:00HuggingFace Daily Papers（社区热门论文）EditCrafter：基于预训练扩散模型的无需微调高分辨率图像编辑方法

03:15Ethan MollickAI 还原拉斐尔《雅典学院》原貌，Seedance 2.0 生动演绎柏拉图与亚里士多德的思想交锋

00:32AKMegaStyle：通过一致文本到图像风格映射构建多样化可扩展风格数据集

00:08Google Gemini把你最爱的照片变成剪纸风 ✂️

4月10日周五

22:58TestingCatalog News 🗞Meta 计划近期通过 API 发布 Muse Spark

08:00HuggingFace Daily Papers（社区热门论文）层次化SVG分词：面向可缩放矢量图形建模的紧凑视觉程序学习

08:00OpenAI：官网动态（RSS · 排除企业/客户案例）使用 ChatGPT 创建图像

06:32TestingCatalog News 🗞Google 为 Stitch 开发 Style Tuner，支持为生成设计选择更匹配的颜色

01:15AKThink in Strokes， Not Pixels：基于交错推理的过程驱动图像生成

4月9日周四

07:32宝玉双方案生成手绘风教育信息图提示词

4月8日周三

15:01公众号：豆包（字节）23如何用豆包一键生成PPT？

08:00HuggingFace Daily Papers（社区热门论文）39MoZoo：释放扩散模型在动物毛发与肌肉模拟中的能力

4月1日周三

18:17karminski-牙医阿里 WAN-2.7-Image 发布：图像生成与修图能力升级

14:57公众号：通义实验室（千问）59Wan2.7-Image：人更真，字更稳，色更准

01:30Google Gemini在 Gemini 中使用 Nano Banana 2 生成超凡脱俗的个性化图像

3月28日周六

22:34公众号：昆仑万维（天工）19昆仑万维携 SkyReels V4 与 Mureka V9 亮相2026中关村论坛，获高度赞誉

3月26日周四

12:10公众号：可灵AI（快手·视频）23周杰伦《太阳之子》AIMV创作挑战赛上线

3月25日周三

08:00HuggingFace Daily Papers（社区热门论文）41Realiz3D：通过领域感知学习实现照片级真实的3D生成

3月21日周六

08:27Midjourney：Updates（RSS）V8 Alpha 推出 Relax 模式

3月20日周五

22:54Google Gemini超爱这些创作，快来试试，在回复里分享你的作品 👇

01:25Satya Nadella精选Superintelligence 团队新图像模型 MAI-Image-2 登陆 Copilot，即将上架 Foundry 企业版

3月18日周三

05:08Midjourney：Updates（RSS）V8 Alpha

3月10日周二

14:51公众号：生数科技（Vidu·视频）22Vidu 联合浦光星奕举办首届 AIGC 内容产业大会，聚焦 AI 短剧与视频大模型应用

3月8日周日

20:41公众号：小红书技术（dots.llm）47小红书 FireRed-Image-Edit v1.1 发布：OOTD元素融合、人像一致性大幅提升

3月5日周四

08:00Hugging Face：Blog（RSS）53介绍Modular Diffusers--扩散流程的可组合构建模块

3月4日周三

00:50Hugging Face：Blog（RSS）70精选PRX 第三部分 -- 24小时内训练一个文本到图像模型！

3月2日周一

21:02Google DeepMindNano Banana 2 让复杂的视觉创作更快、更便宜，且人人可及。🍌 点击每张照片查看详情 👀

3月1日周日

21:08公众号：月之暗面（Kimi）12今日 Kimi Doodle：《月之暗面》专辑 53 周年

2月27日周五

04:13Midjourney：Updates（RSS）Rooms 功能下线通知

03:34Midjourney：Updates（RSS）个性化功能与网页端更新

00:02Google DeepMind精选我们推出 Nano Banana 2，基于最新的 Gemini Flash 模型构建。🍌 它在创建和编辑图像方面达到最先进水平，将专业级功能与闪电般的速度相结合。🧵

2月21日周六

05:36Midjourney：Updates（RSS）V8 Rating Party 最终轮

2月19日周四

04:14Midjourney：Updates（RSS）V8 图像评分活动 Round 3

2月18日周三

06:22Midjourney：Updates（RSS）V8 Rating Party！（第二轮）

2月17日周二

07:32Midjourney：Updates（RSS）V8 评分活动更新

2月14日周六

09:59Midjourney：Updates（RSS）V8 评分活动

2月12日周四

18:22公众号：小红书技术（dots.llm）50小红书发布 FireRed-Image-Edit：图像编辑新 SOTA

2月11日周三

08:00蚂蚁百灵：Developer Blog（网页）83精选感知无界·创造有形：百灵全模态 Ming-flash-omni-2.0 焕新生活想象

2月10日周二

13:08Qwen：Blog Retrieval（API）Qwen-Image-2.0：专业信息图表与精美照片级真实感

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

4月12日

04:51

TestingCatalog News 🗞@testingcatalog

Google Mixboard 实验项目新增语音模式，支持语音命令生成、编辑和移动图片，以及语音笔记功能。类似 Stitch 的交互方式，适用于团队协作场景，如回顾会议中直接语音输入反馈。

Google 产品更新图像生成语音

4月11日

08:00

HuggingFace Daily Papers（社区热门论文）

EditCrafter：基于预训练扩散模型的无需微调高分辨率图像编辑方法

研究团队提出 EditCrafter 方法，实现无需微调的高分辨率图像编辑，突破传统扩散模型仅支持 512×512 或 1024×1024 训练分辨率的限制。该方法通过分块反演技术保留原始图像特征，并引入 ND-CFG++（噪声阻尼流形约束无分类器引导）机制，有效解决分块编辑导致的结构失真与重复问题，可在任意长宽比的高分辨率图像上直接生成高质量编辑结果。

图像生成多模态论文/研究

03:15

Ethan Mollick@emollick

Seedance 2.0 用 AI 技术重新诠释拉斐尔名作《雅典学院》，呈现柏拉图与亚里士多德之间的微妙冲突与思想张力。生成效果有趣，可玩性高。

图像生成现象/趋势视频

00:32

AK@_akhaliq

MegaStyle 提出通过一致文本到图像风格映射构建多样化可扩展风格数据集的方案，论文已发布至 Hugging Face（2604.08364）。

Hugging Face 图像生成论文/研究

00:08

Google Gemini@GeminiApp

Gemini 支持将上传的照片转换为剪纸/折纸风格。用户在桌面端或 App 中选择"Create image"工具，上传图片并输入特定提示词即可生成，可在回复中分享创作成果。

Google 产品更新图像生成

4月10日

22:58

TestingCatalog News 🗞@testingcatalog

Meta 即将通过 API 发布 Muse Spark，作者同时期待能体验 Meta 的 9B 模型（如果最终发布）。

AI at Meta: 🔜

Meta 图像生成模型发布

08:00

HuggingFace Daily Papers（社区热门论文）

层次化SVG分词：面向可缩放矢量图形建模的紧凑视觉程序学习

针对现有SVG生成方法采用字节级分词破坏几何结构、导致坐标幻觉和序列冗余的问题，本文提出HiVG层次化分词框架。该方法将SVG字符串分解为结构化原子token，并压缩命令-参数组为几何约束的段token，同时引入Hierarchical Mean-Noise初始化策略注入数值先验，结合课程训练逐步提升程序复杂度。实验表明，HiVG在文本到SVG和图像到SVG任务中显著提升了生成保真度、空间一致性和序列效率。

arXiv 图像生成多模态论文/研究

08:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

使用 ChatGPT 创建图像

本文介绍如何运用清晰提示词在 ChatGPT 中创建并优化图像，支持设计迭代，可在数分钟内生成高质量视觉内容。

OpenAI 图像生成教程/实践

06:32

TestingCatalog News 🗞@testingcatalog

Google 正为 AI 设计工具 Stitch 开发 Style Tuner 功能，支持用户为生成设计手动选择更合适的颜色方案，改善 AI 生成结果的配色适配度。

Google 产品更新图像生成

01:15

AK@_akhaliq

新论文提出过程驱动的图像生成方法，通过交错推理模拟绘画笔触的创作过程，而非直接生成像素，实现更符合人类作画逻辑的图像合成。

Hugging Face 图像生成推理论文/研究

4月9日

07:32

宝玉@dotey

双方案生成手绘风教育信息图提示词

推文提供生成手绘风教育信息图的两种AI方案。方案一基于baoyu-skills的baoyu-article-illustrator或baoyu-cover-image skill，调用hand-drawn-edu风格直接生成。方案二为详细提示词模板，定义奶油纸质感背景、马卡龙配色、手绘抖动线条等视觉规范，强调图形优先原则，支持自动适配流程、对比、循环等布局结构，并规范了文字层次与装饰细节。

图像生成教程/实践

4月8日

15:01

公众号：豆包（字节）

23

如何用豆包一键生成PPT？

图像生成教程/实践

08:00

HuggingFace Daily Papers（社区热门论文）

39

MoZoo：释放扩散模型在动物毛发与肌肉模拟中的能力

MoZoo是一个生成式动力学求解器，能绕过传统精炼流程，从粗糙网格直接合成高保真的动物视频。其核心是角色感知旋转位置编码RAR-RoPE，通过基于角色的索引重映射同步运动对齐；同时引入非对称解耦注意力机制，强制单向信息流以防止特征干扰并提升效率。为解决训练数据稀缺问题，提出了MoZoo-Data合成到真实的流水线，并构建了包含120对网格-视频的评测基准MoZooBench。实验表明，MoZoo在多样动物骨架与布局上实现了高保真的毛发模拟，并保持了优异的时间与结构一致性。

图像生成多模态数据/训练论文/研究

4月1日

18:17

karminski-牙医@karminski3

阿里 WAN-2.7-Image 发布：图像生成与修图能力升级

阿里发布 WAN-2.7-Image 图像生成与修图大模型，重点优化了人物生成美观度与文本渲染精准度。该模型支持文生图及图像编辑功能，博主对其文本到图像生成能力进行了初步测试。作为阿里万相系列最新版本，WAN-2.7-Image 在视觉质量和语义理解方面展现出改进，为创作者提供更精准的图像生成工具。

图像生成模型发布

14:57

公众号：通义实验室（千问）

59

Wan2.7-Image：人更真，字更稳，色更准

图像生成模型发布

01:30

Google Gemini@GeminiApp

Gemini 上线 Nano Banana 2 图像生成功能，支持创建个性化图像。官方邀请用户尝试体验并在回复区分享作品。

Google 产品更新图像生成

3月28日

22:34

公众号：昆仑万维（天工）

19

昆仑万维携 SkyReels V4 与 Mureka V9 亮相2026中关村论坛，获高度赞誉

昆仑万维在2026中关村论坛上展示两大全球顶尖模型 SkyReels V4 和 Mureka V9，获得多方高度赞誉。

图像生成行业动态视频

3月26日

12:10

公众号：可灵AI（快手·视频）

23

周杰伦《太阳之子》AIMV创作挑战赛上线

可灵AI邀请创作者参与周杰伦新歌《太阳之子》AIMV创作挑战赛，用AI影像为旋律续写MV故事，具体参与方式及规则见活动页面。

图像生成行业动态视频

3月25日

08:00

HuggingFace Daily Papers（社区热门论文）

41

Realiz3D：通过领域感知学习实现照片级真实的3D生成

Realiz3D是一个轻量级扩散模型训练框架，旨在解决3D生成中因使用合成数据微调预训练模型而导致的控制信号与合成外观不当关联问题，从而避免真实性下降。该方法通过引入协变量和小型残差适配器，将视觉领域（真实或合成）与其他控制信号（如几何、材质和视角）解耦，使模型在应用精确控制时仍能保持照片级真实感。基于对扩散模型不同层和去噪步骤作用的洞察，框架提出了新的训练与推理策略，增强了控制向真实领域的可迁移性。实验表明，在文本到多视图生成和3D输入纹理化等任务中，Realiz3D能同时保证3D一致性与高真实感，有效克服了领域差距带来的挑战。

图像生成多模态论文/研究

3月21日

08:27

Midjourney：Updates（RSS）

V8 Alpha 推出 Relax 模式

V8 Alpha Relax 模式已向 Standard/Pro/Mega 订阅者开放，支持所有生成命令，但不可同时使用 --hd 与 --q 4 参数。官方提示该模式可能存在资源耗尽风险。

产品更新图像生成

3月20日

22:54

Google Gemini@GeminiApp

分享一个 Nano Banana 提示词，可生成 2×2 网格的 3D 字体雕塑，将 4 个重要历史年份及其代表性发明以复古科技或蒸汽朋克风格立体呈现。提示词包含锚点定义、形态构建、材质物理和光照渲染等详细参数，直接复制即可使用。欢迎尝试并在回复中晒出你的生成结果。

Gadgetify: I asked Nano Banana to draw me 4 important years in history with their inventions. Interesting output Prompt: 2x2 grid, ...

Google 图像生成多模态教程/实践

01:25

Satya Nadella@satyanadella

精选

MAI-Image-2 图像生成模型已在 MAI Playground 上线，竞技场排名第 3，支持从写实风格到详细信息图等多种生成需求。即将集成至 Copilot、Bing Image Creator 及 Microsoft Foundry，面向企业客户开放。

Mustafa Suleyman: Our new image generator MAI-Image-2 is out! Available now on MAI Playground for everything from lifelike realism to deta...

Microsoft 图像生成模型发布

推荐理由：微软 CEO 宣布 Superintelligence 团队新图像模型 MAI-Image-2 发布，竞技场排名第三

3月18日

05:08

Midjourney：Updates（RSS）

Midjourney 开放 V8 模型 Alpha 版本测试，用户可访问 alpha.midjourney.com 体验早期版本并提交反馈。V8 在提示词遵循能力上较此前版本有明显提升。

图像生成模型发布

3月10日

14:51

公众号：生数科技（Vidu·视频）

22

Vidu 联合浦光星奕举办首届 AIGC 内容产业大会，聚焦 AI 短剧与视频大模型应用

3月13日，Vidu 联合浦光星奕举办「AI新视界漫剧新潮流——首届AIGC内容产业大会」，邀请AI技术、影视制作、短剧平台和内容机构等领域嘉宾，共同探讨下一代内容产业机会。议题覆盖AIGC内容生产、AI短剧/AI漫剧、视频大模型应用及内容产业新商业模式。

图像生成行业动态视频

3月8日

20:41

公众号：小红书技术（dots.llm）

47

小红书 FireRed-Image-Edit v1.1 发布：OOTD元素融合、人像一致性大幅提升

小红书 Super Intelligence 团队在 FireRed-Image-Edit 1.0 发布不到一个月后推出 v1.1 版本，主要提升包括 OOTD（穿搭）元素融合、人像一致性大幅改进以及更强的社区友好特性。

图像生成多模态模型发布

3月5日

08:00

Hugging Face：Blog（RSS）

53

介绍Modular Diffusers--扩散流程的可组合构建模块

Hugging Face发布Modular Diffusers库，将扩散模型流程解构为独立模块（如调度器、VAE、UNet）。用户可像组合积木一样自由替换和组合组件，显著提升了模型实验的灵活性与可复现性，简化了自定义流程的创建。该库已开源，旨在支持快速创新。

Hugging Face 产品更新图像生成

3月4日

00:50

Hugging Face：Blog（RSS）

精选70

PRX 第三部分 -- 24小时内训练一个文本到图像模型！

Photoroom团队在Hugging Face上发布博客，宣布成功在24小时内完成一个文本到图像模型的训练。这一突破将此类模型的典型训练周期从数周大幅缩短至仅一天。实现的关键在于采用了名为PRX的高效训练方法，该方法优化了计算资源分配与数据处理流程。此举显著降低了模型训练的时间与成本门槛，为快速迭代和部署高质量的图像生成AI模型提供了新的可能性。

图像生成教程/实践数据/训练

推荐理由：Photoroom 分享 24h 内训练文生图模型的实战路径，想快速复现的团队可直接参考

3月2日

21:02

Google DeepMind@GoogleDeepMind

Nano Banana 2 让复杂的视觉创作更快、更便宜，且人人可及。🍌 点击每张照片查看详情 👀

DeepMind 图像生成模型发布端侧

3月1日

21:08

公众号：月之暗面（Kimi）

12

今日 Kimi Doodle：《月之暗面》专辑 53 周年

Kimi 推出 Kimi Doodle，纪念 Pink Floyd 经典专辑《月之暗面》发行 53 周年。用户可访问 kimi.com 或使用最新版 Kimi App 体验。配乐由 AI 生成，非专辑原音。

其他图像生成

2月27日

04:13

Midjourney：Updates（RSS）

Rooms 功能下线通知

Rooms 功能今日正式从网站移除。这一实验性尝试因试图同时解决过多问题而表现不佳，暴露了当前基础设施的不足，但为团队提供了关于社区需求的宝贵认知。

产品更新图像生成

03:34

Midjourney：Updates（RSS）

个性化功能与网页端更新

网页端推出全新个性化界面，用户可通过点击和滚动图片列表创建个性化档案，操作更快、更准确且更具趣味性。

产品更新图像生成

00:02

Google DeepMind@GoogleDeepMind

精选

我们推出 Nano Banana 2，基于最新的 Gemini Flash 模型构建。🍌 它在创建和编辑图像方面达到最先进水平，将专业级功能与闪电般的速度相结合。🧵

DeepMind 图像生成模型发布端侧

关联讨论 1 条X：Google DeepMind (@GoogleDeepMind)

推荐理由：端侧手机本地实现Pro级图像生成与编辑，AI创作无需云端等待

2月21日

05:36

Midjourney：Updates（RSS）

V8 Rating Party 最终轮

V8 图像评分活动进入最终轮，意味着 V8 发布临近。本轮将持续至最终版本上线，主要目标是校准个性化系统。

产品更新图像生成

2月19日

04:14

Midjourney：Updates（RSS）

V8 图像评分活动 Round 3

V8 图像评分活动进入第三轮。本轮重点从识别"差的"样本转向学习"好的"标准，与上一轮形成对比，邀请用户前往投票链接参与。

产品更新图像生成

2月18日

06:22

Midjourney：Updates（RSS）

V8 Rating Party！（第二轮）

Midjourney 开启 V8 第二轮评级活动，重点针对生成文本的提示词测试模型能力。用户可访问 midjourney.com/rank-v8 参与图片评级，活动持续1天。

产品更新图像生成

2月17日

07:32

Midjourney：Updates（RSS）

V8 评分活动更新

Midjourney 本周将再举办两场 V8 Rating Party，随后正式发布 V8 模型。用户可前往 midjourney.com/rank-v8 参与 Round 1 图片评分，当前反馈已直接用于模型优化。

图像生成模型发布

2月14日

09:59

Midjourney：Updates（RSS）

V8 评分活动

Midjourney V8 进入最后优化阶段，团队邀请用户访问 midjourney.com/rank-v8 参与图片评分。通过两两对比选择更美图片，帮助改进模型质量。

产品更新图像生成

2月12日

18:22

公众号：小红书技术（dots.llm）

50

小红书发布 FireRed-Image-Edit：图像编辑新 SOTA

小红书基础模型 FireRed-Image-Edit 在 GitHub 上正式亮相，该模型专注于图像编辑任务，并达到新的最佳性能（新 SOTA）。

GitHub 图像生成开源/仓库模型发布

2月11日

08:00

蚂蚁百灵：Developer Blog（网页）

精选83

感知无界·创造有形：百灵全模态 Ming-flash-omni-2.0 焕新生活想象

百灵全模态大模型Ming-flash-omni-2.0正式发布。该模型基于MoE架构，在视觉、语音、图像等全模态能力上实现代际跃迁，其核心突破在于一个统一模型同时具备了强大的通用泛化能力和特定模态的专家级表现。具体特色包括：视觉百科能精准识别万物并关联知识；语音生成可控制情绪、方言，提供百种音色，并能统一生成语音、音效与背景音乐；图像创作可实现氛围重构、场景合成与智能擦除。技术层面通过亿级数据细粒度感知、知识对齐及超低帧率音频表征等创新实现性能飞跃。模型已在多个平台开源。

图像生成多模态模型发布

关联讨论 1 条蚂蚁百灵：Developer Blog（网页）

推荐理由：国产全模态模型开源，多模态能力达领先水准，开发者可直接体验或集成。

2月10日

13:08

Qwen：Blog Retrieval（API）

Qwen-Image-2.0：专业信息图表与精美照片级真实感

Qwen-Image-2.0 发布，主打专业信息图表与照片级真实感图像生成。Qwen Studio 平台同步集成聊天、多模态理解、文档处理、网页搜索及工具调用等综合能力。

图像生成多模态模型发布

1…26 272829 30