图像生成最新动态与精选 · AI HOT

Topic · 主题全部主题 →

图像生成

AI 画图的最前线：文生图模型迭代、图像编辑能力与创作工具生态的全部动态。

1,233条收录

109条精选

● 持续更新

近期焦点近 14 天 · 按多源报道热度

1Google DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni Flash704 家源
2OpenRouter推出统一图像API732 家源
3Krea 2 技术报告正式发布712 家源

7月1日

01:29

Apple：Newsroom（RSS）

精选66

Apple Creator Studio 更新：更智能、更快速、更互联

Apple Creator Studio 推出多项 AI 增强更新。Final Cut Pro 新增 on-device AI 驱动的 Generate Captions（自动转录音频生成字幕）和 Edit Detection（自动检测剪辑点）。Mac 版加入 Auto Mask（自动识别皮肤、天空等主体）、增强的 Match Color 和 Advanced Trimming。支持将帧发送至 Pixelmator Pro 编辑，并在 Keynote、Pages、Numbers 中直接调用 Pixelmator Pro 修改图片。Logic Pro 新增 Grammy 制作人制作的 Producer Project 及 Chord ID 改进。订阅价 $12.99/月或 $129/年，新用户免费试用一个月，教育用户 $2.99/月。

产品更新图像生成语音

推荐理由：Final Cut Pro 的自动字幕和遮罩是实打实的工作流提升，Pixelmator Pro 的深度整合也让设计更顺畅，虽然没有颠覆性突破，但创意工作者今天就能用上。

00:08

Google DeepMind：Blog（RSS）

精选70

Google DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni Flash

Google DeepMind 推出 Nano Banana 2 Lite（gemini-3.1-flash-lite-image），为 Nano Banana 系列速度最快、成本最低的图像模型，文本到图像输出仅需 4 秒，每 1K 分辨率图像成本 $0.034，已上线 Google AI Studio、Gemini API 及消费者产品（AI Mode in Search、Gemini app 等）。同时推出 Gemini Omni Flash（gemini-omni-flash-preview），支持高画质视频生成与对话式编辑，视频输出定价 $0.10/秒，面向开发者开放 API。

Google 图像生成多模态模型发布

关联讨论 3 条

推荐理由：Nano Banana 2 Lite 把图像生成拉到 4 秒延迟和 0.034 美元单价，很适合高频草稿流，Omni Flash 首次对开发者开放视频生成和对话编辑，两个模型串起来的快速迭代工作流是这次最实用的更新。

6月26日

09:27

小互@xiaohu

精选81

小互开源个人IP配图技能"小互IP Studio"，含31个原创角色

博主小互开源个人IP配图技能“小互IP Studio”，包含31个原创角色（15个手绘线稿角色+16个谐音梗meme形象）及一套配图方法论。该Agent可自动读取文章、规划配图类型（情绪图/示意图/四格漫画）、生成并自查返工。默认画风为手绘线稿淡彩，另备5种皮肤（3D盲盒、黑白线稿等）可切换。安装仅需Python3，支持Claude Code、Codex等工具，需自备OpenAI兼容的图像API key（默认GPT-image-2）；也可只输出提示词手动生图。

智能体 GitHub 图像生成开源/仓库

推荐理由：小互开源了一整套AI配图skill和31个原创角色，把“读文-定图-生图-自查”的流程装进一个命令，自媒体人装上就能用，省去调提示词的痛苦。

03:12

Midjourney@midjourney

精选67

Midjourney 带来两项更新。一是加入 `--preview` 参数可提前体验 V8.2 的美学与个性化效果；二是此前在 V8.1 推出的大批量草稿模式（生成 24 张低分辨率图，价格仅为标准 4 张的一半，点击 "Vary" 可升级为全分辨率）现在支持搭配 `--sref random` 使用，探索风格空间的速度比之前快 24 倍。

Midjourney: We've released a new big-batch draft mode for V8.1. This new mode lets you generate 24 lower resolution images at the ha...

产品更新图像生成

推荐理由：新草稿模式让批量探索风格变得便宜又快速，配上 sref random 更是把试错效率拉满，设计师能直接用到工作流里。V8.2 预览只是小彩蛋，但暗示美学调校还在进化。

02:57

Midjourney：Updates（RSS）

精选62

Midjourney V8.1 草稿模式新增随机风格功能

Midjourney V8.1 的草稿模式（draft mode）添加了随机风格功能。用户在提示词中加入 --sref random 即可一键生成 24 张不同风格的图片。开启草稿模式可通过点击提示栏的 ⚡ 图标或添加 --draft 参数。

产品更新图像生成

推荐理由：Midjourney 在 V8.1 草稿模式加了随机风格，一键出 24 种草图，对找灵感的创作者算顺手小升级，但改变不了核心创作流程，只适合深度用户尝鲜。

6月24日

19:31

OpenRouter：Announcements（RSS）

精选73

OpenRouter推出统一图像API

OpenRouter推出统一图像API，整合Google、OpenAI、Black Forest Labs、Recraft、ByteDance、Sourceful、Microsoft、xAI等30+模型。新API提供标准化请求格式，通过/api/v1/images/models端点返回每个模型的分辨率、宽高比、输出数量、输入参考图数量、种子等能力描述；通过/api/v1/images/models/{id}/endpoints端点获取具体服务商的定价与参数支持（如Seedream 4.5每张$0.04、FLUX.2 Pro每百万像素$0.03、GPT-5.4 Image 2按token计费）。OpenAI的GPT 5系列图像模型支持SSE流式预览，启用"stream": true即可边生成边返回预览。新图像模型将仅添加至专用API，建议现有用户切换。

智能体产品更新图像生成多模态

关联讨论 1 条

推荐理由：OpenRouter 把 30+ 图像模型收进一个 API，参数自动发现和流式预览让频繁切换模型的开发者省去不少适配麻烦，尤其对 Agent 工作流很友好。

01:37

Krea@krea_ai

精选71

我们的技术报告已发布。深入解析创建 Krea 2 所用的数据、架构及训练技巧。 https://www.krea.ai/blog/krea-2-technical-report

Krea: today, we release the open weights of Krea 2. welcome Krea 2 Raw and Krea 2 Turbo, an undistilled model from mid-trainin...

图像生成开源生态模型发布

关联讨论 1 条

推荐理由：Krea 2 开源了两个图像模型权重，一个未蒸馏适合微调，一个快速蒸馏版覆盖多样审美。对于做图像生成应用和模型融合的团队，这次开放权重比很多大厂都实在。

6月21日

13:00

公众号：腾讯元宝

精选64

腾讯元宝父亲节活动：上传照片生成与年轻爸爸的合影

腾讯元宝推出父亲节主题活动，用户可选择爸爸年轻时照片与自己的照片，输入提示词（如“帮我生成一张和爸爸的合影，将图2的我融合到图1爸爸的照片中，我想穿越回__年前，和他一起_____；保留爸爸照片的背景、动作及五官；人物姿态自然协调，整体光线与色调保持一致”），元宝即可生成合影。活动旨在让用户“回到过去”看到爸爸的青春模样。

图像生成教程/实践

推荐理由：元宝的父亲节营销，但合影生成指令写得具体可复现，比普通AI写真教程更接地气，父亲节想整活的可以直接抄作业。

6月18日

19:47

Hacker News 热门（buzzing.cc 中文翻译）

精选79

ChatGPT 图像生成器可被绕过滤镜生成暴力和色情内容

Mindgard 红队研究发现，ChatGPT 的图像生成器可通过简单提示词轻易绕过内容过滤器，在未直接请求的情况下自动生成性暴力、血腥谋杀等露骨图像。一个热门的“恢复照片”提示词因输入模糊而绕过输入过滤器，结果如同俄罗斯轮盘赌；进一步添加虚假图像 ID 和“不做审查”指令后，模型持续生成高度性化女性图像，甚至出现被捆绑殴打的尸体，并自动赋予惊悚标题。研究指出，OpenAI 此前声称修复的裸体问题仍未解决，暴露了 AI 工具广泛可及性与不足内容过滤的现实风险。

OpenAI 图像生成安全/对齐

推荐理由：这是自 ChatGPT 图片功能上线以来最严重的安全漏洞曝光，Mindgard 用简单句子就绕过所有 filter 直接生成极端暴力色情图片，OpenAI 的回应和处理令人失望，暴露了训练数据治理的根本问题。

15:54

向阳乔木@vista8

精选79

免费开源乔木画布：AI生图+抠图，一键部署Vercel

乔木画布推出免费开源在线图像编辑器，可一键部署Vercel为网站，功能类似简化版PS。支持Seedream和GPT-image-2生图、图片模板存储分享、一键抠图、2万图标和常见Emoji，甚至能绘制PRD。随时创建3:4/16:9/21:9等不同尺寸画布。原计划高级功能收费，庆祝端午节现全免费开源。在线体验：https://ps.qiaomu.ai/，GitHub见评论区。

OpenAI 图像生成开源/仓库开源生态

推荐理由：这个开源画布把AI生图和简易设计工具打包，一键部署Vercel，对偶尔做图的产品人和开发者很友好，全免费开源的诚意值得点开收藏。

09:45

Midjourney@midjourney

精选71

我们全新"Midjourney Scanner"的技术深潜。

产品更新图像生成

推荐理由：Midjourney 官方放出 Scanner 的技术深度解读，我觉得它把传统扫描和生成式 AI 结合的方式挺有启发，不只是一个滤镜，而是重构了图像输入流程，做图像产品的值得认真看看。

6月16日

02:33

TechCrunch：AI（RSS）

精选71

Meta 在 Facebook 上线"AI Mode"，基于平台公开信息合成答案

Meta 宣布在 Facebook 推出“AI Mode”搜索功能，利用 Meta AI 从公开帖子（含群组和 Reels）提取信息并合成答案，用户可用自然语言提问获得摘要。同时新增视频拼贴剪辑、过渡效果及 AI 照片预设（可更换服装、发型和配饰），体育迷可在 Stories 中点击“AI Edit”虚拟穿上队服。这些更新延续了此前动态头像、Marketplace 自动回复和创作者 AI 助手的部署节奏。此外，Meta 近期启动了 Facebook、Instagram 和 WhatsApp 的全球订阅计划（每月 3.99 美元起），更多 AI 订阅层级正在规划中。

Meta 产品更新图像生成搜索

推荐理由：Facebook 的 AI 模式把社交搜索变成问答，想法不新但执行够快，对普通用户吸引力大，只是答案来自群聊，可靠性是个坑。配套的 AI 照片编辑也让玩梗更方便，Meta 在拼命给 Facebook 塞 AI 留住用户。

6月12日

11:54

小互@xiaohu

精选75

小互（@xiaohu）升级了公众号排版技能组合，实现一句话完成排版、封面生成并一键发送到公众号草稿箱。该工具已开源，提供20种主题颜色可选，可自动分析内容进行排版，支持非Markdown文件。用户只需在Claude Code、Codex或OpenClaw中提供文章链接或文档位置，即可获得可视化预览界面进行选择，全程无需手动操作。

小互: 一句话搞定公众号排版、封面生成、发布我做了个技能组合,可以一句话搞定公众号排版、封面生成,和一键发送到公众号草稿箱,你只需点下发布即可。已经开源了有20种主题颜色可选最重要的是它会自动分析你的内容,进行自动排版,不是Markdown...

Anthropic 图像生成开源/仓库教程/实践

推荐理由：小互把公众号排版全流程做成一个开源技能，一句话就能从内容生成到草稿箱，做公众号的可以直接用，这种自动化程度很少见。

6月11日

23:07

Krea@krea_ai

精选73

推出生成式滑块。现在您可以控制使用 Krea 2 生成的任何图像的强度、复杂度和运动。你希望看到哪些新控制？👇

产品更新图像生成

推荐理由：Krea 2 终于加上了控制强度、复杂度和运动轨迹的滑块，以前调参靠抽卡，现在能精准控制了，做图的人应该会喜欢。

12:10

Midjourney：Updates（RSS）

精选64

Midjourney V8.1 已成为默认模型

Midjourney 已将默认模型从 V7 升级为 V8.1。V8.1 在智能性、连贯性、对详细提示的遵循度以及文本渲染效果上均有提升，HD 模式也已支持。

图像生成模型发布

关联讨论 2 条

推荐理由：虽然V8.1不是大版本，但设为默认后所有用户自动升级，尤其是文本和复杂提示词的理解增强，做设计的朋友值得重新测试一下关键词。

08:11

Orange AI@oran_ge

精选76

在写完这篇文章后我把配图过程蒸馏成了一个「橙线插画」Skill 免费开源安装地址： https://github.com/orange2ai/orange-line-illustration 【引用 @oran_ge】：http://x.com/i/article/2064857003743391744

Orange AI: http://x.com/i/article/2064857003743391744

图像生成开源生态教程/实践

推荐理由：橘子把自己写文章时的插画流程封装成了免费Skill，一次安装，以后配图风格统一还不用动脑子，做内容的人值得收藏。

6月10日

23:41

ChatGPT@ChatGPTapp

精选69

Go #MessiMode 上传一张你的照片并尝试这个提示词："将我的头发变成本国国旗的颜色，但要看起来自然。如果没有提供国家或图片，请询问。"

OpenAI 图像生成教程/实践

推荐理由：一个官方给出的趣味 prompt，让你把头发染成国旗色，虽然不是什么大更新，但胜在简单好玩，普通人也能立刻上手玩一下。

12:56

HuggingFace Daily Papers（社区热门论文）

精选73

Flow-DPPO：面向流匹配模型的散度近端策略优化

针对流匹配模型中在线强化学习比率裁剪策略约束不当的问题，Flow-DPPO 提出用散度近端约束替代。关键洞察是流模型每步策略为高斯分布，可精确计算新旧策略间的 KL 散度。Flow-DPPO 采用非对称散度掩码，仅在梯度更新偏离信任区域且超阈值时阻止更新。实验表明，Flow-DPPO 获得更高奖励，KL 近端效率更优，缓解了灾难性遗忘，促进多目标均衡，并能在比率裁剪失效时支持稳定的多轮训练。代码已开源。

图像生成推理视频论文/研究

推荐理由：用 KL 散度代替比值裁剪来解决流匹配 RL 训练的不稳定，理论简洁，代码已开源，做图像/视频生成优化的同学可以跑一下。

01:08

Fei-Fei Li@drfeifei

精选78

创意和想象力无与伦比！非常感谢@theworldlabs能与@withloreco的优秀人才合作，将他们不可思议的想法转化为用户可以享受的互动体验！🤩

World Labs: We turned dreams into worlds. Then filled them with history's greatest minds. Not a video. A world, running directly in ...

产品更新图像生成多模态

推荐理由：World Labs把生成式空间智能做成了可走进的浏览器世界，不是看视频而是和历史伟人互动，技术想象力和产品落地都够惊艳，做虚拟世界和交互叙事的人值得直接点进去体验。

6月9日

08:00

HuggingFace Daily Papers（社区热门论文）

精选82

i1：面向强文生图模型的简单且完全开源配方

i1 是一个 3B 参数的文本到图像扩散模型，仅使用公开数据集训练。在 GenEval、DPG、PRISM、CVTG-2K 和 LongText 五个基准上，i1 性能与领先模型相当，平均比最佳现有完全开源模型高 29.5 个百分点。研究基于 300 余项控制实验（超 700K TPU v6e 小时），发现等权重混合 curated 数据集是强默认配置、更大文本编码器适配器以极少参数提升性能。i1 的检查点、训练与推理代码及数据处理流程已全部开源。

arXiv 图像生成多模态开源生态

推荐理由：i1 是第一个用全公开数据、完全开源代码/权重/数据管线打造的 3B 模型，直接把全开放模型的性能拉到可与闭源竞争，对做文生图研究的同行是个扎实起点。

03:09

TechCrunch：AI（RSS）

精选73

苹果刚刚教会你的iPhone补全句子、完善照片和简化工作流程

Apple为Safari、Shortcuts和Password应用添加了AI驱动的新功能，让iPhone能够自动补全句子、完善照片和简化工作流程。

产品更新图像生成多模态

推荐理由：WWDC 2026 的 Apple Intelligence 更新不是颠覆性突破，但 Safari 标签管理、跨应用上下文和 Shortcuts 的 AI 创建让 AI 真正渗透到日常使用中，是所有苹果用户都该看看的实用升级。

6月7日

12:00

宝玉@dotey

精选76

对比一下 GPT-5.5 的设计效果和 Opus 4.8 的设计效果

宝玉对比了GPT-5.5与Opus 4.8的设计能力，认为Opus 4.8效果远优于GPT-5.5。他使用了基于Cursor浏览器和元素标注的baoyu-design Skill，该Skill通过npx skills add JimLiu/baoyu-design安装，可在本地运行：描述屏幕需求即可生成精良HTML，点击预览中任意元素即可发出修改指令。官方推荐搭配Opus 4.8以获得最佳效果。工具GitHub仓库：https://github.com/JimLiu/baoyu-design。

宝玉: Cursor's new browser + element annotation turns it into a design studio. Meet Cursor Design 🎨 - Claude Design, running ...

MCP/工具图像生成教程/实践

关联讨论 1 条

推荐理由：宝玉这个 skill 把 Claude Design 拉到本地，一个 prompt 就能出图对比，GPT-5.5 和 Opus 4.8 的审美差距肉眼可见，做设计的可以直接套。

6月6日

00:41

Google Gemini@GeminiApp

精选81

你现可直接在 Gemini Live 中创建和编辑图像。无论是测试房间装饰、解决数学问题，还是制作可分享的梗图，所有操作都实时完成。只需打开 Gemini 应用，点击 Live 按钮，共享摄像头，告诉 Gemini 你想看到的。

Google 产品更新图像生成多模态

推荐理由：Gemini Live 终于能用嘴改图了，实时对话+图像生成让装修试色、数学解题变成「聊着天就把活干了」，产品人和普通用户都该试试这个新交互。

6月4日

01:49

Krea@krea_ai

精选74

介绍 Ideogram v4.0。原生 2K 分辨率，出色的文字渲染，支持 JSON 提示词。立即在 Krea 中体验。

图像生成模型发布

关联讨论 1 条

推荐理由：图像生成模型的军备竞赛又添一员，Ideogram v4.0的2k原生分辨率和JSON prompt对接工作流，做设计生成的同学可以直接上手试试。

6月3日

03:59

OpenRouter@OpenRouter

精选68

三款新的 @MicrosoftAI 模型现已在 OpenRouter 上线！同步推出：MAI-Image-2.5、MAI-Transcribe-1.5 和 MAI-Voice-2。详情见下文 🧵

Microsoft 产品更新图像生成多模态

推荐理由：微软三个多模态模型一口气上架 OpenRouter，图像、转录、语音全齐了，开发者直接调 API 就能用，做产品的可以试试效果。

6月2日

23:05

SenseTime@SenseTime_AI

精选81

商汤开源SenseNova-Skills AI办公技能套件

商汤开源了AI办公技能套件SenseNova-Skills。这是一个为任何技能兼容智能体（如OpenClaw与HermesAgent）设计的开源技能集合，提供四大核心功能：图像信息图表生成（可镜像参考风格）、数据分析（支持多表解析、清洗与可视化）、PPT创建（生成大纲内容并智能排版，输出可编辑文件）以及深度研究（跨学术、技术、社交等多源搜索并生成报告）。该技能套件现已完全开源。

智能体图像生成开源/仓库

推荐理由：商汤掏出了一套开箱即用的 agent 技能包，从做图到写报告都能一键接，而且代码全在 GitHub 上。想做 agent 产品的可以直接 fork 当乐高用，比等 API 发布快多了。

00:26

Google Gemini@GeminiApp

精选71

轻松将自己添加到Gemini的视频创作中。以下是如何使用Gemini Omni创建一个外观和声音都像你的数字分身。🧵

Google 图像生成教程/实践视频

关联讨论 1 条

推荐理由：官方给了个傻瓜教程，看一遍就能在视频里塞进自己的数字分身，做短视频和教学的可以省掉真人出镜的麻烦。

6月1日

02:16

Hacker News 热门（buzzing.cc 中文翻译）

精选72

本地设备 AI 图像生成模型 1-Bit Bonsai Image 4B 发布

1-Bit Bonsai Image 4B 是一款新的 AI 图像生成模型，其主要特点是面向本地设备进行优化，可以在用户的本地硬件上运行。这是一款专注于端侧部署的图像生成解决方案。

图像生成开源/仓库模型发布端侧

推荐理由：端侧图像生成终于进入可用阶段，把 4B 模型压到 iPhone 能跑而且性能保留 95%，做本地 AI 应用的产品人应该认真看一眼。

5月30日

21:16

The Verge：AI（RSS）

精选73

AI 骗子正在创建虚假的黑人形象来销售 Shein 劣质商品

有卖家利用 AI 生成虚假的黑人形象，在 TikTok、Facebook 和 Instagram 上扮演手工制品创作者进行销售。例如一个名为 Aliyah 的 AI 生成形象，以带泪诉说的方式售卖所谓手工皮带扣，但该形象及其产品均为虚构。此类 AI 虚拟网红被用于推广通过代发货模式销售的批量生产品。

图像生成多模态现象/趋势

推荐理由：AI生成的虚拟黑人卖家在TikTok上哭着卖假货，The Verge这篇调查把AI黑产里最脏的那面扒给你看，做社交电商的尤其该点开读。

19:45

Google AI Developers@googleaidevs

精选71

ICYMI：Nano Banana Pro 【gemini-3-pro-image】和 Nano Banana 2 【gemini-3.1-flash-image】现已正式发布，可通过 Gemini API 投入生产使用。查看这些优秀的社区示例，了解两个模型的实际能力 🧵

Google 图像生成模型发布

推荐理由：Gemini 图像模型 GA 了，生成式视觉正式进入 Google 时间，做设计工具和内容生成的开发者可以直接接入测试，看看能不能成为下一个 Midjourney。

06:42

ginobefun@hongming731

精选78

claude-design-card 是一款专为中文内容创作者设计的 Skill。它能将文字、URL 或文章直接转化为可发布的视觉卡片，如公众号首图、小红书图文卡、教程步骤卡等，支持 28 种布局与 10 种主题。其核心价值在于自动化了"写完文章"后最繁琐的流程：自动提炼重点、选择版式、生成 HTML 并截图成 PNG，替代了以往手动使用 Figma 或 Canva 等工具的步骤。该工具开源，适合经常撰写相关内容的创作者尝试。

撸毛吃猪脚饭: 昨天那个 md2wechat-skill 很多人收藏今天再分享一个很适合中文创作者的 Skill:claude-design-card。它可以把一段文字、一个 URL、一篇文章,直接生成能发出去的视觉卡片,比如公众号首图、小红书图文卡、...

GitHub 图像生成开源/仓库

推荐理由：这个 Skill 把内容创作者最烦的「写文→排卡片→出图」流程直接打通了，28 种布局一键生成，做公众号和小红书的可以立刻收藏，关键不是好看是真省时间。

04:10

Runway@runwayml

精选72

我们持续为 Runway API 添加新模型和端点，以便您能将最佳生成能力直接集成到应用、产品和平台中。通过 Runway API，您可以在一个地方获得所需的所有模型，包括 Seedance 2.0、GPT Image 2、HappyHorse 1.0、Nano Banana Pro、Magnific Precision Upscaler V2 等更多内容。请通过下方链接开始使用。

产品更新图像生成

推荐理由：Runway API 这次集中上新，Seedance 2.0 加入虽然方便了开发者，但没有模型能力的质变，更像是生态补全。

01:14

Fei-Fei Li@drfeifei

精选83

我对这个适用于大规模生成模型新时代的视觉生成基准数据集感到非常兴奋！🤩

Keshigeyan Chandrasegaran: 1/ Introducing GPIC: a Giant Permissive Image Corpus and benchmark for visual generation! 🚀100M VLM-captioned image-tex...

Hugging Face 图像生成数据/训练论文/研究

推荐理由：李飞飞都来站台，这个数据集不简单。完全允许商业用途是关键，对做视觉生成的团队来说，终于有了一个不用再为版权头疼的超级训练库。

5月29日

14:30

HuggingFace Daily Papers（社区热门论文）

精选74

彩色噪声扩散采样

扩散模型的生成轨迹具有频谱偏差，早期处理低频全局结构，后期处理高频细节。传统随机微分方程求解器在整个过程中均匀注入白噪声，能量分配效率低。本研究提出彩色噪声采样（CNS），一种免训练的即插即用采样器。它通过动态、随时间和频率调整的噪声调度，更高效地将能量分配给尚未解析的频段。在SiT、JiT、FLUX等架构上的实验表明，CNS作为推理时的替换采样器显著提升了生成质量：在ImageNet-256上，无引导FID在SiT-XL/2上从8.26降至6.27，在JiT-B/16上从32.39降至26.69，在JiT-H/16上从11.88降至8.31，并且在使用无分类器引导时带来一致改进。

图像生成论文/研究

推荐理由：扩散模型采样时的白噪声注入一直很粗糙，这篇论文用动态调制的有色噪声把能量怼到未解析的频段，在多个模型上 FID 直接骨折，而且完全训练无关，拿来就能用。

01:42

Google AI Developers@googleaidevs

精选71

🍌 Nano Banana Pro 【gemini-3-pro-image】和 Nano Banana 2 【gemini-3.1-flash-image】现已正式发布，可通过 Gemini API 投入生产使用。查看这些优秀的社区示例，了解两个模型的实际能力 🧵↓

Google 图像生成模型发布

关联讨论 1 条

推荐理由：Google 把 Gemini 图像生成能力打包进 Nano Banana 系列并正式 GA，开发者现在可以稳定调用 Pro 和 Flash 级别的生图 API，对做图像应用的团队是个实在利好。

5月28日

23:36

SenseTime@SenseTime_AI

精选68

商汤发布信息图生成模型升级，增强多项核心能力

商汤科技介绍了其升级后的信息图生成模型 SenseNova-U1-8B-MoT-Infographic。该模型参数为8B，在四个关键维度进行了优化：文本准确性与可读性增强，减少了重复和不当放大；布局的一致性与合理性提升，背景更稳定；图表与示意图的质量提高；并新增了学术内容的渲染支持。推文提供了在 Hugging Face 上的模型页面链接及能力展示页面。

图像生成模型发布

关联讨论 1 条

推荐理由：信息图生成赛道又出新货，商汤这次把文本渲染和布局稳定性真正做好了，做学术图表或运营配图的人可以直接去HuggingFace试用，效果肉眼可见的提升。

04:05

Krea@krea_ai

精选73

Krea 2现已登陆Comfy！ KREA的首个基础图像模型--从零训练--具备可调节的创造力、风格参考和情绪板条件控制。

ComfyUI: KREA 2 Image is now a Partner Node in ComfyUI KREA's first foundation image model - trained from scratch - with tunable ...

图像生成模型发布

关联讨论 1 条

推荐理由：Krea 终于掏出自己的基础图像模型，不再只是包装别人模型。ComfyUI 原生节点让工作流玩家可以立刻上手折腾，自研模型的风格控制是个新鲜变量。

5月27日

19:34

歸藏(guizang.ai)@op7418

精选80

藏师傅发布小红书图文排版AI Skill，集成地图与自动配图

该推文介绍了guizang-social-card-skill，一款针对小红书图文常见类别进行优化的AI Skill。其亮点在于为旅行博主集成了地图组件，用户输入目的地和线路后，AI能自动在底图上标记并嵌入图片。根据引用，该Skill完全基于HTML和实拍图片生成内容，不会被平台标注为AI生成，并会主动从高质量图片网站寻找对应主题图片，以优化图文排版。

歸藏(guizang.ai): 藏师傅的小红书图文排版 Skill 预览完全靠 HTML 和实拍图片,不会被标注 AI AI 会去高质量图片网站帮你寻找对应的主题图片,让你的图文告别只有生硬文字的尴尬情况

图像生成教程/实践

关联讨论 1 条

推荐理由：藏师傅这个 skill 把小红书图文排版门槛直接砍没，尤其是旅行地图组件 AI 自动标记路线，做内容的直接抄走就行，告别只有生硬文字的尴尬。

11:19

HuggingFace Daily Papers（社区热门论文）

精选70

MRT：用于大规模分层图像生成与编辑的掩码区域Transformer

MRT是一个20B参数的掩码区域扩散模型，专为多层透明图像生成与编辑设计。它在超过1000万个多语言设计样本上训练，统一了文本到图层、图像到图层和图层到图层三项任务。模型通过选择性token掩码实现灵活的图层生成与编辑，并引入溢出感知画布图层以处理边界不一致问题，支持半透明背景合成。此外，应用扩散蒸馏实现了8步实时生成。实验表明，MRT在所有任务上显著优于先前先进方法与商业系统。用户研究显示，其图像到图层质量优于同期Qwen-Image-Layered模型，推理速度快10-100倍，GPU内存消耗降低50-90%。

图像生成多模态论文/研究

推荐理由：首次把分层图像生成统一到 20B 遮罩扩散框架，溢出画布层的设计挺巧，让图层可以超出边界编辑，蒸馏后能实时跑，做设计工具的团队该仔细读读。

5月26日

14:18

HuggingFace Daily Papers（社区热门论文）

精选75

通过奖励倾斜分布匹配强化少步生成器

本文提出奖励倾斜分布匹配蒸馏（RTDMD），这是一个将分布匹配蒸馏与奖励引导强化学习统一应用于少步流生成器的两阶段框架。该方法通过最小化到奖励倾斜教师分布的KL散度，自然分解为分布匹配项与奖励最大化项。第一阶段引入环境一致分布匹配蒸馏（AC-DMD），在子区间进行分布匹配，并通过一致性正则化辅助分数模型追踪生成器分布。第二阶段联合优化两项，并推导混合策略梯度及步子集GRPO（SubGRPO）以降低方差。在SD3、SD3.5和FLUX.2上的实验表明，RTDMD仅用4步推理即可在偏好、美学和组合指标上达到新的 state-of-the-art。

arXiv 图像生成论文/研究

推荐理由：这篇直接把分布匹配蒸馏和奖励建模拧在一起，在 SD3/3.5/FLUX.2 上用 4 步推理就压了之前所有文生图对齐方法，做图像生成训练和偏好对齐的该看。