4月21日

22:11

IT之家（RSS）

英伟达 DLSS 4.5 SDK 发布，支持将动态多帧生成、光线重构等新技术接入游戏

英伟达正式发布 DLSS 4.5 SDK，基于第二代 Transformer AI 模型，支持开发者将动态多帧生成、光线重构、超分辨率及帧生成等技术整合进游戏。新 SDK 优化了框架结构，提供统一接入路径并支持按需选择，显著降低 AI 图形技术的接入门槛。《83》《原子之心》等游戏将在未来支持该技术，助力新一代 PC 游戏提升性能与画质。

产品更新图像生成部署/工程

22:06

OpenAI@OpenAI

这不是一张截图。

OpenAI 产品更新图像生成

17:44

Chubby♨️@kimmonismus

很多人说 OpenAI 的 GPT-image 2 已经在推出了！自己看看：）

OpenAI 产品更新图像生成

16:34

HuggingFace Daily Papers（社区热门论文）

通过判别性文本表征将单步图像生成从类别标签扩展到文本

研究人员针对MeanFlow单步生成框架难以有效整合大语言模型文本编码器的问题，提出采用高判别性文本表征的解决方案。通过适配基于LLM的文本编码器并优化生成流程，首次实现高效的文本条件单步图像合成。实验表明，该方法在主流扩散模型上显著提升了生成性能，突破了原有类别标签条件的局限。相关代码已开源。

arXiv 图像生成多模态论文/研究

10:10

IT之家（RSS）

人工智能渗透 3A 游戏开发：育碧招聘要求精通生成式 AI

育碧安纳西工作室近期为一款基于虚幻引擎5开发的未公布3A多人游戏招募技术美术总监，任职要求中明确列出需熟练运用ChatGPT、Claude、Copilot等生成式AI模型。同期该工作室招聘的提示词专员岗位也要求精通GPT-4、Gemini等工具。这显示生成式AI正成为3A游戏开发的标配技能，可能应用于概念美术生成等环节，标志着传统游戏开发流程正经历AI化转型。

图像生成现象/趋势

08:00

HuggingFace Daily Papers（社区热门论文）

ReImagine：通过图像优先合成重新思考可控高质量人体视频生成

研究团队提出ReImagine方法，采用图像优先策略解决人体视频生成中外观、运动与视角联合建模的难题。该方法将外观建模与时间一致性解耦，通过预训练图像主干学习高质量外观作为视频合成先验，结合SMPL-X运动引导与免训练的时间细化阶段，实现姿态和视角可控的高质量视频生成。团队同时发布了规范人体数据集与组合式人体图像合成辅助模型，代码与数据均已开源。

图像生成视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MMCORE：基于表征对齐潜在嵌入的多模态连接

MMCORE 是一个统一的多模态图像生成与编辑框架，通过预训练视觉语言模型（VLM）预测语义视觉嵌入，并将其作为条件信号引导扩散模型。该设计无需深度融合自回归与扩散模型或从头训练，显著降低计算成本的同时保持高保真合成。框架支持文本到图像生成与交错图像生成，在空间推理和视觉定位等复杂场景中展现出强大的多模态理解能力，在多项文本到图像及单/多图像编辑基准测试中均优于现有最先进基线。

arXiv 图像生成多模态论文/研究

02:04

AK@_akhaliq

阐明扩散概率模型的SNR-t偏差 paper： https://huggingface.co/papers/2604.16044

图像生成论文/研究

4月20日

23:44

Chubby♨️@kimmonismus

OpenAI 正在准备发布其新的图像模型。通过信息

OpenAI 图像生成行业动态

14:08

DogeDesigner@cb_doge

🚨 GROK IMAGINE 新功能 🚨 创建你自己的自定义模板。 - 进入"我的模板" - 选择"创建新模板" - 命名你的模板 - 选择类型 - 输入提示词并上传图片 - 保存，完成！正在向网页端 SuperGrok Heavy 用户推出。升级到 SuperGrok Heavy！

xAI 产品更新图像生成

13:37

Hacker News 热门（buzzing.cc 中文翻译）

Show HN：使用 Gemma 4 E2B 在浏览器中运行 Prompt-to-Excalidraw 演示（3.1GB）

开发者发布了一个基于 Gemma 4 和 E2B 的 Prompt-to-Excalidraw 浏览器演示，支持通过自然语言提示直接生成 Excalidraw 手绘图表。该方案将 3.1GB 的 Gemma 4 模型完全部署在浏览器端本地运行，借助 E2B 沙箱环境实现前端 AI 推理，无需后端服务器支持。项目在 Hacker News 获得 101 个赞。

Google 图像生成开源/仓库端侧

08:00

HuggingFace Daily Papers（社区热门论文）

UDM-GRPO：面向均匀离散扩散模型的稳定高效群体相对策略优化

本文提出UDM-GRPO框架，首次实现均匀离散扩散模型与强化学习的稳定结合。针对训练不稳定问题，该方法将最终干净样本作为动作，并通过扩散前向过程重建轨迹以对齐预训练分布。此外，引入Reduced-Step和CFG-Free策略提升效率。实验表明，GenEval准确率从69%提升至96%，PickScore从20.46提升至23.81，OCR基准准确率从8%跃升至57%，在文本到图像任务中达到SOTA性能。

图像生成数据/训练论文/研究

4月19日

21:44

Chubby♨️@kimmonismus

无语了。GPT-5.5 创造了我目前见过最好的 SVG。一次生成。接下来会很疯狂。

Chetaslua: GPT Pro - Spud solved SVG One SHOT svg , code is shared in the comments @OpenAI you won this time , i never said this bu...

OpenAI 图像生成现象/趋势编码

21:37

The Decoder：AI News（RSS）

德国法院裁定AI将受版权保护照片改编为漫画不侵犯原作品版权

德国高等地区法院近日裁定，使用AI将受版权保护的照片转换为漫画作品不构成版权侵权。法院认定，只要AI仅复制原作的"主题"（motif）而非具体表达形式，此类改编即属合法范围。该判决明确了AI转换性使用的法律边界，为生成式AI在版权领域的应用提供了重要司法参考。

图像生成政策/监管

17:37

The Decoder：AI News（RSS）

中期选举前AI生成网红涌入社交媒体发布亲特朗普内容

数百个AI虚拟形象正在TikTok、Instagram和YouTube等平台密集发布支持特朗普的内容。部分账号已积累超过3.5万粉丝和数百万次观看，特朗普本人也曾分享相关AI生成内容。目前尚不清楚这些活动是个人行为还是协调竞选操作，这一现象正值美国中期选举前夕。

图像生成现象/趋势视频

08:00

HuggingFace Daily Papers（社区热门论文）

UniGeo：通过视频模型统一几何引导以实现相机可控图像编辑

针对现有相机可控图像编辑方法因几何引导碎片化导致的几何漂移与结构退化问题，研究团队提出了UniGeo新框架。该框架利用视频模型提供连续视角先验，并首次在表征、架构和损失函数三个层级系统性地统一注入几何引导。具体创新包括：表征层的帧解耦几何参考注入、架构层的几何锚点注意力对齐多视图特征，以及损失函数层的轨迹端点几何监督策略。在多个公开基准测试中，UniGeo在广泛及有限的相机运动设置下，于视觉质量和几何一致性方面均显著优于现有方法。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

联合图像-特征扩散中的协同进化表示

针对联合图像-特征扩散模型中语义表示空间固定不变的问题，CoReDi 框架通过协同进化机制，在训练过程中联合优化轻量级线性投影与扩散模型，动态调整表示空间以适应生成任务。该方法结合停止梯度目标、归一化和针对性正则化防止特征崩溃，增强了语义特征与图像潜变量的互补性。在 VAE 潜变量扩散和像素空间扩散的实验表明，相比固定表示空间的方法，CoReDi 实现了更快的收敛速度和更高的样本质量。

图像生成数据/训练论文/研究

06:07

宝玉@dotey

很荣幸我的Skills开始集成到 Hermes 中，欢迎试用👏

Nous Research: Honored to announce we are partnering with Jim Liu to port over his wildly popular skills for infographics and design to...

智能体产品更新图像生成

4月18日

05:41

Artificial Analysis@ArtificialAnlys

ImagineArt 2.0跻身前十，对标Grok与Imagen 4 Ultra

ImagineArt 2.0在文本到图像排行榜首登第9位，生成质量与xAI的grok-imagine-image及Google的Imagen 4 Ultra相当。作为ImagineArt推出的最新专有图像模型，该版本目前已集成于ImagineArt Image Studio应用，面向开发者的API即将上线。ImagineArt作为综合性AI创意平台，为用户提供多种图像与视频模型的一站式访问。

图像生成模型发布

4月17日

23:55

HuggingFace Daily Papers（社区热门论文）

超越提示：面向分布外形状的无条件3D反演

当前最先进的文本到3D生成模型存在"潜在汇点陷阱"：模型在特定区域对文本提示修改不敏感，导致无法通过改变输入文本来调整输出几何。这并非几何表达能力不足，而是对分布外文本指导的敏感性缺失。研究提出利用模型无条件生成先验，将几何表示与语言敏感性解耦以绕过该陷阱，实现了对分布外3D形状的高保真语义编辑，突破了现有3D流水线的局限性。

arXiv 图像生成多模态论文/研究

13:53

HuggingFace Daily Papers（社区热门论文）

GlobalSplat：基于全局场景Token的高效前馈式3D Gaussian Splatting

研究团队推出GlobalSplat框架，采用"先对齐后解码"策略，通过学习紧凑的全局潜在场景表示来解析跨视图对应关系，再解码显式3D几何，有效解决了传统方法因局部分配策略导致的全局一致性差和表示冗余问题。该框架在RealEstate10K和ACID数据集上仅需16K Gaussians（4MB存储）即可实现高质量新视角合成，单次前向传播推理速度达78毫秒以内，显著优于密集基线方法。

图像生成端侧论文/研究

12:29

Greg Brockman@gdb

Codex 中的图像生成功能容易被低估，但它相当强大：【引用 @wonforall】：图像生成功能现已在 Codex 中上线！你现在可以直接在 Codex 中生成视觉内容、编辑现有图像，以及从单张图像创建 GIF。我在开发这个功能时花了很多时间测试不同的用例，看到输出结果可以如此有创意和实用，真的令人印象深刻。希望你用得开心 🚀

Won Park: Image generation is now live in Codex! You can now generate visuals, edit existing images, and create GIFs from a single...

智能体 OpenAI 产品更新图像生成

10:53

HuggingFace Daily Papers（社区热门论文）

LeapAlign：通过构建两步轨迹实现流匹配模型在任意生成步骤的后训练

研究人员提出LeapAlign微调方法，通过将长生成轨迹压缩为两步连续跳跃（leap）解决流匹配模型后训练中反向传播的梯度爆炸与内存瓶颈问题。该方法随机化跳跃起止时间步以支持任意生成步骤的直接梯度更新，并对高一致性轨迹分配更高权重、对大幅梯度项降权处理以增强稳定性。在Flux模型上的实验表明，该方法在图像质量和图文对齐等指标上持续优于GRPO及直接梯度等现有方法。

arXiv 图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

C-GenReg：通过多视图一致的几何到图像生成与概率模态融合实现无需训练的3D点云配准

C-GenReg是一种无需训练的3D点云配准框架，利用世界基础模型将输入几何转换为多视图一致的RGB图像，借助视觉基础模型(VFM)在图像域提取密集对应关系，再通过深度图映射回3D空间。该方法采用"Match-then-Fuse"概率冷融合策略，将生成RGB分支与原始几何分支的对应后验进行融合，无需额外学习即可提供校准置信度。作为零样本即插即用方案，C-GenReg所有模块均无需微调，在室内3DMatch、ScanNet及室外Waymo基准测试中展现出卓越的跨域泛化能力，并首次在真实室外LiDAR数据上实现生成式配准。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

揭示扩散概率模型的 SNR-t 偏差

扩散概率模型在推理阶段存在信噪比-时间步（SNR-t）偏差，即去噪样本的信噪比与其时间步发生错位，导致误差累积和生成质量下降。研究者提出差分校正方法，依据模型先重建低频再处理高频的特性，将样本分解为不同频率成分并分别校正。实验表明，该方法在 IDDPM、ADM、DDIM、EDM、PFGM++、FLUX 等 8 种模型及多分辨率数据集上均显著改善生成质量，且计算开销可忽略。

Hugging Face 图像生成论文/研究

03:50

Google Gemini@GeminiApp

Gemini应用推出基于个人智能的个性化图像生成功能

Google在Gemini应用中推出个性化图像生成新功能，利用“个人智能”整合Nano Banana 2模型与用户已连接的Google应用（如Google相册），自动理解用户偏好与生活背景。用户无需手动上传参考图或编写复杂提示词，仅需简单指令即可生成反映个人品味、生活方式乃至包含亲友形象的图像，并能调整风格和细化结果。Google强调，此功能不会使用用户的私人Google相册数据直接训练模型，以保护隐私。

Google 产品更新图像生成

00:50

Google Gemini@GeminiApp

Personal Intelligence 🤝 Nano Banana 2 Personal Intelligence 现在让 Gemini 在生成图像时理解你的偏好和兴趣，让你可以花更多时间创作，减少解释。

Google 产品更新图像生成

4月16日

08:00

HuggingFace Daily Papers（社区热门论文）

RE-Edit：面向推理感知图像编辑的多维度基准测试

RE-Edit 是一个评估图像编辑系统隐式推理能力的多维度基准，包含五个推理维度（物理、环境、文化、因果、指代）和 1,000 个精心设计的样本。研究测试了十种开源和两种商用图像编辑模型，发现即使先进系统在满足隐含逻辑约束时也经常失败，尽管能生成高质量视觉内容。论文还提出了一种轻量级推理引导后编辑基线，初步探索了显式推理在模型无关方式下缓解此类错误的可能性。

arXiv 图像生成多模态推理

08:00

HuggingFace Daily Papers（社区热门论文）

一维有序token实现高效测试时搜索

本文探讨token结构对自回归模型测试时搜索能力的影响。研究表明，采用粗到细结构的一维有序token其中间状态具备可验证的语义意义，使验证器能有效引导生成，显著优于传统二维网格结构。实验显示，基于此类token训练的模型在测试时扩展行为上表现更佳。此外，研究实现了无需训练AR模型的纯测试时搜索文本到图像生成，并系统分析了best-of-N、束搜索等经典算法与不同token结构的交互机制，为自回归模型的推理时扩展提供了实践指导。

arXiv 图像生成推理论文/研究

00:07

AK@_akhaliq

连续对抗流模型 paper： https://huggingface.co/papers/2604.11521

图像生成数据/训练论文/研究

4月15日

18:56

HuggingFace Daily Papers（社区热门论文）

领域特定潜在表征提升扩散模型医学图像超分辨率保真度

医学图像超分辨率模型多沿用自然图像设计的通用变分自编码器（VAE），研究发现这是重建质量的主要瓶颈。在控制实验中，将在160万张医学图像上预训练的MedVAE替换Stable Diffusion VAE后，膝关节MRI、脑部MRI和胸部X光的PSNR提升2.91至3.29 dB（p<10^{-20}），优势集中于高频解剖细节。消融实验证实性能差距稳定且幻觉率无显著差异。自编码器重建质量可预测下游性能（R²=0.67），表明领域特定VAE的选择应优先于扩散架构优化。

arXiv 图像生成论文/研究

18:00

公众号：生数科技（Vidu·视频）

生数科技Vidu发布《AI漫剧视频模型行业白皮书V1.0》

生数科技Vidu正式发布《AI漫剧视频模型行业白皮书V1.0》，该白皮书已上市。

图像生成行业动态视频

16:48

Chubby♨️@kimmonismus

业内人士预测Opus 4.7与ChatGPT Image 2或本周密集发布

业内人士预测Claude Opus 4.7与ChatGPT Image 2将于本周密集发布，甚至可能包括代号"Spud"的新品。OpenAI惯于周二或周四发布，Anthropic则试图抢先或避免被 overshadow。鉴于Anthropic近期凭借Mythos等占据头条，加上Deepseek预计下周发布，OpenAI急需重大更新应对竞争。尽管Image 2已遭大量泄露，但The Information及OpenAI员工积极情绪均暗示发布临近。

Anthropic OpenAI 图像生成现象/趋势

08:00

HuggingFace Daily Papers（社区热门论文）

OneHOI：统一人-物交互生成与编辑

本文提出OneHOI，一个统一人-物交互（HOI）生成与编辑的扩散Transformer框架，将两项任务整合为基于共享结构化交互表示的条件去噪过程。核心R-DiT通过角色与实例感知HOI token、空间Action Grounding、结构化HOI注意力及HOI RoPE机制，建模动词介导关系并解耦多交互场景。基于HOI-Edit-44K等数据集联合训练，支持布局引导、任意掩码及混合条件控制，在生成与编辑任务上均达SOTA性能。

arXiv 图像生成论文/研究

07:40

AK@_akhaliq

ERNIE-Image-Turbo 科幻但威尼斯应用：https://huggingface.co/spaces/akhaliq/ERNIE-Image-Turbo

产品更新图像生成开源生态

4月14日

04:25

Google Gemini@GeminiApp

优化 Nano Banana 图像生成的六大核心要素

为提升 Nano Banana 生成质量，建议通过六大维度构建提示词：Subject（主体）定义画面核心对象，Composition（构图）控制镜头语言，Action（动作）描述动态场景，Location（地点）设定环境背景，Style（风格）统一视觉美学，Editing Instructions（编辑指令）实现精准图像修改。该方法强调在生成前建立清晰的故事叙事与视觉风格，适用于文生图及图生图场景。

Google 图像生成教程/实践

4月13日

16:48

Chubby♨️@kimmonismus

我怀疑这表明 patience chair 是用 ChatGPT image 2 创建的。讽刺性地指代了 image 2 可能今天或明天就会发布这一事实。

OpenAI 图像生成大佬观点

08:00

HuggingFace Daily Papers（社区热门论文）

ADD：一种多比特图像水印方法

针对生成式模型带来的虚假信息风险，研究人员提出多比特图像水印方案ADD（Add, Dot, Decode），采用"添加-点积-解码"两阶段机制嵌入可溯源信息。在MS-COCO基准48比特水印测试中，ADD达成100%解码准确率，面对各类图像失真时性能衰减控制在2%以内，远优于现有方法14%的平均降幅。该方法嵌入效率提升2倍，解码速度提升7.4倍，并提供理论分析支撑其有效性。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

连续对抗流模型

研究团队提出连续对抗流模型，通过引入学习判别器替代固定的均方误差准则，对现有 flow matching 模型进行后训练优化。在 ImageNet 256px 生成任务中，该方法将 latent-space SiT 的无引导 FID 从 8.26 降至 3.63，pixel-space JiT 从 7.17 降至 3.57；有引导生成下 SiT 的 FID 从 2.06 优化至 1.53。该方法在文生图任务的 GenEval 和 DPG 基准测试上也取得显著性能提升。

arXiv 图像生成数据/训练论文/研究

4月12日

08:00

HuggingFace Daily Papers（社区热门论文）

从 Langevin 视角重新思考扩散模型

从 Langevin 视角重新思考扩散模型，为理解反向过程如何从纯噪声生成数据提供了更简洁直观的解释。该框架统一了基于 ODE 和 SDE 的扩散模型，阐明了扩散模型在理论上优于普通 VAE 的原因，并证明流匹配在最大似然估计下与去噪和分数匹配本质等价。这一视角弥合了现有扩散模型不同解释之间的鸿沟，展示了各类形式化方法如何在统一框架下相互转化，为初学者和资深研究者提供了更清晰的教学价值和理论直觉。

arXiv 图像生成论文/研究