4月27日

08:00

HuggingFace Daily Papers（社区热门论文）

研究提出DiGSeg框架，将预训练扩散模型转化为通用分割器。该方法将输入图像与真实掩码编码为潜变量，作为扩散U-Net的条件输入，并通过并行CLIP文本通路注入多尺度语言特征，实现文本与视觉表征的对齐。实验表明，该框架在标准语义分割基准上取得领先性能，并在开放词汇泛化及跨域迁移（医疗、遥感、农业）中表现优异，且无需针对特定领域调整模型架构。这证明扩散模型不仅能用于图像生成，也可作为强大的通用视觉理解模型，缩小了生成与理解任务间的差距。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

用于可微分图像表示的软各向异性图

本文提出软各向异性图（SAD），一种基于图像平面自适应站点参数化的显式可微分图像表示方法。SAD通过各站点定义各向异性度量与加权距离，并依据像素前K个站点的softmax混合计算颜色，形成具有可学习温度的软加权Voronoi划分，在保持清晰边界的同时保留有效梯度。该方法支持基于前K映射的高效渲染，并采用受跳转扩散启发的传播方案更新站点。在Kodak数据集上，SAD以2.2秒编码时间达到46.0 dB PSNR，训练速度比先进基线快4-19倍，且在相同码率下性能更优。SAD还能无缝集成至可微分流程，并具备快速随机访问与紧凑存储优势。

图像生成论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

Learning from Noisy Preferences：一种用于直接偏好优化的半监督学习方法

研究指出，将人类多维度的视觉偏好压缩为二元胜负标签会产生严重的标签噪声，误导扩散模型直接偏好优化训练。为解决此问题，团队提出了Semi-DPO方法。该方法将标注一致的图像对视为干净数据，将存在冲突的视为带噪声的未标注数据。训练过程首先在共识过滤的干净子集上进行，然后利用该模型作为隐式分类器为噪声集生成伪标签，进行迭代优化。实验表明，Semi-DPO取得了最先进的性能，显著提升了与复杂人类偏好的对齐度，且无需额外人工标注或显式的奖励模型。代码和模型将在指定GitHub仓库开源。

图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Diffusion Templates：可控扩散的统一插件框架

针对现有可控扩散方法因架构孤立、流程不兼容导致的碎片化问题，研究团队提出统一开源插件框架Diffusion Templates。该框架通过模板模型、模板缓存和模板管道三大核心组件，实现基础模型推理与可控能力注入的解耦。其系统级接口设计支持KV-Cache、LoRA等多种异构能力载体。基于此构建的模型库覆盖了结构控制、图像编辑、超分辨率等十类任务，展现了框架在模块化、可组合性及跨模型可扩展性方面的统一能力。所有代码、模型与数据集将开源。

图像生成开源生态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Meta-CoT：增强图像编辑中的细粒度与泛化能力

Meta-CoT提出一种新的图像编辑范式，通过两级分解提升模型的理解细粒度和任务泛化能力。该方法首先将任意编辑操作分解为（任务、目标、所需理解能力）三元组，以增强对编辑意图的细粒度理解；其次将编辑任务拆解为五个基础元任务，使训练仅需在这些元任务上进行，结合新引入的“思维链-编辑一致性奖励”机制，促使模型更准确地利用推理信息进行编辑。实验表明，该方法在21项编辑任务上实现了15.8%的整体性能提升，并能有效泛化到未见过的编辑任务。相关代码、基准测试和模型已开源。

图像生成多模态论文/研究

4月26日

02:19

Simon Willison 博客

AI图像模型的"自由发挥"：当鹈鹕骑自行车时，路牌在质问

用户@scottjla依据“鹈鹕骑自行车”测试框架，向ChatGPT Images 2.0模型提交了一个复杂提示，要求生成“马骑宇航员、宇航员骑鹈鹕、鹈鹕骑自行车”且保持平衡的混乱图像。模型生成的画面虽包含了这些核心元素，却自行添加了一个写有“WHY ARE YOU LIKE THIS”的路牌，以及披萨、罐头和牛仔帽等未在提示中要求的物件。这一案例揭示了当前文生图模型在理解与执行复杂指令时，可能自主引入带有超现实或评论性质的额外细节，反映了其创意逻辑与指令遵循之间的微妙偏差。

OpenAI 图像生成教程/实践

4月25日

08:00

HuggingFace Daily Papers（社区热门论文）

V-GRPO：用于生成模型去噪的在线强化学习比想象中更简单

研究团队提出V-GRPO方法，通过将基于证据下界的似然替代函数与GRPO算法结合，解决了去噪生成模型与人类偏好对齐的难题。该方法降低了替代函数的方差并控制梯度步长，在文本到图像合成任务中实现了最先进的性能。相比现有方法MixGRPO和DiffusionNFT，V-GRPO分别带来2倍和3倍的加速效果，同时保持训练稳定性并与预训练目标自然对齐。

图像生成数据/训练论文/研究

4月24日

14:52

公众号：火山引擎

火山方舟上线影眸Hyper3D Gen-2与数美Hitem3D 2.0

火山方舟平台新增影眸Hyper3D Gen-2与数美Hitem3D 2.0两款3D模型。

产品更新图像生成

12:17

HuggingFace Daily Papers（社区热门论文）

UniGenDet：一个用于协同进化图像生成与生成图像检测的统一生成-判别框架

研究提出UniGenDet框架，首次将图像生成与生成图像检测任务置于统一的生成-判别架构中进行协同进化。该框架设计了共生多模态自注意力机制和统一微调算法，使生成任务能提升真实性判别的可解释性，同时真实性标准指导生成更高保真度的图像。通过检测器引导的生成对齐机制促进信息交换，在多个数据集上的实验表明，该方法取得了最先进的性能。代码已开源。

图像生成安全/对齐论文/研究

11:17

HuggingFace Daily Papers（社区热门论文）

StyleID：一个用于风格无关人脸身份识别的感知感知数据集与评估指标

研究针对创意人脸风格化中身份保持的评估难题，提出了StyleID数据集与评估框架。该框架包含两个部分：StyleBench-H基准集收集了人类对基于扩散与流匹配生成的不同风格强度图像的异同判断；StyleBench-S监督集则通过受控二选一强制选择实验获取心理测量识别强度曲线。基于StyleBench-S对现有语义编码器进行微调，使其相似度排序与人类跨风格、跨强度的感知保持一致。实验表明，校准后的模型与人类判断的相关性显著提升，并对域外艺术家绘制肖像表现出更强的鲁棒性。所有数据集、代码与预训练模型均已公开。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

通过语义进度函数进行视频分析与生成

研究团队提出了一种“语义进度函数”，用于分析和校正图像与视频生成模型中常见的非线性语义演变问题。该方法通过计算序列中每帧语义嵌入的距离，并拟合一条反映累积语义变化的平滑曲线，来揭示语义节奏的不均匀性。基于此，团队进一步提出了一种语义线性化程序，能够对序列进行重新参数化，使语义变化以恒定速率展开，从而产生更平滑、连贯的过渡。该框架是模型无关的，可用于识别时间不规则性、比较不同生成器的语义节奏，并能引导生成视频或真实视频序列朝向任意目标节奏发展。

图像生成视频论文/研究

4月23日

23:05

公众号：可灵AI（快手·视频）

可灵AI 4K影像创作大赛今日开启！

图像生成行业动态视频

23:05

公众号：可灵AI（快手·视频）

可灵AI实现4K画质与团队会员跨空间管理双重升级

快手旗下可灵AI近日完成双重升级：视频生成支持4K画质输出，并新增团队会员跨空间管理功能。

产品更新图像生成视频

08:00

HuggingFace Daily Papers（社区热门论文）

探究图像编辑模型中的视觉规划能力

研究提出“编辑即推理”（EAR）新范式，将视觉规划重构为单步图像转换任务，以提升计算效率。为分离推理与识别能力，团队创建了抽象谜题数据集AMAZE，包含迷宫和皇后两类任务，支持对自回归与扩散模型进行像素与逻辑的自动评估。测试发现，主流编辑模型在零样本设置下表现不佳，但经基础尺度微调后，能良好泛化至更大尺度及域外几何形状。然而，最佳模型在零样本效率上仍不及人类，揭示了神经视觉推理领域的持续差距。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DiffNR：面向稀疏视图三维断层扫描重建的扩散增强神经表示优化

神经表示在计算机断层扫描中能有效建模三维体数据，但在稀疏视图条件下会产生严重伪影。DiffNR 提出一种融合扩散先验增强神经表示优化的新框架，其核心是用于修正退化切片伪影的单步扩散模型 SliceFixer。该框架引入了专用条件层与数据策展策略以支持模型微调，并在重建过程中周期性地生成伪参考体数据，为欠约束区域提供辅助的三维感知监督。相比以往将 CT 求解器嵌入耗时迭代去噪过程的方法，DiffNR 采用的修复‑增强策略避免了频繁查询扩散模型，从而提升了运行效率。大量实验表明，DiffNR 平均将 PSNR 提升 3.99 dB，具有良好的跨领域泛化能力，并保持了高效的优化过程。

图像生成论文/研究部署/工程

4月22日

23:16

Gary Marcus：The Road to AI We Can Trust（RSS）

ChatGPT 的"强大新图像引擎"

正文内容仅包含"Regurgitating ≠ understanding"（反刍不等于理解），缺乏撰写摘要所需的完整信息，如具体发布细节、功能变化或性能指标。请提供完整文章内容以便提取关键信息并撰写符合要求的摘要。

OpenAI 图像生成大佬观点

16:11

HuggingFace Daily Papers（社区热门论文）

HP-Edit：面向图像编辑的人类偏好后训练框架

本文提出HP-Edit图像编辑人类偏好后训练框架，发布涵盖8类真实任务的RealPref-50K数据集。通过预训练视觉大语言模型和少量偏好数据构建HP-Scorer评估器，用于高效扩展偏好数据集并作为奖励函数优化扩散模型。同步推出RealPref-Bench基准。实验表明，该方法显著提升Qwen-Image-Edit-2509等模型编辑质量，使输出更贴合人类偏好。

图像生成数据/训练论文/研究

12:10

HuggingFace Daily Papers（社区热门论文）

SmartPhotoCrafter：自动摄影图像编辑的统一推理生成优化方法

SmartPhotoCrafter是一种无需显式人工指令的自动摄影图像编辑方法，通过Image Critic模块识别图像缺陷，Photographic Artist模块执行针对性增强。该方法采用三阶段训练：基础预训练建立审美能力，推理引导的多编辑监督融入语义指导，协调式强化学习联合优化两模块。实验表明，该方法在自动摄影增强任务中优于现有生成模型，在保持照片级真实感的同时对色调指令具有更高敏感度。

图像生成推理论文/研究

10:10

HuggingFace Daily Papers（社区热门论文）

Tstars-Tryon 1.0：面向多样化时尚单品的稳健逼真虚拟试衣系统

Tstars-Tryon 1.0 是一款商业级虚拟试衣系统，能够在极端姿势、光照变化和动态模糊等复杂场景下保持高成功率，生成保留服装纹理与材质细节的高保真图像。系统支持多达6张参考图的多图合成，覆盖8个时尚品类，并针对推理速度进行优化实现近实时生成。该技术已在淘宝App大规模部署，服务数百万用户并处理数千万次请求，同时团队发布了综合基准数据集以支持后续研究。

arXiv 图像生成论文/研究

4月21日

22:11

IT之家（RSS）

英伟达 DLSS 4.5 SDK 发布，支持将动态多帧生成、光线重构等新技术接入游戏

英伟达正式发布 DLSS 4.5 SDK，基于第二代 Transformer AI 模型，支持开发者将动态多帧生成、光线重构、超分辨率及帧生成等技术整合进游戏。新 SDK 优化了框架结构，提供统一接入路径并支持按需选择，显著降低 AI 图形技术的接入门槛。《83》《原子之心》等游戏将在未来支持该技术，助力新一代 PC 游戏提升性能与画质。

产品更新图像生成部署/工程

16:34

HuggingFace Daily Papers（社区热门论文）

通过判别性文本表征将单步图像生成从类别标签扩展到文本

研究人员针对MeanFlow单步生成框架难以有效整合大语言模型文本编码器的问题，提出采用高判别性文本表征的解决方案。通过适配基于LLM的文本编码器并优化生成流程，首次实现高效的文本条件单步图像合成。实验表明，该方法在主流扩散模型上显著提升了生成性能，突破了原有类别标签条件的局限。相关代码已开源。

arXiv 图像生成多模态论文/研究

10:10

IT之家（RSS）

人工智能渗透 3A 游戏开发：育碧招聘要求精通生成式 AI

育碧安纳西工作室近期为一款基于虚幻引擎5开发的未公布3A多人游戏招募技术美术总监，任职要求中明确列出需熟练运用ChatGPT、Claude、Copilot等生成式AI模型。同期该工作室招聘的提示词专员岗位也要求精通GPT-4、Gemini等工具。这显示生成式AI正成为3A游戏开发的标配技能，可能应用于概念美术生成等环节，标志着传统游戏开发流程正经历AI化转型。

图像生成现象/趋势

08:00

HuggingFace Daily Papers（社区热门论文）

ReImagine：通过图像优先合成重新思考可控高质量人体视频生成

研究团队提出ReImagine方法，采用图像优先策略解决人体视频生成中外观、运动与视角联合建模的难题。该方法将外观建模与时间一致性解耦，通过预训练图像主干学习高质量外观作为视频合成先验，结合SMPL-X运动引导与免训练的时间细化阶段，实现姿态和视角可控的高质量视频生成。团队同时发布了规范人体数据集与组合式人体图像合成辅助模型，代码与数据均已开源。

图像生成视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MMCORE：基于表征对齐潜在嵌入的多模态连接

MMCORE 是一个统一的多模态图像生成与编辑框架，通过预训练视觉语言模型（VLM）预测语义视觉嵌入，并将其作为条件信号引导扩散模型。该设计无需深度融合自回归与扩散模型或从头训练，显著降低计算成本的同时保持高保真合成。框架支持文本到图像生成与交错图像生成，在空间推理和视觉定位等复杂场景中展现出强大的多模态理解能力，在多项文本到图像及单/多图像编辑基准测试中均优于现有最先进基线。

arXiv 图像生成多模态论文/研究

4月20日

13:37

Hacker News 热门（buzzing.cc 中文翻译）

Show HN：使用 Gemma 4 E2B 在浏览器中运行 Prompt-to-Excalidraw 演示（3.1GB）

开发者发布了一个基于 Gemma 4 和 E2B 的 Prompt-to-Excalidraw 浏览器演示，支持通过自然语言提示直接生成 Excalidraw 手绘图表。该方案将 3.1GB 的 Gemma 4 模型完全部署在浏览器端本地运行，借助 E2B 沙箱环境实现前端 AI 推理，无需后端服务器支持。项目在 Hacker News 获得 101 个赞。

Google 图像生成开源/仓库端侧

08:00

HuggingFace Daily Papers（社区热门论文）

UDM-GRPO：面向均匀离散扩散模型的稳定高效群体相对策略优化

本文提出UDM-GRPO框架，首次实现均匀离散扩散模型与强化学习的稳定结合。针对训练不稳定问题，该方法将最终干净样本作为动作，并通过扩散前向过程重建轨迹以对齐预训练分布。此外，引入Reduced-Step和CFG-Free策略提升效率。实验表明，GenEval准确率从69%提升至96%，PickScore从20.46提升至23.81，OCR基准准确率从8%跃升至57%，在文本到图像任务中达到SOTA性能。

图像生成数据/训练论文/研究

4月19日

21:37

The Decoder：AI News（RSS）

德国法院裁定AI将受版权保护照片改编为漫画不侵犯原作品版权

德国高等地区法院近日裁定，使用AI将受版权保护的照片转换为漫画作品不构成版权侵权。法院认定，只要AI仅复制原作的"主题"（motif）而非具体表达形式，此类改编即属合法范围。该判决明确了AI转换性使用的法律边界，为生成式AI在版权领域的应用提供了重要司法参考。

图像生成政策/监管

17:37

The Decoder：AI News（RSS）

中期选举前AI生成网红涌入社交媒体发布亲特朗普内容

数百个AI虚拟形象正在TikTok、Instagram和YouTube等平台密集发布支持特朗普的内容。部分账号已积累超过3.5万粉丝和数百万次观看，特朗普本人也曾分享相关AI生成内容。目前尚不清楚这些活动是个人行为还是协调竞选操作，这一现象正值美国中期选举前夕。

图像生成现象/趋势视频

08:00

HuggingFace Daily Papers（社区热门论文）

UniGeo：通过视频模型统一几何引导以实现相机可控图像编辑

针对现有相机可控图像编辑方法因几何引导碎片化导致的几何漂移与结构退化问题，研究团队提出了UniGeo新框架。该框架利用视频模型提供连续视角先验，并首次在表征、架构和损失函数三个层级系统性地统一注入几何引导。具体创新包括：表征层的帧解耦几何参考注入、架构层的几何锚点注意力对齐多视图特征，以及损失函数层的轨迹端点几何监督策略。在多个公开基准测试中，UniGeo在广泛及有限的相机运动设置下，于视觉质量和几何一致性方面均显著优于现有方法。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

联合图像-特征扩散中的协同进化表示

针对联合图像-特征扩散模型中语义表示空间固定不变的问题，CoReDi 框架通过协同进化机制，在训练过程中联合优化轻量级线性投影与扩散模型，动态调整表示空间以适应生成任务。该方法结合停止梯度目标、归一化和针对性正则化防止特征崩溃，增强了语义特征与图像潜变量的互补性。在 VAE 潜变量扩散和像素空间扩散的实验表明，相比固定表示空间的方法，CoReDi 实现了更快的收敛速度和更高的样本质量。

图像生成数据/训练论文/研究

4月17日

23:55

HuggingFace Daily Papers（社区热门论文）

超越提示：面向分布外形状的无条件3D反演

当前最先进的文本到3D生成模型存在"潜在汇点陷阱"：模型在特定区域对文本提示修改不敏感，导致无法通过改变输入文本来调整输出几何。这并非几何表达能力不足，而是对分布外文本指导的敏感性缺失。研究提出利用模型无条件生成先验，将几何表示与语言敏感性解耦以绕过该陷阱，实现了对分布外3D形状的高保真语义编辑，突破了现有3D流水线的局限性。

arXiv 图像生成多模态论文/研究

13:53

HuggingFace Daily Papers（社区热门论文）

GlobalSplat：基于全局场景Token的高效前馈式3D Gaussian Splatting

研究团队推出GlobalSplat框架，采用"先对齐后解码"策略，通过学习紧凑的全局潜在场景表示来解析跨视图对应关系，再解码显式3D几何，有效解决了传统方法因局部分配策略导致的全局一致性差和表示冗余问题。该框架在RealEstate10K和ACID数据集上仅需16K Gaussians（4MB存储）即可实现高质量新视角合成，单次前向传播推理速度达78毫秒以内，显著优于密集基线方法。

图像生成端侧论文/研究

10:53

HuggingFace Daily Papers（社区热门论文）

LeapAlign：通过构建两步轨迹实现流匹配模型在任意生成步骤的后训练

研究人员提出LeapAlign微调方法，通过将长生成轨迹压缩为两步连续跳跃（leap）解决流匹配模型后训练中反向传播的梯度爆炸与内存瓶颈问题。该方法随机化跳跃起止时间步以支持任意生成步骤的直接梯度更新，并对高一致性轨迹分配更高权重、对大幅梯度项降权处理以增强稳定性。在Flux模型上的实验表明，该方法在图像质量和图文对齐等指标上持续优于GRPO及直接梯度等现有方法。

arXiv 图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

C-GenReg：通过多视图一致的几何到图像生成与概率模态融合实现无需训练的3D点云配准

C-GenReg是一种无需训练的3D点云配准框架，利用世界基础模型将输入几何转换为多视图一致的RGB图像，借助视觉基础模型(VFM)在图像域提取密集对应关系，再通过深度图映射回3D空间。该方法采用"Match-then-Fuse"概率冷融合策略，将生成RGB分支与原始几何分支的对应后验进行融合，无需额外学习即可提供校准置信度。作为零样本即插即用方案，C-GenReg所有模块均无需微调，在室内3DMatch、ScanNet及室外Waymo基准测试中展现出卓越的跨域泛化能力，并首次在真实室外LiDAR数据上实现生成式配准。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

揭示扩散概率模型的 SNR-t 偏差

扩散概率模型在推理阶段存在信噪比-时间步（SNR-t）偏差，即去噪样本的信噪比与其时间步发生错位，导致误差累积和生成质量下降。研究者提出差分校正方法，依据模型先重建低频再处理高频的特性，将样本分解为不同频率成分并分别校正。实验表明，该方法在 IDDPM、ADM、DDIM、EDM、PFGM++、FLUX 等 8 种模型及多分辨率数据集上均显著改善生成质量，且计算开销可忽略。

Hugging Face 图像生成论文/研究

4月16日

08:00

HuggingFace Daily Papers（社区热门论文）

RE-Edit：面向推理感知图像编辑的多维度基准测试

RE-Edit 是一个评估图像编辑系统隐式推理能力的多维度基准，包含五个推理维度（物理、环境、文化、因果、指代）和 1,000 个精心设计的样本。研究测试了十种开源和两种商用图像编辑模型，发现即使先进系统在满足隐含逻辑约束时也经常失败，尽管能生成高质量视觉内容。论文还提出了一种轻量级推理引导后编辑基线，初步探索了显式推理在模型无关方式下缓解此类错误的可能性。

arXiv 图像生成多模态推理

08:00

HuggingFace Daily Papers（社区热门论文）

一维有序token实现高效测试时搜索

本文探讨token结构对自回归模型测试时搜索能力的影响。研究表明，采用粗到细结构的一维有序token其中间状态具备可验证的语义意义，使验证器能有效引导生成，显著优于传统二维网格结构。实验显示，基于此类token训练的模型在测试时扩展行为上表现更佳。此外，研究实现了无需训练AR模型的纯测试时搜索文本到图像生成，并系统分析了best-of-N、束搜索等经典算法与不同token结构的交互机制，为自回归模型的推理时扩展提供了实践指导。

arXiv 图像生成推理论文/研究

4月15日

18:56

HuggingFace Daily Papers（社区热门论文）

领域特定潜在表征提升扩散模型医学图像超分辨率保真度

医学图像超分辨率模型多沿用自然图像设计的通用变分自编码器（VAE），研究发现这是重建质量的主要瓶颈。在控制实验中，将在160万张医学图像上预训练的MedVAE替换Stable Diffusion VAE后，膝关节MRI、脑部MRI和胸部X光的PSNR提升2.91至3.29 dB（p<10^{-20}），优势集中于高频解剖细节。消融实验证实性能差距稳定且幻觉率无显著差异。自编码器重建质量可预测下游性能（R²=0.67），表明领域特定VAE的选择应优先于扩散架构优化。

arXiv 图像生成论文/研究

18:00

公众号：生数科技（Vidu·视频）

生数科技Vidu发布《AI漫剧视频模型行业白皮书V1.0》

生数科技Vidu正式发布《AI漫剧视频模型行业白皮书V1.0》，该白皮书已上市。

图像生成行业动态视频

08:00

HuggingFace Daily Papers（社区热门论文）

OneHOI：统一人-物交互生成与编辑

本文提出OneHOI，一个统一人-物交互（HOI）生成与编辑的扩散Transformer框架，将两项任务整合为基于共享结构化交互表示的条件去噪过程。核心R-DiT通过角色与实例感知HOI token、空间Action Grounding、结构化HOI注意力及HOI RoPE机制，建模动词介导关系并解耦多交互场景。基于HOI-Edit-44K等数据集联合训练，支持布局引导、任意掩码及混合条件控制，在生成与编辑任务上均达SOTA性能。

arXiv 图像生成论文/研究