研究提出DiGSeg框架,将预训练扩散模型转化为通用分割器。该方法将输入图像与真实掩码编码为潜变量,作为扩散U-Net的条件输入,并通过并行CLIP文本通路注入多尺度语言特征,实现文本与视觉表征的对齐。实验表明,该框架在标准语义分割基准上取得领先性能,并在开放词汇泛化及跨域迁移(医疗、遥感、农业)中表现优异,且无需针对特定领域调整模型架构。这证明扩散模型不仅能用于图像生成,也可作为强大的通用视觉理解模型,缩小了生成与理解任务间的差距。
研究提出DiGSeg框架,将预训练扩散模型转化为通用分割器。该方法将输入图像与真实掩码编码为潜变量,作为扩散U-Net的条件输入,并通过并行CLIP文本通路注入多尺度语言特征,实现文本与视觉表征的对齐。实验表明,该框架在标准语义分割基准上取得领先性能,并在开放词汇泛化及跨域迁移(医疗、遥感、农业)中表现优异,且无需针对特定领域调整模型架构。这证明扩散模型不仅能用于图像生成,也可作为强大的通用视觉理解模型,缩小了生成与理解任务间的差距。
本文提出软各向异性图(SAD),一种基于图像平面自适应站点参数化的显式可微分图像表示方法。SAD通过各站点定义各向异性度量与加权距离,并依据像素前K个站点的softmax混合计算颜色,形成具有可学习温度的软加权Voronoi划分,在保持清晰边界的同时保留有效梯度。该方法支持基于前K映射的高效渲染,并采用受跳转扩散启发的传播方案更新站点。在Kodak数据集上,SAD以2.2秒编码时间达到46.0 dB PSNR,训练速度比先进基线快4-19倍,且在相同码率下性能更优。SAD还能无缝集成至可微分流程,并具备快速随机访问与紧凑存储优势。
研究指出,将人类多维度的视觉偏好压缩为二元胜负标签会产生严重的标签噪声,误导扩散模型直接偏好优化训练。为解决此问题,团队提出了Semi-DPO方法。该方法将标注一致的图像对视为干净数据,将存在冲突的视为带噪声的未标注数据。训练过程首先在共识过滤的干净子集上进行,然后利用该模型作为隐式分类器为噪声集生成伪标签,进行迭代优化。实验表明,Semi-DPO取得了最先进的性能,显著提升了与复杂人类偏好的对齐度,且无需额外人工标注或显式的奖励模型。代码和模型将在指定GitHub仓库开源。
针对现有可控扩散方法因架构孤立、流程不兼容导致的碎片化问题,研究团队提出统一开源插件框架Diffusion Templates。该框架通过模板模型、模板缓存和模板管道三大核心组件,实现基础模型推理与可控能力注入的解耦。其系统级接口设计支持KV-Cache、LoRA等多种异构能力载体。基于此构建的模型库覆盖了结构控制、图像编辑、超分辨率等十类任务,展现了框架在模块化、可组合性及跨模型可扩展性方面的统一能力。所有代码、模型与数据集将开源。
Meta-CoT提出一种新的图像编辑范式,通过两级分解提升模型的理解细粒度和任务泛化能力。该方法首先将任意编辑操作分解为(任务、目标、所需理解能力)三元组,以增强对编辑意图的细粒度理解;其次将编辑任务拆解为五个基础元任务,使训练仅需在这些元任务上进行,结合新引入的“思维链-编辑一致性奖励”机制,促使模型更准确地利用推理信息进行编辑。实验表明,该方法在21项编辑任务上实现了15.8%的整体性能提升,并能有效泛化到未见过的编辑任务。相关代码、基准测试和模型已开源。
用户@scottjla依据“鹈鹕骑自行车”测试框架,向ChatGPT Images 2.0模型提交了一个复杂提示,要求生成“马骑宇航员、宇航员骑鹈鹕、鹈鹕骑自行车”且保持平衡的混乱图像。模型生成的画面虽包含了这些核心元素,却自行添加了一个写有“WHY ARE YOU LIKE THIS”的路牌,以及披萨、罐头和牛仔帽等未在提示中要求的物件。这一案例揭示了当前文生图模型在理解与执行复杂指令时,可能自主引入带有超现实或评论性质的额外细节,反映了其创意逻辑与指令遵循之间的微妙偏差。
研究团队提出V-GRPO方法,通过将基于证据下界的似然替代函数与GRPO算法结合,解决了去噪生成模型与人类偏好对齐的难题。该方法降低了替代函数的方差并控制梯度步长,在文本到图像合成任务中实现了最先进的性能。相比现有方法MixGRPO和DiffusionNFT,V-GRPO分别带来2倍和3倍的加速效果,同时保持训练稳定性并与预训练目标自然对齐。
研究提出UniGenDet框架,首次将图像生成与生成图像检测任务置于统一的生成-判别架构中进行协同进化。该框架设计了共生多模态自注意力机制和统一微调算法,使生成任务能提升真实性判别的可解释性,同时真实性标准指导生成更高保真度的图像。通过检测器引导的生成对齐机制促进信息交换,在多个数据集上的实验表明,该方法取得了最先进的性能。代码已开源。
研究针对创意人脸风格化中身份保持的评估难题,提出了StyleID数据集与评估框架。该框架包含两个部分:StyleBench-H基准集收集了人类对基于扩散与流匹配生成的不同风格强度图像的异同判断;StyleBench-S监督集则通过受控二选一强制选择实验获取心理测量识别强度曲线。基于StyleBench-S对现有语义编码器进行微调,使其相似度排序与人类跨风格、跨强度的感知保持一致。实验表明,校准后的模型与人类判断的相关性显著提升,并对域外艺术家绘制肖像表现出更强的鲁棒性。所有数据集、代码与预训练模型均已公开。
研究团队提出了一种“语义进度函数”,用于分析和校正图像与视频生成模型中常见的非线性语义演变问题。该方法通过计算序列中每帧语义嵌入的距离,并拟合一条反映累积语义变化的平滑曲线,来揭示语义节奏的不均匀性。基于此,团队进一步提出了一种语义线性化程序,能够对序列进行重新参数化,使语义变化以恒定速率展开,从而产生更平滑、连贯的过渡。该框架是模型无关的,可用于识别时间不规则性、比较不同生成器的语义节奏,并能引导生成视频或真实视频序列朝向任意目标节奏发展。
研究提出“编辑即推理”(EAR)新范式,将视觉规划重构为单步图像转换任务,以提升计算效率。为分离推理与识别能力,团队创建了抽象谜题数据集AMAZE,包含迷宫和皇后两类任务,支持对自回归与扩散模型进行像素与逻辑的自动评估。测试发现,主流编辑模型在零样本设置下表现不佳,但经基础尺度微调后,能良好泛化至更大尺度及域外几何形状。然而,最佳模型在零样本效率上仍不及人类,揭示了神经视觉推理领域的持续差距。
神经表示在计算机断层扫描中能有效建模三维体数据,但在稀疏视图条件下会产生严重伪影。DiffNR 提出一种融合扩散先验增强神经表示优化的新框架,其核心是用于修正退化切片伪影的单步扩散模型 SliceFixer。该框架引入了专用条件层与数据策展策略以支持模型微调,并在重建过程中周期性地生成伪参考体数据,为欠约束区域提供辅助的三维感知监督。相比以往将 CT 求解器嵌入耗时迭代去噪过程的方法,DiffNR 采用的修复‑增强策略避免了频繁查询扩散模型,从而提升了运行效率。大量实验表明,DiffNR 平均将 PSNR 提升 3.99 dB,具有良好的跨领域泛化能力,并保持了高效的优化过程。
正文内容仅包含"Regurgitating ≠ understanding"(反刍不等于理解),缺乏撰写摘要所需的完整信息,如具体发布细节、功能变化或性能指标。请提供完整文章内容以便提取关键信息并撰写符合要求的摘要。
本文提出HP-Edit图像编辑人类偏好后训练框架,发布涵盖8类真实任务的RealPref-50K数据集。通过预训练视觉大语言模型和少量偏好数据构建HP-Scorer评估器,用于高效扩展偏好数据集并作为奖励函数优化扩散模型。同步推出RealPref-Bench基准。实验表明,该方法显著提升Qwen-Image-Edit-2509等模型编辑质量,使输出更贴合人类偏好。
SmartPhotoCrafter是一种无需显式人工指令的自动摄影图像编辑方法,通过Image Critic模块识别图像缺陷,Photographic Artist模块执行针对性增强。该方法采用三阶段训练:基础预训练建立审美能力,推理引导的多编辑监督融入语义指导,协调式强化学习联合优化两模块。实验表明,该方法在自动摄影增强任务中优于现有生成模型,在保持照片级真实感的同时对色调指令具有更高敏感度。
Tstars-Tryon 1.0 是一款商业级虚拟试衣系统,能够在极端姿势、光照变化和动态模糊等复杂场景下保持高成功率,生成保留服装纹理与材质细节的高保真图像。系统支持多达6张参考图的多图合成,覆盖8个时尚品类,并针对推理速度进行优化实现近实时生成。该技术已在淘宝App大规模部署,服务数百万用户并处理数千万次请求,同时团队发布了综合基准数据集以支持后续研究。
英伟达正式发布 DLSS 4.5 SDK,基于第二代 Transformer AI 模型,支持开发者将动态多帧生成、光线重构、超分辨率及帧生成等技术整合进游戏。新 SDK 优化了框架结构,提供统一接入路径并支持按需选择,显著降低 AI 图形技术的接入门槛。《83》《原子之心》等游戏将在未来支持该技术,助力新一代 PC 游戏提升性能与画质。
研究人员针对MeanFlow单步生成框架难以有效整合大语言模型文本编码器的问题,提出采用高判别性文本表征的解决方案。通过适配基于LLM的文本编码器并优化生成流程,首次实现高效的文本条件单步图像合成。实验表明,该方法在主流扩散模型上显著提升了生成性能,突破了原有类别标签条件的局限。相关代码已开源。
育碧安纳西工作室近期为一款基于虚幻引擎5开发的未公布3A多人游戏招募技术美术总监,任职要求中明确列出需熟练运用ChatGPT、Claude、Copilot等生成式AI模型。同期该工作室招聘的提示词专员岗位也要求精通GPT-4、Gemini等工具。这显示生成式AI正成为3A游戏开发的标配技能,可能应用于概念美术生成等环节,标志着传统游戏开发流程正经历AI化转型。
研究团队提出ReImagine方法,采用图像优先策略解决人体视频生成中外观、运动与视角联合建模的难题。该方法将外观建模与时间一致性解耦,通过预训练图像主干学习高质量外观作为视频合成先验,结合SMPL-X运动引导与免训练的时间细化阶段,实现姿态和视角可控的高质量视频生成。团队同时发布了规范人体数据集与组合式人体图像合成辅助模型,代码与数据均已开源。
MMCORE 是一个统一的多模态图像生成与编辑框架,通过预训练视觉语言模型(VLM)预测语义视觉嵌入,并将其作为条件信号引导扩散模型。该设计无需深度融合自回归与扩散模型或从头训练,显著降低计算成本的同时保持高保真合成。框架支持文本到图像生成与交错图像生成,在空间推理和视觉定位等复杂场景中展现出强大的多模态理解能力,在多项文本到图像及单/多图像编辑基准测试中均优于现有最先进基线。
开发者发布了一个基于 Gemma 4 和 E2B 的 Prompt-to-Excalidraw 浏览器演示,支持通过自然语言提示直接生成 Excalidraw 手绘图表。该方案将 3.1GB 的 Gemma 4 模型完全部署在浏览器端本地运行,借助 E2B 沙箱环境实现前端 AI 推理,无需后端服务器支持。项目在 Hacker News 获得 101 个赞。
本文提出UDM-GRPO框架,首次实现均匀离散扩散模型与强化学习的稳定结合。针对训练不稳定问题,该方法将最终干净样本作为动作,并通过扩散前向过程重建轨迹以对齐预训练分布。此外,引入Reduced-Step和CFG-Free策略提升效率。实验表明,GenEval准确率从69%提升至96%,PickScore从20.46提升至23.81,OCR基准准确率从8%跃升至57%,在文本到图像任务中达到SOTA性能。
德国高等地区法院近日裁定,使用AI将受版权保护的照片转换为漫画作品不构成版权侵权。法院认定,只要AI仅复制原作的"主题"(motif)而非具体表达形式,此类改编即属合法范围。该判决明确了AI转换性使用的法律边界,为生成式AI在版权领域的应用提供了重要司法参考。
数百个AI虚拟形象正在TikTok、Instagram和YouTube等平台密集发布支持特朗普的内容。部分账号已积累超过3.5万粉丝和数百万次观看,特朗普本人也曾分享相关AI生成内容。目前尚不清楚这些活动是个人行为还是协调竞选操作,这一现象正值美国中期选举前夕。
针对现有相机可控图像编辑方法因几何引导碎片化导致的几何漂移与结构退化问题,研究团队提出了UniGeo新框架。该框架利用视频模型提供连续视角先验,并首次在表征、架构和损失函数三个层级系统性地统一注入几何引导。具体创新包括:表征层的帧解耦几何参考注入、架构层的几何锚点注意力对齐多视图特征,以及损失函数层的轨迹端点几何监督策略。在多个公开基准测试中,UniGeo在广泛及有限的相机运动设置下,于视觉质量和几何一致性方面均显著优于现有方法。
针对联合图像-特征扩散模型中语义表示空间固定不变的问题,CoReDi 框架通过协同进化机制,在训练过程中联合优化轻量级线性投影与扩散模型,动态调整表示空间以适应生成任务。该方法结合停止梯度目标、归一化和针对性正则化防止特征崩溃,增强了语义特征与图像潜变量的互补性。在 VAE 潜变量扩散和像素空间扩散的实验表明,相比固定表示空间的方法,CoReDi 实现了更快的收敛速度和更高的样本质量。
当前最先进的文本到3D生成模型存在"潜在汇点陷阱":模型在特定区域对文本提示修改不敏感,导致无法通过改变输入文本来调整输出几何。这并非几何表达能力不足,而是对分布外文本指导的敏感性缺失。研究提出利用模型无条件生成先验,将几何表示与语言敏感性解耦以绕过该陷阱,实现了对分布外3D形状的高保真语义编辑,突破了现有3D流水线的局限性。
研究团队推出GlobalSplat框架,采用"先对齐后解码"策略,通过学习紧凑的全局潜在场景表示来解析跨视图对应关系,再解码显式3D几何,有效解决了传统方法因局部分配策略导致的全局一致性差和表示冗余问题。该框架在RealEstate10K和ACID数据集上仅需16K Gaussians(4MB存储)即可实现高质量新视角合成,单次前向传播推理速度达78毫秒以内,显著优于密集基线方法。
研究人员提出LeapAlign微调方法,通过将长生成轨迹压缩为两步连续跳跃(leap)解决流匹配模型后训练中反向传播的梯度爆炸与内存瓶颈问题。该方法随机化跳跃起止时间步以支持任意生成步骤的直接梯度更新,并对高一致性轨迹分配更高权重、对大幅梯度项降权处理以增强稳定性。在Flux模型上的实验表明,该方法在图像质量和图文对齐等指标上持续优于GRPO及直接梯度等现有方法。
C-GenReg是一种无需训练的3D点云配准框架,利用世界基础模型将输入几何转换为多视图一致的RGB图像,借助视觉基础模型(VFM)在图像域提取密集对应关系,再通过深度图映射回3D空间。该方法采用"Match-then-Fuse"概率冷融合策略,将生成RGB分支与原始几何分支的对应后验进行融合,无需额外学习即可提供校准置信度。作为零样本即插即用方案,C-GenReg所有模块均无需微调,在室内3DMatch、ScanNet及室外Waymo基准测试中展现出卓越的跨域泛化能力,并首次在真实室外LiDAR数据上实现生成式配准。
扩散概率模型在推理阶段存在信噪比-时间步(SNR-t)偏差,即去噪样本的信噪比与其时间步发生错位,导致误差累积和生成质量下降。研究者提出差分校正方法,依据模型先重建低频再处理高频的特性,将样本分解为不同频率成分并分别校正。实验表明,该方法在 IDDPM、ADM、DDIM、EDM、PFGM++、FLUX 等 8 种模型及多分辨率数据集上均显著改善生成质量,且计算开销可忽略。
RE-Edit 是一个评估图像编辑系统隐式推理能力的多维度基准,包含五个推理维度(物理、环境、文化、因果、指代)和 1,000 个精心设计的样本。研究测试了十种开源和两种商用图像编辑模型,发现即使先进系统在满足隐含逻辑约束时也经常失败,尽管能生成高质量视觉内容。论文还提出了一种轻量级推理引导后编辑基线,初步探索了显式推理在模型无关方式下缓解此类错误的可能性。
本文探讨token结构对自回归模型测试时搜索能力的影响。研究表明,采用粗到细结构的一维有序token其中间状态具备可验证的语义意义,使验证器能有效引导生成,显著优于传统二维网格结构。实验显示,基于此类token训练的模型在测试时扩展行为上表现更佳。此外,研究实现了无需训练AR模型的纯测试时搜索文本到图像生成,并系统分析了best-of-N、束搜索等经典算法与不同token结构的交互机制,为自回归模型的推理时扩展提供了实践指导。
医学图像超分辨率模型多沿用自然图像设计的通用变分自编码器(VAE),研究发现这是重建质量的主要瓶颈。在控制实验中,将在160万张医学图像上预训练的MedVAE替换Stable Diffusion VAE后,膝关节MRI、脑部MRI和胸部X光的PSNR提升2.91至3.29 dB(p<10^{-20}),优势集中于高频解剖细节。消融实验证实性能差距稳定且幻觉率无显著差异。自编码器重建质量可预测下游性能(R²=0.67),表明领域特定VAE的选择应优先于扩散架构优化。
本文提出OneHOI,一个统一人-物交互(HOI)生成与编辑的扩散Transformer框架,将两项任务整合为基于共享结构化交互表示的条件去噪过程。核心R-DiT通过角色与实例感知HOI token、空间Action Grounding、结构化HOI注意力及HOI RoPE机制,建模动词介导关系并解耦多交互场景。基于HOI-Edit-44K等数据集联合训练,支持布局引导、任意掩码及混合条件控制,在生成与编辑任务上均达SOTA性能。