Training image models requires a surprising amount of Tinkering: prototyping reward models, training a prompt expander, ...
Training image models requires a surprising amount of Tinkering: prototyping reward models, training a prompt expander, ...
提出SpheRoPE框架,无需微调或优化,直接通过球形旋转位置编码(Spherical RoPE)将球面先验注入预训练扩散Transformer,实现零样本、无训练的360度全景图像与视频生成。低频率通道重参数化为3D笛卡尔坐标以编码球面流形,高频率通道进行谐波量化确保严格周期性,配合语义畸变无分类器引导(CFG)显式控制几何结构。在Flux.1、Flux.2和LTX-Video骨干上完成文生全景任务,性能达基线水平,无需任何训练。
DataEvolver提出自进化多智能体框架,将数据构建视为反馈驱动的策略进化。它包含检索器、验证器、评论家和生成器,利用被拒样本的失败信号指导下一轮构建。在PixArt-alpha上以0.75M规模测试,DataEvolver在TextScenesHQ上OCR-F1比最强基线提升85.3%,在LongTextBench上提升35.3%,且收益可迁移至Show-o2。
GEAR联合训练向量量化(VQ)分词器与自回归(AR)生成器,通过表示对齐实现端到端学习。为解决VQ索引不可微导致梯度无法回传问题,采用双读出机制:硬one-hot分支用于next-token预测训练AR模型,可微分软分支传递对齐损失指导分词器更新,使AR引导分词器生成更易预测的索引分布。相比LlamaGen-REPA,在ImageNet gFID收敛速度最高提升10倍,并泛化至VQVAE、LFQ、IBQ等量化器及文生图任务。
TerraDiT-Ω是一个统一空间控制框架,可直接利用任意地理空间基元(多边形、折线、边界框、点)进行卫星图像生成。它联合使用精确和粗略标注,适应不同标注预算,适用于城市规划等设计任务。提出Geometry-Aware Local Attention机制,将几何线索注入注意力空间。在所有格式上优于密集和稀疏控制基线。该框架支持可控数据增强,提升土地覆盖分割、目标检测、道路图提取、场景分类等下游性能。代码、数据、权重已开源。
ILLUME-X是一个统一多模态模型,能够自主生成高质量、自由形式的交错文本-图像序列。它通过三项核心组件实现:面向交错图文生成的扩展训练数据管道、基于自适应目标的渐进训练策略(适用于自由长度的多模态token序列),以及用于评估交错图文序列的客观综合方法ILScore。ILLUME-X在风格迁移、图像分解和故事讲述等多个交错图文生成任务上优于此前统一模型。
Nemotron-Labs-Diffusion-Image是一种用于高分辨率文本到图像合成的掩蔽离散扩散模型(MDM)。它引入token编辑机制,使推理时能动态修改已揭开的离散token,弥补标准MDM缺乏自纠正能力的缺陷;提出分组交叉熵(GCE)目标函数,为嵌入空间中邻近真实token的相邻token分配正学习信号,缓解大词汇量离散图像tokenizer带来的训练信号稀疏问题。同时实现针对GCE的自定义融合操作符,显著降低大词汇量场景下的显存占用。实验结果显示,该模型在GenEval上得分为0.90,DPG 86.9,HPSv3 10.76。
针对文本到图像模型在科学图像中语义对齐与逻辑推理的不足,本文提出SciIR框架,基于皮尔斯符号学三元组,涵盖实体结构、科学过程、科学定律三个维度。创建了SciIR-82k数据集,含超8万高质量科学图像-文本对,来自前沿论文,并引入科学推理思维链Sci-RCoT建模视觉逻辑。评估基准SciIR-Bench使用原子检查表将科学准确性转为可验证细粒度问题。实验表明当前模型推理能力不足;在SciIR-82k上微调的Qwen-Image-SciIR模型将Bench分数从35%提升至43%。
PhotoQuilt提出无需训练的任意分辨率光马赛克生成框架,通过自举式分块去噪解决高分辨率生成中局部细节与全局结构难以兼顾的问题。先低分辨率生成全局构图,再升维加噪恢复生成能力,然后在固定分块内独立去噪,使每个分块形成独立图像的同时保持整体布局一致。该方法避免了二次注意力开销,可扩展到大型画布。实验表明,PhotoQuilt在全局结构和局部真实感上均优于现有基线。
MirrorPPR 提出基于示例的结构化人像修图方法,通过 Retouching Operation Extractor 从示例对中提取细微修图操作,经连接器和 LoRA 模块注入预训练的 Diffusion Transformer(DiT)。为克服跨身份训练中的操作对齐难题,设计数据自增强范式确保严格对齐,并构建含超 4700 万对修图样本的大规模数据集 MirrorPPR47M,按模拟与专业子集组织以支持渐进课程学习。实验表明 MirrorPPR 在修图质量和身份保留上显著优于现有基线。
像素空间连续 token 自回归图像生成面临高维 patch 单步误差大与训练-推理 gap 累积问题。现有方法只能部分缓解。本文提出并行 rollout 近似(PRA),通过生成低维中间状态再经像素解码器映射回像素 token,并在训练时利用相同路径构造类推理像素输入,保持并行教师强制训练。在 ImageNet-1K 256×256 类条件生成上,135M 参数的 PRA-S 取得 FID 2.58,511M 参数的 PRA-L 降至 1.94,创像素空间 AR 模型新 SOTA,且分类探查准确率优于其他基线。
流匹配生成模型在强化学习后训练中,速度范数膨胀5%-15%导致感知质量下降,而推理时重缩放无法修复。NormGuard引入铰链惩罚,仅在速度范数超过参考值时激活,可加性组合到任何速度局部损失之上。在两种基础模型、三种后训练方法(NFT、AWM、DPO)和两种奖励代理上,NormGuard一致提升MLLM评判的图像质量和逼真度,同时保持奖励,且收益在少步推理下进一步放大,并非由早停解释。
TryOnCrafter是首个面向相机可控视频虚拟试穿(CaM-VVT)的统一DiT框架。它引入可渲染4D试穿代理,将高保真2D试穿先验蒸馏为基于3DGS的服装化身,再由SMPL-X序列驱动动画并度量对齐至重建背景点云,实现人体与环境的显式解耦。基于该代理作为几何锚点,Proxy-Anchored Video DiT生成严格遵循指定相机轨迹和物理形变的光照真实视频。该框架还支持人体重定位、子弹时间效果和360度轨道观看等应用。
自回归Transformer可生成高质量网格拓扑,但串行解码计算量比并行模型慢数个数量级;连续扩散与流匹配方法无法直接处理离散网格。PolyFlow提出紧凑拓扑嵌入器,将离散顶点位置和法线投影为连续逐顶点嵌入,通过时空距离阈值忠实恢复原始邻接信息。预训练并冻结该嵌入器后,任意网格可转换为统一连续顶点状态空间。基于此表示,PolyFlow采用Transformer流匹配框架,对提取的点云特征条件化,实现完全并行顶点状态去噪;推理时通过ODE求解器快速生成,并支持直接指定目标顶点数精确控制分辨率。在Toys4K基准上,PolyFlow的Chamfer距离和Hausdorff距离均超越现有自回归基线。
SharpMoE针对扩散混合专家模型的路由分配问题提出后训练框架。现有路由器因依赖噪声损坏的潜特征而无法准确区分显著token。SharpMoE利用干净潜特征作为无噪声引导信号,使路由器在高噪声阶段也能识别显著token,并引入轨迹路由损失约束多步去噪过程中的计算分配。实验表明,SharpMoE作为即插即用方案可增强预训练收敛的MoE模型,在视觉生成任务上达到SOTA表现。
Qwen-Image-2.0-RL 后训练流程应用 RLHF 和 on-policy distillation(OPD)提升 Qwen-Image-2.0 扩散模型的视觉质量与指令跟随。通过微调视觉语言模型构建任务特定复合奖励模型,覆盖文生图的对齐、美学、肖像保真度,以及图像编辑的指令准确性与人脸身份保持。基于 GRPO 的 RL 框架引入混合 CFG 策略、组内奖励范围过滤和分类权重校准。最终通过轨迹级速度匹配的 OPD 合并多个教师策略。评测显示,Qwen-Image-2.0-RL 在 Qwen-Image-Bench 总分 57.84(+2.61),文生图 Elo 1193(+78),图像编辑 Elo 1349(+93)。
针对文本到图像模型处理隐含、未明确或依赖最新知识的真实请求时出现的“上下文差距”,Qwen-Image-Agent 提出统一智能体框架,以上下文为中心整合规划、推理、搜索、记忆与反馈。其 Context-Aware Planning 识别缺失上下文并规划获取路径,Context Grounding 通过推理、搜索、记忆和反馈收集上下文。新基准 IA-Bench 涵盖规划、推理、搜索、记忆四项能力。在 IA-Bench、Mindbench 和 WISE-Verified 上,Qwen-Image-Agent 超越强基线,取得最优性能。
LISA是一种针对视觉条件可控生成的训练正则化方法。它将双分支范式(预训练主网络+侧网络)重新解释为基于分数的生成建模:主网络提供无条件先验分数,侧网络隐式贡献似然分数。LISA通过轻量解码器将侧网络指定层中间特征投影到分数隐空间,与构造的近似似然分数目标计算距离作为正则化损失,并与标准扩散损失联合优化。实验表明,LISA能一致加速训练收敛并提升合成质量,使侧网络特征更解耦,且几乎不增加训练成本、零额外推理成本。
FLAT 从单张图像直接解码视频扩散潜码中的三角形泼溅表面基元,首次实现前馈传递下从压缩潜码到显式三角形面片的映射。针对平面基元方向敏感、梯度流动困难问题,引入射线中心旋转参数化回归三角形,并设计乘积窗函数改进可微分三角形渲染的梯度流。标准基准上 FLAT 在保持视觉质量的同时取得显著更高的几何精度。轻量级测试时优化可将三角形网格转换为不透明、支持实时渲染的游戏引擎就绪表示。在相同训练设置下系统对比了 3DGS、2DGS 与三角形泼溅的表示权衡。
当前扩散Transformer(DiT)研究集中于ImageNet类别条件生成单一评估设置,方法排名与文生图(T2I)任务间无强相关。NanoGen框架统一了DiT训练与评估:在ImageNet上匹配SOTA基线,仅需修改12行配置即可训练T2I模型,两种任务训练计算量相当。基于NanoGen训练21个潜在扩散模型后,三个指标上ImageNet与T2I排名间的Pearson相关系数为-0.377至-0.580,表明仅靠ImageNet FID改进未必反映T2I真实进步。为此整合ImageNet与T2I结果形成DiffusionBench,作为替代单一ImageNet评估的DiT整体基准。
FLUX3D提出图像到3D高斯泼溅(3DGS)生成框架,解决两个结构性瓶颈:表示瓶颈(判别式2D特征构建稀疏体素潜在表示抑制重构线索)与跨模态对应瓶颈(标准扩散Transformer难对齐密集2D与稀疏3D token)。引入扩散对齐结构化潜在(DA-SLAT)与仅解码器架构提升3DGS保真度,并设计含稀疏结构多模态扩散Transformer(SMDiT)和模态感知旋转位置编码(MARoPE)的稀疏结构感知扩散框架,实现几何无关对齐。实验表明FLUX3D在外观保真度上显著超越现有SOTA。
MIMFlow是一个统一端到端框架,联合优化潜语义、像素重建和生成流。它采用VAE编码器从掩码图像推断语义潜变量,使归一化流专注于建模简化的低频频谱流形,专用解码器处理高频合成,从而解决归一化流的容量瓶颈。在ImageNet 256×256上,MIMFlow-L达到71.3%线性探测准确率和FID 2.50。仅使用128 token(比标准模型少50%),性能较相似规模NF基线提升32.8%。代码已开源。
COrigami是一个端到端AI驱动管道,从自然语言生成可折叠平面折纸的折痕图案。管道流程包括生成语义火柴人、计算基础填充、求解可折叠折痕图案、塑造平面折叠图案,并通过强化学习与自主审美评估循环对生成模型进行优化。该系统作为高效协作助手,为人类艺术家提供结构起点,展示了AI如何在满足多目标物理约束(如平面可折叠性方程)的前提下实现可靠的、基于数学的协同创造力。
Lift4D是一个测试时优化框架,从单目视频重建动态物体的完整几何、外观和变形,包括相机从未观察到的区域。它通过因果潜在条件化使单视图3D重建模型(图像到3D DiT)生成时间一致的逐帧预测,作为可变形3D高斯泼溅表示的初始化;随后结合遮挡感知优化与视图条件扩散先验,恢复可见表面细节并补全被遮挡及未观测部分。在合成和真实场景中,Lift4D在严重遮挡与非刚性运动下显著优于先前4D重建方法。
流匹配模型成为少步文本到图像生成的主流范式,但现有安全方法难以适应极少采样步数。VESFlow是一种无需训练的安全方法,直接利用流匹配模型学习的边际速度场,通过安全条件后验编辑速度场,将轨迹导向安全输出而不改变提示词。引入基于风险分数的过滤,绕过良性提示的速度编辑以降低计算开销。进一步提出VESFlow+,同时向安全方向编辑并远离不安全方向。实验表明,在4步MeanFlow模型上,VESFlow+将目标概念攻击成功率降至6.3%(Ring-A-Bell)和6.8%(MMA-Diffusion),同时保持良性提示的生成保真度。
Tailor-Bench评估视觉世界模型模拟非常规物理交互的能力,设计三种渐进难度场景:常规(常见工具-任务组合)、非常规(属性兼容替代品)、不可能(违反属性工具)。在统一协议下,预测生成与描述生成分别测试无引导推理与忠实实现。实验表明模型性能从常规到非常规再到不可能逐步退化,暴露物理建模的长尾差距。失败分析显示图像模型无法实现正确状态变化,视频模型还有时间不一致,说明模型依赖表面视觉模式而非内化物理原理。
统一多模态大语言模型在文本到图像生成中难以准确遵循物体计数、空间关系等结构感知提示。IV-CoT提出隐式视觉思维链框架,将视觉条件查询分解为结构查询与语义查询的级联:结构查询先形成潜在视觉计划,语义查询再基于该计划渲染外观。训练时引入草图监督引导结构查询捕获结构信息,推理时无需草图或中间解码,单次前向传播完成隐式推理。在GenEval和T2I-CompBench上取得更优结果。
Moebius是一个仅0.22B参数的轻量级图像修复框架。其核心是Local-λ Mix Interaction(LλMI)模块,将空间上下文与全局语义先验压缩为固定大小线性矩阵,大幅减少参数。结合自适应多粒度蒸馏策略,在隐空间中从教师模型迁移表征能力,动态平衡多层级梯度损失。在Places2、CelebA-HQ、FFHQ等6个自然场景和人像基准上,Moebius的生成质量与11.9B参数的FLUX.1-Fill-Dev持平甚至超越,参数量不足其2%,总推理速度提升超过15倍。
现有文本到图像模型虽保真度高,但生成样本单一。现有多样性方法往往产生偶然变化而非有意义的设计选择。本文提出可控多样性方法“语义浏览”,让用户沿可解释变化轴系统遍历结构化图像画廊。核心思路是将语义决策与像素生成分离,直接在文本层面诱导多样性:利用视觉语言模型(VLM)操作完整场景上下文,并通过智能体工作流强制执行与原始提示一致的结构化变化。该方法生成多样且可导航的设计空间,每种变化对应一个可理解的语义决策。
FID是图像生成的事实标准评估指标,但大多数论文仅报告单一种子下的单个数值。本研究将FID视为训练种子和生成种子两个轴上的随机变量,在数百个SiT网络上直接测量方差。发现:重新训练模型使FID变化幅度是固定网络重新采样的3.2倍,差距来自随机初始化、数据顺序和流匹配损失的高斯噪声;增加计算或模型大小几乎不缩小分散度,FID变异系数稳定在1-2%;每格无分类器引导调优使分散度减半,但重新洗牌最优种子。建议:在每格最优引导下评估,将低于~1.3% CoV的FID差距视为无结论,报告多个训练种子的误差条。
条件扩散和流模型常生成与输入约束不一致的样本。FlowBender 是一个闭环框架,将对齐误差作为第一类输入,训练网络学习基于推理时反馈的修正策略。通过无引导的前向预估步骤估计干净信号,经前向算子计算偏差,再由精炼步骤生成修正速度。包含基于梯度的实现和针对不可微场景的零阶变体,并利用前一步捷径降低额外计算成本。在图像到图像翻译、图像复原和3D网格纹理任务中,同时提升了保真度与合理性。
JanusMesh是一个无需训练、文本驱动的3D视觉错觉生成框架,可在3-5分钟内生成从不同视角呈现完全不同语义的单一3D网格。该方法将生成解耦为两阶段:跨空间双分支去噪过程在体素空间中动态解码3D潜在表示,通过CLIP引导的视角对齐和SDF融合实现无缝几何融合;视图条件纹理合成模块将视图特定的2D扩散先验投影并聚合到融合几何体上。实验表明,该方法在几何完整性、语义可识别性和效率上显著优于现有方法。
风格-内容双参考生成旨在合成图像,保留内容参考的结构语义并采用风格参考的样式。FreeStyle提出基于社区LoRA挖掘的可扩展双参考生成框架,将LoRA作为风格与内容的组合锚点,通过生成-过滤流程构建大规模三元组数据。针对内容泄漏,采用两阶段课程学习:注意力级增强约束抑制风格参考泄漏,频率感知RoPE调制策略应对双参考阶段的位置对应泄漏。引入覆盖风格参考与双参考生成的基准,包含风格不变内容对齐分数(CAS)和基于VLM的拒绝分数。实验表明模型在风格对齐、内容保留和泄漏抑制间取得强平衡。
针对流匹配模型匹配损失与生成质量的结构不匹配,提出Discriminator-Guided RL(DRL)。在预训练表示空间中训练判别器区分真实数据与基模型样本,将其logit作为KL正则化RL的奖励——该奖励近似数据与模型的对数似然比,直接优化数据分布。在SiT、JiT、REPA、RAE上,DRL一致降低无引导FID(SiT从9.38降至2.62)和语义空间FD(SiT在DINOv3上从88.2降至19.3),且在不依赖人类偏好数据的情况下提升人类偏好奖励。偏好微调中,DRL改善偏好奖励与图像保真度的帕累托前沿,减少过饱和等低层次伪影。
Mindgard 红队研究发现,ChatGPT 的图像生成器可通过简单提示词轻易绕过内容过滤器,在未直接请求的情况下自动生成性暴力、血腥谋杀等露骨图像。一个热门的“恢复照片”提示词因输入模糊而绕过输入过滤器,结果如同俄罗斯轮盘赌;进一步添加虚假图像 ID 和“不做审查”指令后,模型持续生成高度性化女性图像,甚至出现被捆绑殴打的尸体,并自动赋予惊悚标题。研究指出,OpenAI 此前声称修复的裸体问题仍未解决,暴露了 AI 工具广泛可及性与不足内容过滤的现实风险。
Go-with-the-Track将精确合成与运动控制统一在单一视频扩散Transformer中,通过联合多个参考图像和参考锚定点追踪实现。模型引入空间感知点追踪嵌入,利用坐标MLP和时序池化编码完整点轨迹序列,再通过轻量适配器注入模型,避免像素与补丁分辨率不匹配及下采样导致的信息损失。混合训练策略在动态、静态及合成视频数据集上联合训练以增强运动可控性。实验表明,该模型能支持多参考条件视频生成、点追踪驱动合成,并对静态与动态场景提供相机控制。
针对NCA在高分辨率下训练慢、信息传播局部化、推理计算重的局限,提出将粗网格NCA与轻量隐式解码器(LPPN)配对:解码器通过插值细胞状态与局部坐标直接输出任意分辨率的外观属性(如颜色、法线),且两者均为局部计算,推理可高度并行化。引入任务特定损失函数,以极小额外内存和计算开销监督形态发生与纹理合成。在2D/3D网格及网格域上的实验表明,混合模型能实时生成高分辨率输出,并保留NCA的自组织行为。
像素空间扩散模型训练面对全频带噪声图像,而有效信号具有强频率依赖性。本文提出 Spectral Forcing,即在 patch embedder 前对噪声输入施加时间条件 2D-DCT 低通算子,其截止频率随扩散时间单调扩展,在数据端点退化为恒等映射。该方法使去噪器无需内部学习频带边界,从而缓解容量分配问题。在 ImageNet-256 搭配 JiT-700M/32 上,不同训练轮次均一致提升 FID 和 Inception Score;粗 patch 分词化下收益显著,细分词化时仍有竞争力。将该算子直接插入统一文生图模型 SenseNova-U1,同样改进了 DPG-Bench 与 GenEval,表明输入侧频谱先验可迁移至类条件生成之外。