MRT是一个20B参数的掩码区域扩散模型,专为多层透明图像生成与编辑设计。它在超过1000万个多语言设计样本上训练,统一了文本到图层、图像到图层和图层到图层三项任务。模型通过选择性token掩码实现灵活的图层生成与编辑,并引入溢出感知画布图层以处理边界不一致问题,支持半透明背景合成。此外,应用扩散蒸馏实现了8步实时生成。实验表明,MRT在所有任务上显著优于先前先进方法与商业系统。用户研究显示,其图像到图层质量优于同期Qwen-Image-Layered模型,推理速度快10-100倍,GPU内存消耗降低50-90%。
RT-Lynx 提出了一种新范式,将扩散模型(Diffusion Transformers)的加速方法从权重稀疏化转向激活稀疏化。研究发现,DiT 模型的激活值具有内在稀疏性,且比权重更耐受 N:M 半结构化稀疏剪枝。通过在激活上应用 N:M 稀疏化并引入误差补偿技术,RT-Lynx 在保持生成质量的同时,实现了线性层平均最高 1.55 倍的推理速度提升。该方法在多个扩散模型上通过了实验验证。
现代GAN常被解读为多阶段粗到细生成,但论文指出,标准的分尺度对抗监督并未构建此层级结构:各阶段输出被独立推向真实分布,导致跨阶段输出可能并非同一生成样本,即存在“跨尺度轨迹错位”问题。为此,论文提出跨尺度对齐Transformer (CAT),在保持鉴别器分尺度评估的同时,于生成器侧引入一致性正则化,将中间输出与最终输出对齐。在条件ImageNet-256上,CAT-H/2仅训练60周期,一步推理FID-50K达到1.56,优于多个单步GAN及扩散/流模型基线。
BiDPO是一种旨在增强文本到图像模型组合式生成能力的框架,用于更准确地反映包含属性绑定、对象关系和计数的复杂提示。该框架通过精心设计的流程构建了大规模偏好数据集BiComp,并扩展Diffusion DPO技术,联合优化图像与文本偏好。此外,采用区域级指导方法以聚焦于与组合概念相关的区域。实验结果表明,BiDPO在多个基准测试上显著提升了组合保真度,并持续优于现有方法。
FBI 指出,通过 Instagram 上一个可疑的保存帖子,可以将一名男子与一个 AI 色情账号联系起来。
本文提出奖励倾斜分布匹配蒸馏(RTDMD),这是一个将分布匹配蒸馏与奖励引导强化学习统一应用于少步流生成器的两阶段框架。该方法通过最小化到奖励倾斜教师分布的KL散度,自然分解为分布匹配项与奖励最大化项。第一阶段引入环境一致分布匹配蒸馏(AC-DMD),在子区间进行分布匹配,并通过一致性正则化辅助分数模型追踪生成器分布。第二阶段联合优化两项,并推导混合策略梯度及步子集GRPO(SubGRPO)以降低方差。在SD3、SD3.5和FLUX.2上的实验表明,RTDMD仅用4步推理即可在偏好、美学和组合指标上达到新的 state-of-the-art。
本文提出通道级向量量化,这是一种新的图像token化范式,用通道级token取代了传统的基于块的token。该方法量化特征图的每个通道,将图像表示为离散的视觉细节层次。基于此,作者提出了采用“下一个通道预测”机制的通道级自回归模型。该模型顺序预测通道,先勾勒全局结构再细化细节。实验表明,CVQ在16K+大小的码本上实现了100%利用率,显著提升了重建质量;CAR模型在文本到图像生成任务中取得了86.7的DPG分数和0.79的GenEval分数。
研究将 Transformer 中的注意力矩阵表征为编码特征间关联的联想记忆矩阵。通过将其分解为对称与反对称部分,前者被解释为控制能量景观的结构,后者驱动该景观上的循环运动。基于对称部分推导出 Hopfield 风格的稳定度量,用于量化检索特征的稳定性。观察发现,这些稳定度量与生成中的保真度-多样性权衡存在有意义的相关性。最终,提出通过修改底层动态的循环来调节该权衡的可控方法。代码已开源。
自如设计师借助百度智能云文心的AI能力,将室内设计效果图的生成时间从原本的半天大幅缩短至几秒。这一实验展示了生成式AI在居住空间设计中的实际落地效果,显著提升设计师的工作效率和客户沟通体验。
英国整形医生发现,越来越多求美者带着AI生成的“完美版自己”自拍咨询,追求零毛孔、极度对称的五官等几乎无法通过现实手术实现的“AI脸”特征。这种高度模板化的图像(如女性V字脸、男性宽下颌)被患者视为整形目标,医生们担忧其强烈的心理影响及手术无法兑现预期的现实局限。此外,社交媒体上部分“整形奇迹”案例的真实性也受到AI生成的质疑。
苹果 iOS 27 将为 Genmoji 和 Image Playground 功能带来显著的画质提升。此前在 iOS 18.2 首次上线时,Image Playground 画质欠佳。苹果为其自有图像生成模型进行了优化,并计划在该系统中接入除 OpenAI ChatGPT 之外的更多第三方 AI 图像生成模型。
CollectionLoRA是一个多教师在策略蒸馏框架,旨在解决为扩散模型定制大量视觉效果时,因存储、加载多个LoRA导致的部署开销及参数干扰问题。该框架可将多达50种独立的效果LoRA概念与少步生成能力统一蒸馏到一个单一的LoRA模型中。其核心技术包括概率双流路由机制、非对称正交提示策略以及粗到精蒸馏目标,用以增强泛化、隔离概念并弥合教师与学生模型间的分布差异。评估显示,CollectionLoRA在显著降低部署成本的同时,实现了与独立教师模型相当或更优的概念保真度。
SKILD是一个尺度不变的扩散模型,它利用自然图像和物理系统的尺度不变性,在一个统一的无条件框架内同时实现图像生成和连续超分辨率任务。其前向过程从细到粗尺度逐步衰减图像内容并注入噪声。训练后的反向过程仅通过改变起始时间步,即可执行生成或超分辨率,无需任务特定架构。在无条件CIFAR-10上,SKILD达到FID 2.65和Inception Score 9.63;在ImageNet上,它从单一无条件检查点实现了2倍至8倍超分辨率,并在感知指标上优于条件模型。
现有主体驱动生成方法因分别编码文本与参考图像,存在跨模态推理不足与复制粘贴伪影等问题。本研究将扩散模型建立在联合编码文本与参考图像的多模态大语言模型(MLLMs)之上,并引入基于VAE的身份条件。通过设计双层聚合(DLA)模块汇聚多层次的MLLM特征,以及采用多阶段去噪策略,在推理时逐步平衡来自MLLM的语义信息与来自VAE的身份细节。实验表明,该方法能协调多模态理解与身份保留,缓解复制粘贴问题,并在人类偏好评估中取得优越性能。
苹果将在 iOS 27 系统中大幅升级相机与照片应用。相机应用将引入自定义界面布局功能,允许用户将闪光灯、曝光控制、定时器等选项直接放置在主界面,并强化专业控制。同时,视觉智能功能将以全新 Siri 形态集成至相机,新增扫描食品营养标签、名片等能力。照片应用则新增“扩展”“增强”“重构”三项 AI 编辑工具,分别对应生成式填充、自动优化画质以及调整空间照片构图。
本文提出MVCHead,一个单次前馈状态空间模型。它仅从随机2D图像学习条件与无条件3D头部模型,无需使用多视角数据、3D监督或中间视角生成。模型核心是分层状态空间块,通过分层双向状态扫描渐进式优化高斯分布并捕捉长程依赖,以直接在3D表示中强制多视角一致性。同时,设计了一个SE(3)多视角评判器,在未观测真实多视角对的情况下,奖励跨视角像素对齐。MVCHead达到了SOTA的感知质量,超越先前方法的纹理和几何一致性。此外,文章发布了首个大规模可用3D Gaussian头部资产数据集FaceGS-10K,用于训练与评估。
Visual Concept Fusion (VCF) 是首个在推理阶段同时接受图像和文本提示、无需概念特定训练的方法。它通过将 CLIP 图像特征对齐到文本嵌入空间,实现视觉概念注入。VCF 包含一个轻量级对齐器、一种融合策略以及可选的提示噪声优化(PNO)模块。实验表明,VCF 能从参考图像转移风格、构图和调色板等视觉属性,同时遵循文本提示。定量结果显示,其文本对齐度(CLIP 分数)与视觉相似度(LPIPS)之间存在权衡,但在参考保真度上优于基线方法。
研究发现,自然图像的语义信息主要编码在方向分量中,其范数分量可由全局平均近似,表明图像数据本质上可建模于超球面。基于此,论文提出了两种几何感知方法:利用角距离的球形最优传输流匹配(SOT-CFM)与在流形上约束动力学的球形流匹配(SFM)。实验证明,这两种方法性能优于欧几里得基线,为基于黎曼流形的建模与自然图像生成之间建立了联系。
翻译网页图像中的文本对提升内容可访问性至关重要。现有大型视觉语言模型因视觉表征差距,常忽视识别多样字符形态所需的细粒度视觉细节,导致在此任务上表现不佳。为此,本研究提出VaaWIT框架,它通过双流注意力模块实现多语义特征与视觉细节的双向交互,并利用视觉感知适配器以参数高效微调方式将融合特征注入冻结的大语言模型骨干。实验表明,该框架在三个公开基准的八个任务上显著超越了SOTA开源基线模型,性能可与闭源模型相媲美。
研究团队提出一种名为 SEGA 的无训练方法,用于解决扩散 Transformer 在生成超出训练分辨率图像时性能下降的问题。该方法根据去噪过程中潜变量的空间-频谱结构,对旋转位置编码的不同频率分量进行动态、自适应的注意力缩放,从而在提升图像全局结构连贯性的同时,更好地恢复细节保真度。实验表明,SEGA 在多种目标分辨率上均能稳定提升高分辨率图像合成质量,优于当前最先进的无训练基线方法。
Antigravity 2.0 在 OpenSCAD 建筑 3D 大型语言模型基准测试中夺得第一。该模型在生成符合 OpenSCAD 语法的建筑三维代码任务上,显著优于其他参与评估的模型,标志着其在该专业领域的领先地位。
表征自编码器(RAEs)使用冻结的视觉模型作为编码器,这在提供高质量生成的同时,限制了其空间重建能力。针对微调能改善重建但会损害生成质量这一权衡难题,本文提出了DecQ框架。该框架引入轻量级的“细节凝练查询”模块,从视觉模型的中间层提取细粒度信息,并将其融合到解码器和生成过程中。实验表明,仅增加8个查询和3.9%的计算量,DecQ就能将基于DINOv2的表征自编码器的峰值信噪比从19.13 dB显著提升至22.76 dB;在生成任务上,其收敛速度比原始框架快3.3倍,FID分数在无引导和有引导下分别达到1.41和1.05,有效兼顾了重建与生成性能。
美团技术团队正式开源 LongCat-Video-Avatar 1.5,该版本从高拟真走向真可用,将视频头像生成从室内彩排演练推向千人千面的真实应用场景。
本研究探讨预训练表示空间在流匹配学习中的优势。比较像素、SD-VAE与DINOv2特征后发现,尽管像素与DINOv2的内在维度相近,但DINOv2在几何统计特性(如有效秩、协方差条件等)上表现更优,使回归过程更稳定。基于此,我们提出了表示图像变换器(RiT),它使用冻结的DINOv2特征,通过x-prediction目标训练一个原生扩散变换器。在ImageNet 256×256生成任务上,RiT性能优于参数量更多的DiT^DH-XL模型,且生成的常微分方程仅需少量步骤即可高效求解。
图像超分辨率(SR)中的生成先验常因频谱失配而牺牲保真度。本文提出ASASR框架,通过“着色”噪声转换核以匹配自然图像频谱衰减,将生成流重构为Sobolev诱导的黎曼几何,从而解决这一问题。其核心在于集成一个基于Riesz表示定理的参数化对抗器,该对抗器生成等价于最差Sobolev梯度的负样本,沿可行结构失败的切线空间引导优化。评估表明,ASASR在保持频谱一致性与结构保真度方面优于现有生成方法,能有效缓解伪影。
PhotoFlow是一个用于闭环相机搜索的Director-Reviewer-Reflector智能体系统,能在预制3D场景中自主推断合适的摄影角度并生成最终图像。该系统包含VPhotoBench基准测试,涵盖47个Blender场景和141个基于语言的摄影任务。实验表明,在六轮渲染预算的设置下,PhotoFlow在多种基线方法中取得了最强的外部质量对齐表现和成功率。这是首个将基于语言的虚拟摄影转化为可执行智能体任务的工作,展示了以LLM为核心的智能体在同时涉及3D推理与美学判断的设置中,已能生成高质量摄影作品。
PiD是一种将潜在解码重构为条件像素扩散的解码器,统一了图像解码与上采样。它通过直接在高分辨率像素空间进行去噪,支持4倍及8倍上采样,并具有低延迟。模型采用轻量级sigma-aware适配器注入噪声潜在变量,允许提前终止潜在扩散过程;并利用DMD2进行蒸馏,将推理步骤压缩至4步。PiD兼容传统VAE潜在变量与语义潜在变量。在RTX 5090上,可将512x512潜在变量解码为2048x2048像素,耗时低于1秒,峰值内存13GB;在GB200 GPU上最快仅需210毫秒。
美团LongCat团队发布了LongCat-Video-Avatar-1.5,一个专注于音频驱动数字人视频生成的开源框架。其核心升级在于采用Whisper-Large音频编码器,显著优化了唇部动态的流畅度与自然度。该版本实现了精准的唇形同步、全身时序稳定性以及长视频中的身份一致性,并能泛化应用于动漫、动物及多人交互等复杂场景。通过基于DMD2的步蒸馏技术,模型仅需8步即可高效推理。团队还构建了一个涵盖多场景、多语言的人工评估基准,通过大规模主观评分与专家分析,验证了其在多项关键维度上的优异性能。
关联讨论 1 条IT之家(RSS)5月21日,三星Galaxy S23 Ultra国行版开始推送One UI 8.5系统更新。此次更新主打界面设计焕然一新,引入透明模糊效果和浮动元素,提升视觉层次感与交互感。盖乐世AI功能增强,照片助手支持连续生成图片,Bixby对话能力与设备控制更智能。此外,系统在主屏幕与锁定屏幕布局、电池与电源管理、安全隐私提醒等方面均有改进,并新增了快捷面板自定义、部分屏幕录制等实用功能。
字节跳动智能创作实验室发布了Lance,这是一款开源的原生统一多模态模型。它能够在单一框架内,同时处理图像与视频的理解、生成和编辑三大任务。该模型仅需激活30亿参数,实现了用一个轻量级模型统一处理多种视觉内容创作与理解的需求。
针对现有布局到图像模型在遮挡区域生成模糊、纹理缠绕及层次不一致的问题,本研究构建了包含遮挡排序与像素级标注的大规模数据集SA-Z。在此基础上,提出了OcclusionFormer,一种遮挡感知的扩散Transformer框架。该框架通过解耦实例并利用体积渲染进行合成,显式建模Z轴优先级,同时引入查询对齐损失监督单个实例以增强语义一致性。该方法有效降低了重叠区域歧义,确保了正确的遮挡依赖与结构完整,显著提升了生成精度。
当前,统一多模态模型通过混合多任务训练来提升图像理解、生成和编辑能力,但任务冲突导致需要复杂多阶段流程和大量数据平衡,仅实现性能折衷而非协同增强。为此,研究提出Uni-Edit,一种智能图像编辑任务,作为统一模型微调的首个通用任务。Uni-Edit只需单一任务、单一训练阶段和单一数据集,就能同步提升模型的三种核心能力。研究团队开发了首个自动化、可扩展的智能编辑数据合成流程,将多样化的VQA数据转化为嵌入问题与嵌套逻辑的复杂编辑指令,生成包含14.8万条数据的Uni-Edit-148k数据集。在BAGEL和Janus-Pro模型上的实验证实,仅基于Uni-Edit进行微调,即可全面增强模型的图像理解、生成和编辑能力,无需任何辅助操作。
Adobe 发布了 Photoshop 27.7 桌面版更新,核心升级是为“移除工具”新增了本地端侧 AI 模型支持。用户现在可以在不联网的情况下使用该功能移除对象,从而提升处理隐私并减少对网络的依赖。不过,此功能对硬件有明确要求,苹果 Mac 用户需搭载 M1 Pro 或更新芯片,且内存不低于 24GB,否则无法启用。此外,本次更新还包括集成 Firefly 灵感板以及将高级生成式 AI 功能的月度积分从 25 提升至 100。
该研究指出当前运动控制视频生成模型存在轨迹僵硬、因果不完整的问题。为此,MotiMotion框架将运动控制重新定义为“先推理再生成”的任务。其核心是利用一个无需训练的视觉语言推理器来完善主轨迹坐标,并“幻想”出合理的次要运动。同时,框架引入置信度感知控制方案,根据计划的可信度调整引导强度。为系统评估,研究还构建了新的运动交互基准MotiBench。评估表明,MotiMotion能生成物体行为和交互更合理可信的视频,效果优于现有方法。
针对高加速欠采样下MRI重建因模糊性导致高频细节丢失的问题,该研究将重建过程移至离散多尺度潜空间,并构建为自回归的“下一加速尺度预测”任务。方法利用视觉自回归建模中有效的离散先验,将解空间约束在紧凑的码本token序列中,从而即使从极度稀疏的测量中也能实现清晰重建。该框架自然适配大语言模型的后训练技术,并引入了在线策略蒸馏,利用教师模型在推理时不可用的特权上下文(完全采样数据)监督学生模型。在fastMRI基准测试的多种极端欠采样模式下,该方法均展现出改进的重建效果。