针对扩散模型在少步采样时假设失效的问题,研究团队提出了归一化轨迹模型(NTM)。该模型将反向采样的每一步建模为具有精确似然训练的条件归一化流,其架构结合了步内的浅层可逆模块与跨轨迹的深度并行预测器,支持从零训练或由预训练流匹配模型初始化。NTM的精确轨迹似然使其能进行自蒸馏,仅需一个轻量级去噪器即可在四步内生成高质量样本。在文本到图像基准测试中,NTM仅用四步采样就能匹配或超越现有强基线,并独特地保持了生成轨迹的精确似然。
针对扩散模型在少步采样时假设失效的问题,研究团队提出了归一化轨迹模型(NTM)。该模型将反向采样的每一步建模为具有精确似然训练的条件归一化流,其架构结合了步内的浅层可逆模块与跨轨迹的深度并行预测器,支持从零训练或由预训练流匹配模型初始化。NTM的精确轨迹似然使其能进行自蒸馏,仅需一个轻量级去噪器即可在四步内生成高质量样本。在文本到图像基准测试中,NTM仅用四步采样就能匹配或超越现有强基线,并独特地保持了生成轨迹的精确似然。
为构建真正统一的文本-图像序列生成模型,研究团队提出STARFlow2。该模型基于Pretzel架构,通过残差跳跃连接垂直交织预训练视觉语言模型流与TarFlow流,两者共享因果掩码。结合深浅流设计与统一的FAE潜在空间,STARFlow2实现了缓存友好的交错生成,文本与视觉输出可直接进入KV缓存而无需重新编码。实验证明,该模型在图像生成与多模态理解任务上均表现优异,验证了自回归标准化流作为统一多模态建模基础的可行性。
研究人员发布了学习扩散模型积分的新方法,称为Flow Maps,该技术通过数学积分优化扩散过程的概率流,提升生成AI模型的采样效率和图像质量。在Hacker News上获得102点,显示科技社区的高度关注。这一进展可能降低扩散模型的计算成本,推动其在图像生成等领域的实际应用,为生成模型训练提供更高效的解决方案。
针对现有评估方法在图像到图像转换任务中忽视内容保真度与前后一致性的问题,研究团队提出了StableI2I。这是一个无需参考图像的动态评估框架,能在图像编辑、修复等多种任务中量化语义对应与空间结构的保持程度。团队同时构建了配套基准StableI2I-Bench,用于系统评估多模态大模型在此类判断任务上的准确性。实验表明,该框架能提供精细、可解释的评估结果,且与人类主观判断高度相关,可作为诊断真实世界图像转换系统内容一致性与模型性能的实用工具。
针对高性能少步图像生成模型(如Z-Image-Turbo)在持续监督微调中会损害其固有少步推理能力的问题,本文提出D-OPSD训练范式。该方法利用以LLM/VLM为编码器的扩散模型可继承上下文能力的特点,将训练构建为在线策略自蒸馏过程:模型同时扮演教师(以文本和图像多模态特征为条件)和学生(仅以文本特征为条件)双重角色,并通过最小化其在自身生成轨迹上两个预测分布的差异进行优化。这使得模型能在自身监督下学习新概念或风格,同时保持原有的高效少步生成能力。
研究团队在归一化流(NFs)生成模型领域取得新进展,提出了迭代TARFlow(iTARFlow)。该方法在训练阶段保持完全端到端的基于似然的目标,采样时则采用自回归生成方式。iTARFlow延续了TARFlow在图像建模任务上的优势,使其成为扩散模型等方法的可行替代方案,进一步提升了归一化流生成模型的性能表现。
Relit-LiVE提出了一种无需相机姿态先验知识的视频重照明框架。其核心创新在于,将原始参考图像显式引入渲染过程,以恢复固有表示中丢失的关键场景信息;同时,通过单一扩散过程联合预测重照明视频与每帧对齐的环境光照图,增强了几何-光照对齐性,显著提升了动态光照和相机运动下的物理一致性与时间稳定性。实验表明,该方法在合成与真实场景基准测试中均优于现有先进方法,并支持场景渲染、材质编辑等下游应用。
研究团队提出了理解导向的后训练框架UNO,旨在通过理解任务直接引导生成表征,以增强统一多模态模型中理解与生成组件间的协同。该框架整合了语义抽象(如图像描述)和结构细节(如视觉回归)目标,实现了从理解到生成的有效梯度流动。在图像生成与编辑任务上的实验表明,理解监督能显著提升生成质量,证实了理解对生成的催化作用。
《刺客信条》官方回应了网传多人游戏新作《刺客信条:不败》的截图,指出图片虽可能源自内部私人测试,但已被“大幅修改”,很可能是AI编辑所致,并批评了传播错误信息的行为。爆料用户随后承认对原图进行了编辑,包括修改服装颜色和移除水印。官方确认该项目正在推进,由育碧蒙特利尔开发,采用边测试边学习的方式,并强调玩家反馈是核心,未来将在适当时机分享更多内容。
前沃尔玛电商业务CEO马克·劳尔在其餐饮平台Wonder中推出AI工具“Wonder Create”,用户可在不到一分钟内生成完整的虚拟餐厅品牌,包括名称、描述、图片及菜谱。Wonder平台采用“可编程烹饪平台”模式,配备机器人厨房与700种食材库,能灵活切换25种菜系。该创新旨在大幅降低餐饮创业门槛,让用户快速测试新菜品与品牌概念。
英伟达在GTC 2026展示DLSS 5技术时,将《生化危机:安魂曲》女主角格蕾丝的形象AI修改为轮廓更锐利、眼睛不同、嘴唇更丰满的“美颜”效果,引发玩家强烈反感。玩家普遍认为原版设计更具真实感和个性。对此,游戏总监中西晃史回应称,玩家维护原版形象恰恰证明这个新角色获得了成功和认可,这让他对原创设计充满信心。制作人熊泽正人也表示,玩家对原版外观的强烈认同是积极信号。
美图公司2026年第一季度业绩显示,其全球付费订阅用户数突破1790万,同比增长30.2%,创历史新高。以付费订阅为主的影像与设计产品收入达8.52亿元,同比增长34.3%。公司首次披露AI生产力应用年度经常性收入(ARR)约为5.8亿元,同比大幅增长56.2%,相关付费用户增至234万。此外,用户对AI算力点的消耗金额也呈现快速增长态势。
研究提出一种混合方法,旨在缩小游戏引擎合成数据与真实图像之间的外观差异。该方法结合了先进图像生成扩散模型 FLUX.2-4B Klein 与传统图像翻译模型 REGEN 的优势。实验表明,传统模型 REGEN 在性能上优于 FLUX.2-4B Klein,而将两者结合使用的混合方法,能够比单独使用任一模型获得更好的视觉真实感,同时保持语义一致性。相关代码已在 GitHub 开源。
研究团队提出轨道空间几何概率路径(OGPP),这是一个专为粒子系统生成建模设计的原生粒子流匹配框架。该框架基于两个核心洞见:粒子具有置换对称性,匿名索引会导致难以学习的弯曲流;粒子存在于物理空间,其流终端速度可编码几何属性(如表面法线)。OGPP包含三个关键组件:轨道空间规范化、粒子索引嵌入以及具有弧长感知终端速度的几何概率路径。实验表明,在最小表面基准测试中,OGPP单步推理将误差降低达两个数量级;在ShapeNet上,它以更少的步骤和参数达到或超越了当前最佳性能;在单形状编码任务中,其完全在3D空间运行,生成的法线与重建结果可与6D生成器竞争。
IBM近日发布了采用Apache 2.0许可证的Granite 4.1大语言模型系列。随后,Unsloth提供了该系列3B模型的21个GGUF量化变体。作者利用这些大小从1.2GB到6.34GB不等的量化模型,尝试生成“鹈鹕骑自行车”的SVG图像以测试其能力。实验结果显示,所有模型生成的图像质量均较差,且未观察到模型大小与输出质量之间存在明显关联。基于此次不理想的尝试,作者表示未来将选用更擅长图像生成的模型重新进行此类实验。
JoyAI-Image是一个统一的多模态基础模型,集成了视觉理解、文本生成图像和指令引导的图像编辑功能。它通过空间增强的多模态大语言模型与多模态扩散变换器的耦合架构,实现了感知与生成的交互。其可扩展的训练方案融合了统一指令调优、长文本渲染监督及空间编辑信号,增强了模型的几何感知推理与可控视觉合成能力。实验表明,该模型在多项基准测试中达到领先或极具竞争力的性能。其核心在于通过增强理解、可控空间编辑和新视角推理之间的双向循环,推动模型向更强的空间智能演进,为下游应用提供了新路径。
SVGS方法通过为单个高斯基元引入空间变化的颜色和不透明度,提升了基于高斯显式表示的多视图重建能力。该方法实现了双线性插值、可移动核函数和微型神经网络三种空间变化函数,并采用2D高斯面元作为基元。实验表明,所有函数均优于基线,其中最佳的可移动核函数在多个数据集上实现了卓越的新视图合成性能,同时保持了高质量的几何重建。该方法尤其适用于现实世界中纹理复杂而几何相对简单的常见场景。
xAI 正式推出 Grok 4.3 模型,其核心策略是大幅降低价格并增强工具使用能力。新模型在实际任务处理上有所提升,但在性能上仍落后于 OpenAI 和 Anthropic 的顶尖模型。此次发布还引入了一个基于智能体的新型图像生成器“Imagine”模式,专门服务于创意项目。
针对图像编辑中缺乏通用奖励模型的问题,本研究提出Edit-R1框架。该框架构建了一个基于思维链的推理奖励模型,通过将编辑指令分解为多项原则进行细粒度评估,生成可解释的奖励信号。为训练此模型,研究采用监督微调进行“冷启动”,并引入群体对比偏好优化算法,利用人类成对偏好数据强化模型。实验表明,该推理奖励模型在编辑任务上超越了Seed-1.5-VL等视觉语言模型,且性能随参数规模从3B增至7B持续提升。最终,该框架成功提升了如FLUX.1-kontext等下游图像编辑模型的效果。
当前视觉生成模型在写实性、指令跟随等方面进展显著,但在空间推理、长程一致性与因果理解上仍面临挑战。研究主张从外观合成转向智能视觉生成,即生成基于结构、动态和因果关系的合理内容。为此提出了一个五级分类体系,标志着从被动渲染器到交互式、世界感知生成器的根本转变。关键技术驱动力包括流匹配、统一的理解-生成模型、数据策展与后训练等。现有评估常因过度强调感知质量而高估进展,忽视了结构与时序缺陷。结合基准评测与真实场景测试,该路线图为推进下一代智能视觉生成系统提供了以能力为中心的视角。
本研究提出FD-loss,通过将弗雷歇距离(FD)估计所需的大规模样本量与梯度计算的小批量解耦,首次将其有效优化为训练目标。该方法在不同表征空间中对基础生成器进行后训练,能持续提升样本视觉质量,并在Inception空间下使单步生成器在ImageNet 256x256上达到0.72的FID。FD-loss无需蒸馏或对抗训练,即可将多步生成器转化为高性能单步模型。研究同时发现,仅依赖Inception FID可能误导质量评估,因此提出了多表征度量指标FDr^k。这项工作推动了分布距离在生成模型的训练与评估中的进一步探索。
研究团队提出一种端到端训练框架,联合优化图像重建与生成过程,使分词器能直接受到生成结果的监督。该方法突破了以往分词器与生成模型分两阶段训练的范式,并探索利用视觉基础模型提升一维分词器在自回归建模中的性能。最终模型在无引导的 ImageNet 256×256 图像生成任务中,取得了当前最优的 FID 分数 1.48。
Midjourney V8.1 版本现已登陆 Discord 平台及其官方网站。本次更新重点提升了图像的清晰度与整体画质,这一改进在风格参考(SREF)和情绪板(Moodboards)功能中效果最为显著,同时所有类型的图像生成质量均有所增强,为用户带来更精细的视觉体验。
<谷歌相册推出AI衣橱规划功能,通过人工智能自动提取用户照片中的服装图像,整理到数字衣橱。用户可按类别筛选服装,混搭单品设计穿搭,并支持虚拟试穿预览;还可保存穿搭到数字情绪板,适用于不同场合。该功能预计今年夏季首发于安卓平台,随后登陆iOS设备。>
研究通过引入mosaic框架,系统探究了扩散模型在多物体生成中的局限性。发现场景复杂性是主要障碍,而非概念不平衡;在低数据量下,计数能力尤其难以学习。当训练中排除更多概念组合时,模型的组合泛化能力会崩溃。这些发现揭示了扩散模型的基本限制,为设计更强归纳偏置和数据方案以提升多物体组合生成鲁棒性提供了依据。
Adobe于4月29日更新了Photoshop和Lightroom。Photoshop引入了全新的AI“旋转对象”工具,用户可在3D空间中实时旋转、倾斜和翻转素材,点击“协调”按钮可自动调整光照和阴影以匹配背景。同时,Photoshop还推出了“图层清理”工具,能智能清理、组织并自动重命名图层,移除空图层。Lightroom的搜索功能现支持自然语言描述查找照片,新增多款胶片风格预设,且辅助筛选速度更快,交互式滑块性能提升最高达5倍。
针对当前统一多模态模型(UMMs)主要遵循的基于编辑(RvE)精修范式存在修改空间受限、指令描述粗略导致精修不完整的问题,本研究提出了一种基于再生(RvR)的新框架。RvR将精修任务重新定义为条件图像再生,其核心是依据目标提示词和初始图像的语义令牌进行整体图像再生,而非生成粗略的编辑指令并强制保留像素。这种方法突破了原有范式对修改空间的限制,实现了更完整的语义对齐。实验结果表明,RvR在多个基准测试上均取得显著性能提升:Geneval得分从0.78升至0.91,DPGBench从84.02提高到87.21,UniGenBench++则从61.53跃升至77.41。
本文针对扩散生成模型中未被充分研究的组合复杂性问题,指出现有训练方案可能难以充分覆盖高维数据样本及其附加属性所构成的空间,从而限制模型性能。为此,我们提出了ComboStoc方法,通过构建充分利用组合结构的随机过程,显著加速了图像和3D形状等多种数据模态的网络训练。此外,该方法还支持在测试时生成过程中,为不同维度和属性使用异步时间步,从而实现对它们不同程度的灵活控制。代码已开源。
研究团队提出Prox-E,一个无需训练即可实现细粒度3D控制的框架。该方法先将输入3D形状抽象为一组紧凑的几何基元,再利用预训练的视觉语言模型对该抽象进行基元层级的编辑指定,最终引导3D生成模型完成局部结构修改,同时严格保持物体未变化区域的原始身份。实验表明,该方法在身份保持、形状质量和指令遵循度上,均优于现有的基于2D的3D编辑器和需要训练的方法。
针对现有开源视觉偏好数据集存在的冲突偏好、低分辨率等问题,研究团队提出Poly-DPO算法,通过多项式项动态调整模型置信度以增强抗噪性。为突破数据瓶颈,团队构建了大规模高质量数据集ViPO,包含百万级图像对与数十万视频对。实验表明,在高质量ViPO上,Poly-DPO最优配置会收敛至标准DPO,验证了数据质量;而在噪声数据集上,Poly-DPO相比Diffusion-DPO在SD1.5和SDXL模型上分别取得6.87和2.32的性能提升。研究证实,算法适应性与数据质量共同推动视觉偏好优化的规模化发展。
据彭博社爆料,苹果计划在WWDC26上为iOS 27系统引入三项AI照片编辑功能。新版照片应用将新增“Apple Intelligence Tools”菜单,其核心是“Extend”功能,可生成并自动填补原始画幅之外的图像内容。另外两项工具分别是用于自动优化图像光线与色彩的“Enhance”,以及支持在后期自由改变空间照片观看视角的“Reframe”。不过,内部测试显示“Extend”和“Reframe”目前运行不稳定,苹果正评估模型优化进度,这些功能可能面临推迟或缩减。
影石创新发布2025年及2026年第一季度业绩,营收增长显著。其中2025年营收97.41亿元,同比增74.76%;2026年Q1营收24.81亿元,同比增83.11%。因战略投入加大、市场竞争及存储元器件涨价影响,公司利润指标有所下滑。公司正从硬件生产向影像生态构建者加速转型,旗下云台相机、无线领夹麦克风及无人机三大新品预计一年内上市。创始人刘靖康首次阐明打造“摄影机器人”的长期愿景,表示将加速补齐AI能力,并与多家具身智能企业展开合作。
Vidu发布一键生成AI解说剧产品,实现降本50%、效率提升10倍,重新塑造解说剧生产链路。该产品无需人工剪辑与配音,可自动完成解说剧的全部生成流程,推动内容创作进入全AI化阶段。
加州大学圣克鲁兹分校研究团队开发出一款名为Neo的人工智能算法,可有效消除地面望远镜因大气湍流导致的图像畸变。该算法基于条件生成对抗网络,通过训练使地面观测图像的清晰度提升至太空望远镜水准,天体形态参数测量准确度提高2至10倍。目前该技术已应用于智利薇拉・C・鲁宾天文台,该台配备8.4米口径反射镜,造价约8亿美元。此前类似AI算法已将詹姆斯・韦布空间望远镜的数据分析时间从数年缩短至数日,助力多项天文发现。
Tuna-2是一种原生统一的跨模态模型,它摒弃了传统的VAE等模块化视觉编码器,直接通过简单的图像块嵌入层处理像素,统一执行视觉理解与生成任务。实验表明,该模型在多项跨模态基准测试中取得了最先进的性能,证明其像素空间建模在高质量图像生成上可与潜在空间方法竞争。尽管基于编码器的变体在预训练早期收敛更快,但Tuna-2的无编码器设计在大规模训练后实现了更强的跨模态理解能力,尤其在细粒度视觉感知任务上表现突出。这表明预训练视觉编码器对跨模态建模并非必需,端到端的像素学习为视觉任务提供了可扩展的新路径。
条件扩散模型展现出组合泛化能力,能生成超出训练分布的条件组合样本,但其机制尚不明确。研究聚焦于长度泛化,即生成比训练所见更多数量物体的图像。在受控的CLEVR场景中发现,模型仅在某些情况下能实现长度泛化,表明其并非总能掌握底层组合结构。通过分析扩散过程的局部动态,研究揭示了泛化成功与失败案例中条件交互模式的系统性差异,为理解生成式模型的组合推理边界提供了新视角。
Midjourney团队正为v8.1/8.2版本筹备重大美学更新,并公开征集用户协助进行图像排序以改进模型。此次工作的核心在于,团队将首次在完整的2K分辨率下进行图像排序活动,旨在为模型获取最优的高清像素数据,以提升图像生成质量。
脉脉CEO林凡针对ChatGPT Images 2.0生图工具发表看法,认为该技术可能导致互联网内容信任崩塌,但实名社交将迎来发展机遇。该工具于4月21日发布,基于GPT Image 2模型,核心升级是引入“思考能力”。用户仅需简单提示词即可生成高度逼真的宣传图像,文字和人物元素极少出现传统AI生图的穿帮痕迹,引发了广泛讨论。