知情人士透露,虎鲸文娱旗下的妙鸭相机团队已于去年9月底解散,产品不再升级和推广,仅维持最低程度运营。团队产品运营人员约十几人,加上算法、技术等支持人员共三四十人。妙鸭相机是阿里大文娱的创业项目,2023年7月17日正式上线后快速走红,作为首款C端出圈的AIGC产品,用户需上传20张以上人脸照片并支付9.9元来制作数字分身写真。
知情人士透露,虎鲸文娱旗下的妙鸭相机团队已于去年9月底解散,产品不再升级和推广,仅维持最低程度运营。团队产品运营人员约十几人,加上算法、技术等支持人员共三四十人。妙鸭相机是阿里大文娱的创业项目,2023年7月17日正式上线后快速走红,作为首款C端出圈的AIGC产品,用户需上传20张以上人脸照片并支付9.9元来制作数字分身写真。
Qwen团队推出Qwen-Image-VAE-2.0高压缩变分自编码器,在重建保真度与扩散适应性上均取得显著提升。该模型采用全局跳跃连接与扩展潜在通道的改进架构,基于数十亿图像训练,并引入合成渲染引擎以增强文本场景处理能力。通过增强语义对齐策略解决高维潜在空间收敛难题,并利用非对称无注意力编码器-解码器降低计算开销。在公开重建基准及新提出的文本场景基准OmniDoc-TokenBench上均表现优异,下游DiT实验证实其能显著加速扩散模型收敛。
针对现有图像编辑模型评估基准任务难度有限、评价方法粗糙,以及奖励模型基准脱离实际强化学习场景的问题,研究团队推出了统一评估套件Edit-Compass与EditReward-Compass。Edit-Compass包含2,388个精细标注实例,涵盖世界知识推理、视觉推理等六大渐进式挑战性任务,并采用基于结构化推理的细粒度多维评估框架。EditReward-Compass则提供2,251个偏好对,以模拟强化学习优化中的真实奖励建模场景。该套件旨在为两类模型提供更可靠、贴近实用的评估标准。
研究团队提出非对称流建模(AsymFlow),以解决高维流生成中噪声预测的难题。其核心是秩非对称速度参数化,将噪声预测限制在低秩子空间,同时保持数据预测的全维度,并能解析恢复全维速度,无需改变网络架构或训练流程。在ImageNet 256×256任务上,该方法取得了1.57的领先FID分数。此外,AsymFlow首次实现了将预训练潜在流模型微调为像素空间模型的路径:通过子空间对齐进行无缝初始化,使微调主要改善低级特征而非重新学习生成。基于FLUX.2微调得到的像素模型在多项基准测试中超越了其潜在基础模型,建立了像素空间文生图的新技术标杆。
EverAnimate是一种高效的后训练方法,用于解决长动画视频生成中因分块处理导致的背景质量下降与角色身份不一致问题。该方法通过引入持久的潜在上下文记忆来恢复漂移的流轨迹,包含两个核心机制:持久潜在传播在跨片段间传播身份与动作以减轻时间遗忘;恢复式流匹配在采样时引入隐式修复目标,通过速度调整提升片段内保真度。该方法仅通过轻量级LoRA微调,在短时和长时动画设置下均超越现有最优方案,在10秒和90秒动画上均取得了显著的指标提升。
本研究针对图像编辑中抽象指令(如情绪)评估的空白,首次系统定义了抽象图像编辑的分类体系,并提出Entity-Rubrics评估框架。该框架将抽象编辑拆解为独立的实体级评估,其结果与人类判断高度一致。同时,发布了首个跨场景的抽象图像编辑基准AbstractEdit。对11个模型的测试显示,现有架构难以平衡编辑意图与原图保持,常出现编辑不足或过度编辑。研究表明,结合先进LLM文本编码器与迭代思考机制是提升性能的关键。该范式未来可拓展为奖励模型,助力模型理解抽象指令,推动更自然的多模态交互。
现有遥感变化检测方法在生成式模型上往往因像素空间生成计算成本高、条件机制复杂而性能落后于判别式模型。本文提出ChangeFlow,一种将变化检测重新定义为潜空间中变化掩膜合成的生成式框架,采用结构轻量的条件信号引导,并利用随机采样实现预测集成。通过聚合多个预测掩膜提升鲁棒性,并基于样本一致性提供置信度估计,突出模糊区域。该方法在四个基准测试中平均F1值达80.4%,较此前最佳方法平均提升1.3个百分点,同时保持与近期强基线模型相当的推理速度。
现有图像编辑模型在处理抽象、多步骤指令时存在不足。本研究提出一种长周期编辑框架,包含生成原子分解的规划器与选择工具、区域执行步骤的调度器。视觉语言评判器根据指令遵循度与视觉质量提供奖励信号,调度器通过最大化奖励进行训练,成功轨迹则用于优化规划器。该方法通过紧密耦合规划与奖励驱动执行,生成了比单步或规则基线更连贯可靠的编辑结果。
针对自回归图像生成中文本与人脸保真度不足的核心瓶颈,InsightTok提出了一种改进的离散视觉标记化框架。该框架通过引入局部化、内容感知的感知损失,专门强化文本可读性与面部特征保真度。在保持16k小型码本和16倍下采样率的紧凑设计下,InsightTok在文本和面部重建质量上显著超越先前方法,且未损害通用图像重建性能。其优势在自回归模型InsightAR中得到延续,生成的图像文本更清晰、面部细节更精准。这项工作凸显了在标记化训练中引入针对性监督对推进离散图像生成的重要性。
FFAvatar提出一种通用前馈框架,仅需数秒即可从少量无姿态人像重建高质量、可动画化的3D高斯头部虚拟形象。它通过多视图查询融合器将多源图像信息统一到规范表示,并端到端预测FLAME参数驱动动画。采用三阶段训练策略:在超百万身份的单目视频数据上预训练;利用少量高质量360度数据微调;支持500步内快速个性化适配。在NeRSemble基准上,其PSNR显著优于现有最优方法5.5分,无需个性化时重建仅需2秒,个性化需10秒,并在单A100 GPU上实现49 FPS实时动画。
Luma 正式开放其 Uni-1.1 图像模型的 API 服务。该模型在 Arena 排行榜上位列第三,紧随 Google 和 OpenAI 之后。API 定价为每张 2048 像素分辨率图像 0.04 美元起,与行业领先者价格相当。其功能包括网络搜索、内置推理能力,并支持最多 9 张参考图像输入。
本文介绍了首个专为单图像重光照评估设计的真实世界数据集WildRelight,包含多样化高分辨率户外场景,在严格对齐的时序自然光照下采集并配有环境贴图。基准测试揭示了当前基于合成数据训练的先进模型存在严重域偏移。利用该数据集严格对齐的时间结构,研究提出一种物理引导推理框架,将捕获的自然光演变作为自监督约束,通过结合扩散后验采样与时序感知的测试时自适应,成功将棘手的模拟到真实挑战转化为可处理的自监督任务。数据集与代码将公开以推动鲁棒且基于物理的重光照研究。
本文提出了一种高效的潜在到像素(L2P)迁移范式,能够直接利用预训练潜在扩散模型(LDM)的知识构建像素空间模型。该方法摒弃了VAE,采用大块标记化技术,并冻结源LDM的中间层,仅训练浅层来学习从潜在到像素的转换。通过仅使用LDM生成的合成图像进行训练,L2P能以极低开销(仅需8个GPU)将海量潜在先验迁移至像素空间。实验表明,该方法在DPG-Bench上与源LDM性能相当,在GenEval上达到其93%的性能,同时消除了VAE的内存瓶颈,实现了原生的4K超高清图像生成。
本文提出AlphaGRPO框架,将分组相对策略优化应用于AR-Diffusion统一多模态模型,无需额外冷启动即可提升多模态生成能力。该框架解锁了模型执行高级推理(如推断用户隐含意图)和自反思优化(自主诊断并修正生成错位)的内在潜力。针对实际监督难题,团队设计了可分解可验证奖励机制,利用大语言模型将复杂请求分解为原子化、可验证的子问题,再通过通用多模态大模型评估,提供可靠且可解释的反馈。实验表明,AlphaGRPO在多个生成与编辑基准上均取得显著性能提升。
MoCam 提出了一种基于结构化去噪动态的新视角合成方法,旨在解决几何先验与外观先验在生成过程中的根本矛盾。该方法在扩散过程的早期阶段利用几何先验锚定粗略结构并容忍其不完整性,随后在后期阶段切换至外观先验以主动修正几何错误并细化细节。这种时序解耦设计自然统一了静态与动态视角合成。实验表明,MoCam 在点云存在严重孔洞或畸变时显著优于现有方法,实现了稳健的几何-外观解纠缠。
针对现有方法在处理复杂交错指令时性能下降的问题,研究团队提出了INSET模型。该模型将图像作为原生词汇嵌入文本指令,通过将视觉特征直接定位在对应语义位置,利用Transformer的上下文局部性实现精确对象绑定。团队还开发了可扩展数据引擎,从标准数据集中合成了1500万个高质量交错样本。在InterleaveBench上的评估表明,INSET在多图像一致性和文本对齐上显著优于现有方法,且优势随输入复杂性增加而扩大。此外,该模型能自然扩展到多模态图像编辑领域,实现高度表达性的视觉操控。
现有视觉分词方法仅利用预训练编码器最后一层特征,丢弃了中间层的丰富信息。本研究提出DRoRAE,通过一个轻量级融合模块,采用能量约束路由与增量校正自适应聚合所有编码器层,生成与冻结解码器兼容的增强潜在表征。在ImageNet-256上,该方法显著提升了重建与生成质量。研究进一步揭示了融合能力与重建质量之间存在对数线性缩放规律,从而将表征丰富度确立为视觉分词器中一个新的、可预测的扩展维度。
针对严重退化下文本图像超分辨率任务中全局先验不可靠与笔画边界模糊的挑战,本文提出PRISM框架。它通过流匹配先验校正模块,将退化嵌入映射至面向复原的先验空间,提供更准确的全局文本引导;同时利用结构引导的不确定性感知残差编码器,预测结构残差以选择性融合可靠的局部边界线索。该设计在单步扩散过程中同步实现了全局先验校正与局部结构细化。在合成与真实场景基准测试中,PRISM取得了最先进的性能,并保持毫秒级推理速度。相关代码与数据集已开源。
京东平台正式上线AI试穿功能。用户上传个人照片后,可在数秒内生成高清试穿效果图,实现一键切换同款不同色服饰进行对比,并可根据系统推荐搭配上下装。该功能基于京东自研算法,能分析消费者身材维度,使服装在试穿中自然垂坠贴合,并对棉质、丝绸、牛仔等多种材质进行高精度渲染,模拟真实质感。目前该功能已接入商品详情主图、“逛”和“AI购”等频道,初期支持男女装及运动服饰,商家仅需配置白底图等素材即可使用。
《匹诺曹的谎言》开发商Neowiz正积极布局生成式AI,旗下Round8工作室新设“AI创意设计师”岗位。该岗位需使用Midjourney、Stable Diffusion等工具进行角色与概念原画创作,并负责训练定制化AI模型。公司旨在将AI深度融入开发流程,搭建高效美术创作流水线以压缩周期,并计划将生成式AI推广为内部美术人员的常规工作方式,由该设计师指导其他员工。当前游戏行业普遍应用AI优化流程,但生成式AI在美术创作领域的应用仍面临玩家接受度挑战。
Qwen-Image-2.0是一个统一高保真生成与精确编辑的全能图像生成基础模型。它采用Qwen3-VL作为条件编码器,结合多模态扩散变换器进行联合建模,并通过大规模数据整理与多阶段训练实现强化。该模型支持长达1K令牌的指令输入,能生成幻灯片、海报等富文本内容,显著提升多语言文本渲染与排版质量。在生成方面,它增强了细节、纹理真实感与光照一致性,并更可靠遵循复杂指令。人工评估表明,其在生成和编辑任务上均大幅超越前代模型。
针对现有图像到3D生成中像素级保真度不足的问题,研究团队提出Pixal3D新范式。该方法摒弃在规范空间中生成的常规做法,通过像素回投影条件方案,将多尺度图像特征直接提升为3D特征体积,从而建立明确无歧义的像素到3D对应关系。此举显著提升了生成资产相对于输入图像的保真度,使其接近重建水平。该框架可扩展生成高质量3D资产,并能自然支持多视图生成与高保真、对象分离的3D场景合成。
本文提出了一种新的可控图像生成原理,其核心是通过更换“参考集”来引导预训练模型,无需参数更新。该方法基于流匹配框架,通过调整条件端点均值来改变生成流程。具体实现了两种方式:免训练的“参考均值引导”,将参考库的校正量应用于冻结模型,实现对颜色、身份、风格与结构的控制;以及“半参数引导”,通过显式均值锚点和学习残差优化器,达到高质量并支持推理时更换参考集。这一工作指向了生成模型可通过数据而非参数更新来适应新任务的更广泛方向。
本文提出Raster2Seq方法,将复杂平面图的重建任务转化为序列到序列学习问题。该方法将房间、门窗等平面图元素表示为同时编码几何与语义信息的多边形序列,并通过自回归解码器,利用可学习锚点引导注意力机制,依据图像特征与已生成角点预测下一个角点。这种设计使模型能够灵活、高效地处理包含大量房间和复杂多边形结构的平面图。实验表明,Raster2Seq在多个标准基准上取得了领先性能,并在更具挑战性的数据集上展现出强大的泛化能力。
Epic公司高管表示,人工智能不会取代游戏行业工作岗位,而是用于提升效率、减轻繁重工作负担。尽管该公司在2026年裁员1000人,但坚称裁员与AI无关。Epic正在探索AI工具以支持游戏开发,未来将应用于艺术创意领域,并强调《堡垒之夜》开发中的AI使用由公司统一管控,合作方不得擅自使用。这一立场与索尼、艺电等企业相似,但外界对其“AI不危及就业”的说法仍存质疑。
针对文本到图像整流流模型,现有偏好数据集仅存储最终图像,无法描述其以特定先验噪声为索引的近似直线轨迹。本研究提出先验噪声感知偏好优化方法,通过保留生成胜出/落败图像时使用的配对先验噪声,将标准三元组扩展为六元组。利用整流流的直线特性,通过噪声-图像插值估计中间状态,从而约束轨迹估计空间并获得更紧致的代理优化目标。此外,引入动态正则化策略,根据奖励差距和训练进度自适应调整正则化强度,提升训练稳定性与样本效率。实验表明,该方法能持续改善偏好指标,同时显著降低训练计算量。
针对AI生成图像检测,本研究提出MDMF框架,通过聚焦局部区域的微观统计异常来识别伪造。该方法引入可学习的“补丁取证签名”,将图像语义块映射到紧凑的取证潜在空间,并利用最大均值差异量化生成图像与真实图像间的分布差异。理论分析表明,当生成图像存在局部取证信号时,基于补丁的建模能产生可证明的更大分布差异,从而实现更可靠的区分。在多个基准测试上的实验表明,MDMF consistently outperforms baseline detectors,验证了其通用有效性。项目页面已公开。
近期网络社区对AI生成艺术的反对情绪显著。许多艺术家和网友批评AI艺术缺乏灵魂与原创性,认为其本质是剽窃人类作品训练而成。在Hacker News等平台的相关讨论中,该话题获得了超过102点热度,反映出广泛的争议。反对者主要担忧AI艺术会挤压人类艺术家的生存空间,并导致创意同质化。这一现象凸显了技术进步与人文价值在艺术领域的深刻冲突。
谷歌推出"The Small Brief"项目,邀请四位广告业偶像——Susan、David、Victoria和Penny,运用AI工具为本地企业创作广告。他们使用VideoFX、ImageFX等生成式AI技术,在48小时内为旧金山湾区四家小企业完成广告制作。数据显示,AI生成的广告在关键效果指标上表现优于传统广告,其中一家企业的广告效果提升达30%。该项目展示了AI如何降低创意门槛,让小企业也能获得高质量的广告内容。
《科学》最新研究指出,AI图像生成器虽已修复畸形手指等早期缺陷,但在光照、阴影、反射和透视几何上仍存在明显破绽。研究者指出,鉴别重点已转向“物理规则是否合理”。AI生成的图片因色彩鲜艳、戏剧感强,更接近大众对现实的想象,故易于传播。论文推荐通过检查“消失点”来鉴别:现实中平行线应汇聚于同一点,若图像中线条无法合理相交,则空间关系不成立。此方法同样适用于分析反射与阴影的平行光透视规律。
SwiftI2V是一个针对高分辨率图像到视频生成的高效框架,旨在解决2K分辨率下的效率与保真度难题。它采用两阶段设计:首先生成低分辨率运动参考以降低计算负担,随后进行强图像条件的2K合成以恢复输入细节。其核心创新是条件分段生成技术,通过分段合成控制每步令牌预算,并利用双向上下文交互提升片段连贯性与输入保真度。在VBench-I2V基准测试中,该框架在2K分辨率下性能与端到端基线相当,同时将总GPU时间大幅减少202倍,使得在单张数据中心或消费级GPU上实现实用的2K图像到视频生成成为可能。
现有分布匹配蒸馏方法依赖离散时间锚点进行监督,易导致视觉伪影和平滑。本研究提出连续时间分布匹配方法,首次将该框架迁移至连续时间优化。其核心是通过动态连续时间表替代固定离散表,使匹配能在采样轨迹任意点执行;并引入连续时间对齐目标,利用学生速度场外推隐变量进行主动离轨匹配,以提升泛化能力并保留细节。在SD3-Medium等架构上的实验表明,该方法无需复杂辅助模块即可在少步生成中实现极具竞争力的视觉保真度。
针对扩散模型基于人类偏好进行强化学习微调时多奖励难以协同优化的问题,研究团队提出MARBLE框架。该框架摒弃了传统加权求和方法,为每个奖励维护独立优势估计器,并通过求解二次规划问题,在梯度空间将各奖励策略梯度协调为单一更新方向,无需手动调整权重。结合摊销化计算与平滑技术,其单步计算成本降至接近单奖励基线水平。实验表明,MARBLE能同时提升所有奖励维度,显著改善最差对齐奖励的优化方向,且训练速度接近基线方法。
针对人体图像动画中高自由度、复杂的手部动作生成难题,研究者提出了隐式偏好对齐框架。该方法无需构建严格配对的偏好数据,通过最大化自生成高质量样本的似然并惩罚与预训练先验的偏差来实现模型对齐。框架还引入了手部感知局部优化机制,以显式引导手部区域的生成质量。实验表明,该方法能有效优化手部生成质量,同时大幅降低了构建偏好数据的门槛。相关代码已开源。
针对现有基于3D高斯泼溅的方法为每个像素或体素分配固定数量图元,导致资源分配不均的问题,本文提出SplatWeaver框架。该框架引入一组基数高斯专家和一个像素级路由方案,能以前馈方式自适应地为不同空间位置分配0到M个高斯图元。通过结合高频先验与路由正则化,引导路由机制向精细结构、复杂几何和纹理区域分配更多图元,同时抑制平滑区域的冗余。多场景实验表明,SplatWeaver能以更少的图元数量,持续生成比现有先进方法更逼真的新视角渲染结果。
针对现有基于强化学习的图像描述方法在追求细节时易在核心维度产生权衡的问题,研究团队提出了BalCapRL平衡框架。该框架联合优化实用性正确性、参考覆盖度和语言质量,通过采用GDPO风格的奖励解耦归一化处理连续值奖励,并引入长度条件奖励掩码以施加更合适的长度惩罚。在多个基础模型上的实验表明,该方法能一致提升描述质量,不同模型的峰值提升分别达到DCScore +13.6、CaptionQA +9.0和CapArena +29.0。
本文提出Delta-Adapter,一种仅需单对源-目标图像监督的范例图像编辑新方法。该方法利用预训练视觉编码器从范例对中提取编码视觉变换的“语义增量”,并通过基于Perceiver的适配器将其注入预训练编辑模型。由于模型从未直接看到目标图像,后者可作为预测目标,从而实现了单对监督训练,并能利用现有大规模编辑数据集。此外,引入的语义增量一致性损失确保了生成变化与真实语义增量对齐。实验表明,该方法在多种编辑任务上显著提升了编辑准确性与内容一致性,并能有效泛化至未见过的编辑类型。
针对复杂图像生成中语义承诺难以持续追踪的“概念断层”问题,本文提出了SCOPE框架。该框架通过维护一个动态演化的结构化规范来管理语义承诺,并围绕未解决或被违反的承诺,有条件地调用检索、推理和修复等技能。为评估承诺级别的意图实现效果,研究构建了人工标注基准Gen-Arena并提出了严格的“实体门控意图通过率”指标。实验表明,SCOPE在Gen-Arena上以0.60的EGIP显著超越所有基线模型,在WISE-V和MindBench基准上也表现出色,验证了持续承诺跟踪的有效性。
本文研究了潜在扩散模型所需潜在流形的关键特性,提出了三个核心属性:连贯的空间结构、局部流形连续性和全局流形语义。基于此发现,研究者设计了先验对齐自编码器(PAE),它通过利用视觉基础模型提炼的先验和基于扰动的正则化,将这些属性转化为明确的训练目标,从而主动塑造对生成友好的潜在空间。在ImageNet 256x256数据集上的实验表明,PAE在训练效率和生成质量上均优于现有分词器,在相同设置下收敛速度比RAE快达13倍,并取得了1.03的最新最优gFID分数。
针对流匹配文本到图像模型在多任务对齐中面临的奖励稀疏与梯度干扰问题,本研究提出首个统一后训练框架Flow-OPD。该框架采用两阶段策略:先通过单奖励微调培养领域专家教师模型,再利用基于流匹配的冷启动方案建立初始策略,并通过在线采样、任务路由标注和密集轨迹监督三步整合异构专业知识。引入的流形锚点正则化技术,借助任务无关教师提供全数据监督,有效缓解了纯强化学习对齐常见的美学质量下降。实验表明,Flow-OPD显著提升了多项性能指标,并保持了图像保真度与人类偏好对齐。