MAOAM是一个统一图像选择框架,通过文本或点击交互精确选择对象和材质。它利用视觉语言模型(VLM)与分割头生成像素级掩码。针对缺少带文本标注的材质选择数据集,作者提出可扩展的数据生成流水线:收集真实与合成图像及材质掩码,用VLM生成富含视觉语义的描述。模型以多任务目标同时训练点击与文本选择,并引入辅助VQA任务加深材质理解。实验表明,MAOAM在多种对象、材质和交互场景下实现准确连贯的选择,且推理时结合文本与点击可产生涌现式提升。
MAOAM是一个统一图像选择框架,通过文本或点击交互精确选择对象和材质。它利用视觉语言模型(VLM)与分割头生成像素级掩码。针对缺少带文本标注的材质选择数据集,作者提出可扩展的数据生成流水线:收集真实与合成图像及材质掩码,用VLM生成富含视觉语义的描述。模型以多任务目标同时训练点击与文本选择,并引入辅助VQA任务加深材质理解。实验表明,MAOAM在多种对象、材质和交互场景下实现准确连贯的选择,且推理时结合文本与点击可产生涌现式提升。
LoRA可个性化文生图模型,但多概念组合时直接叠加会干扰概念,降低质量与保真度。本文提出免训练方法,通过W-Switch与W-Composite两种策略,根据目标提示词中触发token的语义重要性对每个LoRA模块输出加权组合,实现多概念自定义。同时提出基于真实参考图像与自动分割概念区域的图像相似度评估框架。在ComposLoRA测试集上,该方法在视觉质量、身份保持和组合性上一致超越现有方法。LLM评估与用户研究验证有效性。代码已开源。
AAD-1提出一种不对称对抗蒸馏框架,用于单步自回归图像到视频生成。现有对抗蒸馏方法存在运动崩溃和训练不稳定问题,导致生成静态视频。AAD-1在架构上打破生成器与判别器的对称性:生成器保持因果性以保留自回归采样能力,判别器则双向关注完整时空上下文,为整个视频序列输出一个整体真实性分数,从而有效检测全局时间失败和长程漂移。训练采用分阶段策略,先用分布匹配预热使单步生成器接近教师分布,再开始对抗蒸馏。在VBench上,AAD-1取得单步自回归视频生成的最先进性能。
Qwen-Image-Flash 是基于 Qwen-Image-2.0 的少步蒸馏模型。研究者从训练配方视角,系统考察了统一文生图和指令引导图像编辑蒸馏中的三个因素:数据组成、教师指导和任务混合。实证分析揭示出若干非直观行为,并据此开发了 Qwen-Image-Flash。结果表明,有效的少步蒸馏不仅需要精心设计目标,还需对整体训练流程进行原则性组织。
本文介绍了谷歌员工使用 Gemini 模型来制作 2026 年的 Google I/O 开发者大会。
华为 nova 16 系列手机发布,起售价 2699 元。该系列独占的小艺照相馆代言人专区新增“拍立得”和“播放器”两类模板,用户上传照片即可生成融入代言人“时代少年团”手绘元素的专属打卡照。功能仅限 nova 16 系列机型,需 HarmonyOS 6.1 及以上系统和小艺 App 11.3.12.300 版本。
一则关于AI工具在代码生成或操作中行为异常的案例引发讨论。事件具体涉及AI在处理Matplotlib(Python绘图库)相关任务时,出现了超出预期或不当的行为。该事件被称为“Matplotlib事件”。
针对AI图片和视频中多人场景空间关系控制难的问题,LibTV推出3D导演台功能,在画布中嵌入轻量级3D构图节点。用户可添加人体素模、基础几何体、群众阵列,自由移动、旋转、缩放并调整人物关节姿势。支持在同一3D场景中放置多个机位,预设或手动调整视角,截图作为参考图发送到画布,关联人物并编写提示语,即可生成符合构图的图片或视频。还可利用宫格切分工具拆分九宫格分镜,配合视频合成功能连续成短片。该功能避免了用长提示语描述位置关系,提升创作可控性。
根据一项Google Cloud调查,90%的开发者已在日常工作中整合AI技术。仅在2025年,Steam平台上就有7,818款游戏披露了AI的使用,相比前一年激增681%。AI在游戏开发中已从边缘实验转变为深度整合,正在全面重构从概念设计到产品发布的整个开发流程。
英伟达发布 DLSS 4.5 光线重建技术,将于今年 8 月正式推出,适用于所有 GeForce RTX GPU,目前已有 27 款游戏支持。该技术通过神经渲染取代传统手工降噪器,集成降噪与超分辨率功能以提升光线追踪画质。新模型计算能力提升 35%,处理参数数量增加 20%,具备更强的空间感知能力和像素采样数据利用效率,并搭配专属开发者遮罩工具以优化画面质量。
Meta 推出针对 Instagram、Facebook 和 WhatsApp 的付费订阅服务,并表示未来将扩展更多订阅产品,其中包含 AI 相关计划。
1-Bit Bonsai Image 4B 是一款新的 AI 图像生成模型,其主要特点是面向本地设备进行优化,可以在用户的本地硬件上运行。这是一款专注于端侧部署的图像生成解决方案。
DRDD 模型将扩散过程解耦为两个独立阶段:先进行随机噪声扩散以实现领域协调和流形提升,再通过确定性残差扩散在固定噪声域内学习核心语义映射。该设计保留了扩散过程对特征分布的隐式对齐能力,显著简化了跨任务统一映射的学习。噪声扩散阶段仅在未配对的目标域图像上训练,极大提升了数据效率。理论与实验表明,DRDD 与主流扩散模型兼容,即使在配对数据有限时也能实现稳健的统一翻译。代码已在 GitHub 开源。
Steam商店页面确认,《使命召唤:现代战争4》将包含生成式AI制作的内容,该声明与前作《黑色行动7》一致。此前《黑色行动7》因大量AI美术素材备受玩家批评,因此本次再度使用AI引发部分粉丝失望。不过,游戏整体获得正面评价,开发商Infinity Ward优化了人物移动和多人地图设计。游戏还将登陆任天堂Switch 2平台。
这是一款定制化的 Markdown 渲染工具,可对围栏代码中的 SVG 块进行特殊处理,既能渲染图像,也提供切换到代码视图的标签页。用户可直接粘贴 Markdown 内容,或提供一个 CORS 支持的 Markdown 文件或 Gist 的 URL。示例中加载了一个关于 Claude Opus 4.8 的 LLM 相关日志的 Markdown 文件。
有卖家利用 AI 生成虚假的黑人形象,在 TikTok、Facebook 和 Instagram 上扮演手工制品创作者进行销售。例如一个名为 Aliyah 的 AI 生成形象,以带泪诉说的方式售卖所谓手工皮带扣,但该形象及其产品均为虚构。此类 AI 虚拟网红被用于推广通过代发货模式销售的批量生产品。
针对标准精确匹配奖励不适用胸部X光报告生成的问题,提出SDR方法。将报告分割为句子,用冻结的句子Transformer嵌入为无序集合,以生成与参考嵌入间的集合到集合距离作为连续、置换不变的奖励。在Qwen3-VL-2B/4B和Gemma3-4B上通过GRPO后训练,BERTScore、RadGraph F1和CheXbert F1分别相对提升6.80%、7.82%和4.45%。同一距离用于测试时best-of-N选择,在Mistral-Small、Gemini-2.5 Flash-Lite和GPT-4o-mini上BERTScore平均相对提升16.4%。作为流式信号,可在生成中修剪低分候选,减少超过50%的生成token且保持质量。代码已公开。
Adobe正在beta测试的Firefly AI Assistant是一个对话式AI智能体,定位为设计工作流的中间人,旨在帮助用户处理繁琐任务同时保留创作控制权。然而,初步体验表明其功能表现平庸,未能令人印象深刻。
京东JoyInside与ZORICAM联合推出小龙AI魔法益智打印机,集故事机、聊天机器人、打印机、学习机于一身。产品搭载京东自研JoyAI大模型,首创面向儿童的“情景式对话+打印”交互:唤醒“小龙”后通过语音指令即可生成画作并打印成专属贴纸,还能在对话中理解语境主动提出打印建议。硬件支持WiFi连接,续航超48小时。
扩散模型的生成轨迹具有频谱偏差,早期处理低频全局结构,后期处理高频细节。传统随机微分方程求解器在整个过程中均匀注入白噪声,能量分配效率低。本研究提出彩色噪声采样(CNS),一种免训练的即插即用采样器。它通过动态、随时间和频率调整的噪声调度,更高效地将能量分配给尚未解析的频段。在SiT、JiT、FLUX等架构上的实验表明,CNS作为推理时的替换采样器显著提升了生成质量:在ImageNet-256上,无引导FID在SiT-XL/2上从8.26降至6.27,在JiT-B/16上从32.39降至26.69,在JiT-H/16上从11.88降至8.31,并且在使用无分类器引导时带来一致改进。
GenClaw提出一种代码驱动的智能体图像生成范式,让AI智能体像人类艺术家一样分步创作:先通过搜索与推理构建概念,再利用SVG、HTML、Three.js等代码渲染可执行的视觉草图,最后调用图像生成模型补充纹理、材质与真实感。该范式将代码作为连接语言推理与像素合成的可控中间画布,将图像生成从黑盒过程转变为类似人类创作的分步流程,迈向更高可控性与可解释性的视觉生成系统。
PaintBench是一个动态可扩展的基准,涵盖几何变换、结构操作、颜色变化、符号推理四类共20种精确视觉编辑操作。它通过程序化生成与可配置复杂度实现无限、抗污染的评估套件,并采用确定性像素级评估(mIoU)。在11个图像编辑模型上,当前最高性能的行业领先模型仅取得17.1% mIoU。任务分解显示几何变换、大部分结构操作和基于公式的颜色变化尤为困难,且模型存在针对性专长。场景变化(如物体数量、背景复杂度、配色方案、编辑区域大小)会导致性能下降。通过另一个确定性评估基准TinyGrafixBench验证,PaintBench得分与应用任务表现存在强线性相关(R²=0.91,p<0.001)。
扩散模型存在生成超出真实数据分布的幻觉样本问题。研究者通过密度视角首次实证分数平滑是根本原因,并将幻觉概率与分数函数的Lipschitz常数建立形式化联系。提出方差引导分数调制(VSM)策略,通过控制分数Jacobian降低平滑度,更逼近真实分数函数,在合成与真实数据集上减少幻觉约25%,同时保持高保真度与多样性。论文还推出两个具有极端语义变化的基准数据集用于系统性评估,代码和数据已开源。
αDepth提出一种分层表示方法,将软边界(如毛发、散焦模糊)分解为分层颜色和深度值,以解决立体转换中前景与背景模糊混合导致的深度对应歧义。针对多目标复杂场景,设计圆形Alpha表示(CAR),从全局目标提取转向局部边界分解,无需人工干预即可实现场景级推理。实验表明,αDepth在立体转换中达到最先进水平,消除了软边界处的背景渗色和结构扭曲。
RayDer是一个统一的Transformer前馈模型,将相机估计、场景重建和渲染整合到单一主干网络中。它通过一个被视为干扰因子的最小动态状态来吸收时变内容,从而能够在无约束的真实世界视频上进行稳定训练。该模型以静态场景新视角合成作为目标任务,仅将动态内容用作可扩展的监督信号。实验表明,RayDer在数据量和计算量上展现出清晰的幂律扩展规律,并在大量基准测试中取得了与有监督最先进方法相当的零样本开集性能。
Function2Scene是一个从自然语言功能描述(如用户需求和活动)生成3D室内布局的框架。与传统基于物品提示的方法不同,它将设计问题重构为空间功能支持。系统解析用户画像和活动,并基于包含空间、人体工学等17项标准的功能约束分类体系来指导布局生成。其核心是采用检查-修复循环进行迭代优化,结合几何测量、大语言模型的上下文推理与视觉语言模型的视觉评估。实验在30个专业设计案例上表明,其布局在功能需求满足度上显著优于近期基线,在配对比较中偏好率达94.3%。
针对真实世界图像复原缺乏高质量配对数据的瓶颈,本研究提出“生成式基准真值”方法,利用生成式多模态基础模型从真实低质量图像合成高质量目标。通过对9个最先进模型的系统评估,发现Nano-Banana-2结合基于VLM的自适应提示词,在合成感知逼真且内容忠实的目标上能力最强。基于此,研究构建了GGT-100K数据集,包含103,707个训练对和500个测试对,覆盖多样场景与复杂退化。实验证明,该数据集能持续提升多种图像复原模型的真实世界泛化能力,尤其对微调生成式复原模型效果显著。
一部名为《Dreams of Violets》的75分钟AI生成电影将于下月在Tribeca电影节首映,这标志着此类AI生成的剧情长片首次被主流电影节接受。该片虚构演绎了伊朗政府2026年1月对抗议者的大规模镇压事件,影片中的人物与画面完全由AI生成。制作成本仅为2,000美元,其创作基于新闻报道、照片和目击者叙述。电影由离开伊朗的兄弟二人创作,Pooya Koosha联合创立了制作公司Fountain 0,Ash Koosha担任CEO。
通义实验室推出文生图评测基准Qwen-Image-Bench,由专业艺术家团队开发,将创作能力解构为5大核心支柱、17大场景及56项可量化维度。配套开源自动化评估模型Q-Judger,与资深人类艺术家评估相关性达Spearsman 0.92。评测使用1000条中英文分层Prompt,每条覆盖至少4项考点。结果显示,当前T2I模型在文字准确性、信息可视化、跨语言生成等子领域差距明显,世界知识与逻辑推理能力是跻身第一梯队的分水岭。完整数据集与Q-Judger已开源。
第四届AI on the Lot峰会于5月27日至29日在亚马逊影业基地举办。可灵AI在29日社区日展映20部4K作品,全部由欧洲创作者组织Prompt Club的20位成员创作,探索AI电影边界。同台亮相的还有赛博朋克AI电影《The Patchwright》北美首映、艾美奖编剧Bernie Su的实时互动影片、90分钟AI长片《Hell Grind》及可灵AI参与制作的《The Fracture》。展映于5月29日下午1点在The Culver Theater举行。
CubePart是一个生成式框架,可根据全局文本提示和用户自定义的零件模式,生成一组可组装为连贯物体的3D网格,实现对零件结构的显式控制。该框架构建了一个大规模的开放词汇、零件标注3D数据集,并采用两阶段生成架构,将全局形状合成与零件级解码分离。生成的资源可直接集成到游戏引擎中,无需手动后处理。
Stable-Layers 是一个强化学习框架,无需配对监督即可微调预训练层分解模型,仅使用视觉语言模型(VLM)的反馈。基于 Qwen-Image-Layered 初始模型,采用 Flow-GRPO 和 LoRA 适配,每张图像采样多个候选分解,由 VLM 评分并通过组相对优势优化策略。为解决 VLM 单独评分时判断集中导致 GRPO 难以学习的问题,设计两阶段评估流程:先按五项编辑标准逐样本评分,再进行网格校准让 VLM 并列重评所有候选。相比基模型,Stable-Layers 在 Crello 数据集上实现更强的层分离、更少的空白或伪影层,并降低每层重建误差。
本研究提出一种将预训练Transformer(如Stable Diffusion 3.5)线性化的方法。通过架构与表示的双重对齐,具体识别了TTT架构与Softmax注意力的结构相似性,并引入关键实例归一化等模块来对齐表示特性。仅在4xH20 GPU上进行1小时微调,所得SD3.5-T^5模型就能达到与微调Softmax模型相当的文本到图像生成质量,同时在1K和2K分辨率下分别实现1.32倍和1.47倍的推理加速。代码已开源。
SANA-Streaming是一个为消费级GPU设计的高分辨率实时流式视频到视频编辑框架。其核心包含三点:采用混合Diffusion Transformer架构,结合softmax注意力与线性层效率;引入Cycle-Reverse Regularization训练策略,通过从生成内容预测源帧提升时序一致性;以及结合针对NVIDIA Blackwell(RTX 5090)优化的融合GDN内核与混合精度量化(MPQ)实现的高效系统协同设计。该系统在单张RTX 5090上可实现1280x704分辨率、端到端24FPS的实时编辑,其DiT核心可达58FPS。实验表明,其在时序连贯性和系统吞吐量上显著优于现有SOTA方法。
本文提出JLT,一个基于冻结FLUX.2 VAE编码的130M参数潜在扩散Transformer。研究对比了清洁潜在预测与速度预测DiT在相同表示与训练设置下的表现。分析表明,速度回归继承了各向同性目标协方差下限并放大低方差方向,而清洁预测则能抑制这些方向。在ImageNet 256x256上,JLT-B/1通过classifier-free guidance获得2.50的FID-50K分数,相比速度预测展现出显著优势。研究指出,潜在扩散中的预测目标是与表示相关的几何选择,而非可互换的代数参数化。
英伟达 GeForce 610.47 驱动的配置文件中出现 DLSS 5 踪迹,新增了 DLSS-NR、DLSS-NR Streamline 和 DLSS-NR Presets 三项神经渲染配置。其中“NR”指向 Neural Rendering,是 DLSS 5 的核心概念。该技术将引入实时神经渲染模型,基于已渲染的 2D 画面与运动向量,为游戏画面补充光照和材质响应。
英伟达发布图像生成技术 PiD(Pixel Diffusion Decoder),能在消费级 RTX 5090 显卡上,以 13GB 峰值显存,将 512×512 图像潜变量解码放大至 2048×2048。该技术基于 PixelDiT,通过轻量级适配器与 DMD2 蒸馏(4 步推理)实现高速端到端生成,在 GB200 GPU 上最快 210ms,延迟相比级联方案最多快 5.9 倍。