英伟达正式发布 DLSS 4.5 SDK,基于第二代 Transformer AI 模型,支持开发者将动态多帧生成、光线重构、超分辨率及帧生成等技术整合进游戏。新 SDK 优化了框架结构,提供统一接入路径并支持按需选择,显著降低 AI 图形技术的接入门槛。《83》《原子之心》等游戏将在未来支持该技术,助力新一代 PC 游戏提升性能与画质。
英伟达正式发布 DLSS 4.5 SDK,基于第二代 Transformer AI 模型,支持开发者将动态多帧生成、光线重构、超分辨率及帧生成等技术整合进游戏。新 SDK 优化了框架结构,提供统一接入路径并支持按需选择,显著降低 AI 图形技术的接入门槛。《83》《原子之心》等游戏将在未来支持该技术,助力新一代 PC 游戏提升性能与画质。
研究人员针对MeanFlow单步生成框架难以有效整合大语言模型文本编码器的问题,提出采用高判别性文本表征的解决方案。通过适配基于LLM的文本编码器并优化生成流程,首次实现高效的文本条件单步图像合成。实验表明,该方法在主流扩散模型上显著提升了生成性能,突破了原有类别标签条件的局限。相关代码已开源。
育碧安纳西工作室近期为一款基于虚幻引擎5开发的未公布3A多人游戏招募技术美术总监,任职要求中明确列出需熟练运用ChatGPT、Claude、Copilot等生成式AI模型。同期该工作室招聘的提示词专员岗位也要求精通GPT-4、Gemini等工具。这显示生成式AI正成为3A游戏开发的标配技能,可能应用于概念美术生成等环节,标志着传统游戏开发流程正经历AI化转型。
研究团队提出ReImagine方法,采用图像优先策略解决人体视频生成中外观、运动与视角联合建模的难题。该方法将外观建模与时间一致性解耦,通过预训练图像主干学习高质量外观作为视频合成先验,结合SMPL-X运动引导与免训练的时间细化阶段,实现姿态和视角可控的高质量视频生成。团队同时发布了规范人体数据集与组合式人体图像合成辅助模型,代码与数据均已开源。
MMCORE 是一个统一的多模态图像生成与编辑框架,通过预训练视觉语言模型(VLM)预测语义视觉嵌入,并将其作为条件信号引导扩散模型。该设计无需深度融合自回归与扩散模型或从头训练,显著降低计算成本的同时保持高保真合成。框架支持文本到图像生成与交错图像生成,在空间推理和视觉定位等复杂场景中展现出强大的多模态理解能力,在多项文本到图像及单/多图像编辑基准测试中均优于现有最先进基线。
开发者发布了一个基于 Gemma 4 和 E2B 的 Prompt-to-Excalidraw 浏览器演示,支持通过自然语言提示直接生成 Excalidraw 手绘图表。该方案将 3.1GB 的 Gemma 4 模型完全部署在浏览器端本地运行,借助 E2B 沙箱环境实现前端 AI 推理,无需后端服务器支持。项目在 Hacker News 获得 101 个赞。
本文提出UDM-GRPO框架,首次实现均匀离散扩散模型与强化学习的稳定结合。针对训练不稳定问题,该方法将最终干净样本作为动作,并通过扩散前向过程重建轨迹以对齐预训练分布。此外,引入Reduced-Step和CFG-Free策略提升效率。实验表明,GenEval准确率从69%提升至96%,PickScore从20.46提升至23.81,OCR基准准确率从8%跃升至57%,在文本到图像任务中达到SOTA性能。
GPT Pro - Spud solved SVG One SHOT svg , code is shared in the comments @OpenAI you won this time , i never said this bu...
德国高等地区法院近日裁定,使用AI将受版权保护的照片转换为漫画作品不构成版权侵权。法院认定,只要AI仅复制原作的"主题"(motif)而非具体表达形式,此类改编即属合法范围。该判决明确了AI转换性使用的法律边界,为生成式AI在版权领域的应用提供了重要司法参考。
数百个AI虚拟形象正在TikTok、Instagram和YouTube等平台密集发布支持特朗普的内容。部分账号已积累超过3.5万粉丝和数百万次观看,特朗普本人也曾分享相关AI生成内容。目前尚不清楚这些活动是个人行为还是协调竞选操作,这一现象正值美国中期选举前夕。
针对现有相机可控图像编辑方法因几何引导碎片化导致的几何漂移与结构退化问题,研究团队提出了UniGeo新框架。该框架利用视频模型提供连续视角先验,并首次在表征、架构和损失函数三个层级系统性地统一注入几何引导。具体创新包括:表征层的帧解耦几何参考注入、架构层的几何锚点注意力对齐多视图特征,以及损失函数层的轨迹端点几何监督策略。在多个公开基准测试中,UniGeo在广泛及有限的相机运动设置下,于视觉质量和几何一致性方面均显著优于现有方法。
针对联合图像-特征扩散模型中语义表示空间固定不变的问题,CoReDi 框架通过协同进化机制,在训练过程中联合优化轻量级线性投影与扩散模型,动态调整表示空间以适应生成任务。该方法结合停止梯度目标、归一化和针对性正则化防止特征崩溃,增强了语义特征与图像潜变量的互补性。在 VAE 潜变量扩散和像素空间扩散的实验表明,相比固定表示空间的方法,CoReDi 实现了更快的收敛速度和更高的样本质量。
Honored to announce we are partnering with Jim Liu to port over his wildly popular skills for infographics and design to...
ImagineArt 2.0在文本到图像排行榜首登第9位,生成质量与xAI的grok-imagine-image及Google的Imagen 4 Ultra相当。作为ImagineArt推出的最新专有图像模型,该版本目前已集成于ImagineArt Image Studio应用,面向开发者的API即将上线。ImagineArt作为综合性AI创意平台,为用户提供多种图像与视频模型的一站式访问。
当前最先进的文本到3D生成模型存在"潜在汇点陷阱":模型在特定区域对文本提示修改不敏感,导致无法通过改变输入文本来调整输出几何。这并非几何表达能力不足,而是对分布外文本指导的敏感性缺失。研究提出利用模型无条件生成先验,将几何表示与语言敏感性解耦以绕过该陷阱,实现了对分布外3D形状的高保真语义编辑,突破了现有3D流水线的局限性。
研究团队推出GlobalSplat框架,采用"先对齐后解码"策略,通过学习紧凑的全局潜在场景表示来解析跨视图对应关系,再解码显式3D几何,有效解决了传统方法因局部分配策略导致的全局一致性差和表示冗余问题。该框架在RealEstate10K和ACID数据集上仅需16K Gaussians(4MB存储)即可实现高质量新视角合成,单次前向传播推理速度达78毫秒以内,显著优于密集基线方法。
Image generation is now live in Codex! You can now generate visuals, edit existing images, and create GIFs from a single...
研究人员提出LeapAlign微调方法,通过将长生成轨迹压缩为两步连续跳跃(leap)解决流匹配模型后训练中反向传播的梯度爆炸与内存瓶颈问题。该方法随机化跳跃起止时间步以支持任意生成步骤的直接梯度更新,并对高一致性轨迹分配更高权重、对大幅梯度项降权处理以增强稳定性。在Flux模型上的实验表明,该方法在图像质量和图文对齐等指标上持续优于GRPO及直接梯度等现有方法。
C-GenReg是一种无需训练的3D点云配准框架,利用世界基础模型将输入几何转换为多视图一致的RGB图像,借助视觉基础模型(VFM)在图像域提取密集对应关系,再通过深度图映射回3D空间。该方法采用"Match-then-Fuse"概率冷融合策略,将生成RGB分支与原始几何分支的对应后验进行融合,无需额外学习即可提供校准置信度。作为零样本即插即用方案,C-GenReg所有模块均无需微调,在室内3DMatch、ScanNet及室外Waymo基准测试中展现出卓越的跨域泛化能力,并首次在真实室外LiDAR数据上实现生成式配准。
扩散概率模型在推理阶段存在信噪比-时间步(SNR-t)偏差,即去噪样本的信噪比与其时间步发生错位,导致误差累积和生成质量下降。研究者提出差分校正方法,依据模型先重建低频再处理高频的特性,将样本分解为不同频率成分并分别校正。实验表明,该方法在 IDDPM、ADM、DDIM、EDM、PFGM++、FLUX 等 8 种模型及多分辨率数据集上均显著改善生成质量,且计算开销可忽略。
Google在Gemini应用中推出个性化图像生成新功能,利用“个人智能”整合Nano Banana 2模型与用户已连接的Google应用(如Google相册),自动理解用户偏好与生活背景。用户无需手动上传参考图或编写复杂提示词,仅需简单指令即可生成反映个人品味、生活方式乃至包含亲友形象的图像,并能调整风格和细化结果。Google强调,此功能不会使用用户的私人Google相册数据直接训练模型,以保护隐私。
RE-Edit 是一个评估图像编辑系统隐式推理能力的多维度基准,包含五个推理维度(物理、环境、文化、因果、指代)和 1,000 个精心设计的样本。研究测试了十种开源和两种商用图像编辑模型,发现即使先进系统在满足隐含逻辑约束时也经常失败,尽管能生成高质量视觉内容。论文还提出了一种轻量级推理引导后编辑基线,初步探索了显式推理在模型无关方式下缓解此类错误的可能性。
本文探讨token结构对自回归模型测试时搜索能力的影响。研究表明,采用粗到细结构的一维有序token其中间状态具备可验证的语义意义,使验证器能有效引导生成,显著优于传统二维网格结构。实验显示,基于此类token训练的模型在测试时扩展行为上表现更佳。此外,研究实现了无需训练AR模型的纯测试时搜索文本到图像生成,并系统分析了best-of-N、束搜索等经典算法与不同token结构的交互机制,为自回归模型的推理时扩展提供了实践指导。
医学图像超分辨率模型多沿用自然图像设计的通用变分自编码器(VAE),研究发现这是重建质量的主要瓶颈。在控制实验中,将在160万张医学图像上预训练的MedVAE替换Stable Diffusion VAE后,膝关节MRI、脑部MRI和胸部X光的PSNR提升2.91至3.29 dB(p<10^{-20}),优势集中于高频解剖细节。消融实验证实性能差距稳定且幻觉率无显著差异。自编码器重建质量可预测下游性能(R²=0.67),表明领域特定VAE的选择应优先于扩散架构优化。
业内人士预测Claude Opus 4.7与ChatGPT Image 2将于本周密集发布,甚至可能包括代号"Spud"的新品。OpenAI惯于周二或周四发布,Anthropic则试图抢先或避免被 overshadow。鉴于Anthropic近期凭借Mythos等占据头条,加上Deepseek预计下周发布,OpenAI急需重大更新应对竞争。尽管Image 2已遭大量泄露,但The Information及OpenAI员工积极情绪均暗示发布临近。
本文提出OneHOI,一个统一人-物交互(HOI)生成与编辑的扩散Transformer框架,将两项任务整合为基于共享结构化交互表示的条件去噪过程。核心R-DiT通过角色与实例感知HOI token、空间Action Grounding、结构化HOI注意力及HOI RoPE机制,建模动词介导关系并解耦多交互场景。基于HOI-Edit-44K等数据集联合训练,支持布局引导、任意掩码及混合条件控制,在生成与编辑任务上均达SOTA性能。
为提升 Nano Banana 生成质量,建议通过六大维度构建提示词:Subject(主体)定义画面核心对象,Composition(构图)控制镜头语言,Action(动作)描述动态场景,Location(地点)设定环境背景,Style(风格)统一视觉美学,Editing Instructions(编辑指令)实现精准图像修改。该方法强调在生成前建立清晰的故事叙事与视觉风格,适用于文生图及图生图场景。
针对生成式模型带来的虚假信息风险,研究人员提出多比特图像水印方案ADD(Add, Dot, Decode),采用"添加-点积-解码"两阶段机制嵌入可溯源信息。在MS-COCO基准48比特水印测试中,ADD达成100%解码准确率,面对各类图像失真时性能衰减控制在2%以内,远优于现有方法14%的平均降幅。该方法嵌入效率提升2倍,解码速度提升7.4倍,并提供理论分析支撑其有效性。
研究团队提出连续对抗流模型,通过引入学习判别器替代固定的均方误差准则,对现有 flow matching 模型进行后训练优化。在 ImageNet 256px 生成任务中,该方法将 latent-space SiT 的无引导 FID 从 8.26 降至 3.63,pixel-space JiT 从 7.17 降至 3.57;有引导生成下 SiT 的 FID 从 2.06 优化至 1.53。该方法在文生图任务的 GenEval 和 DPG 基准测试上也取得显著性能提升。
从 Langevin 视角重新思考扩散模型,为理解反向过程如何从纯噪声生成数据提供了更简洁直观的解释。该框架统一了基于 ODE 和 SDE 的扩散模型,阐明了扩散模型在理论上优于普通 VAE 的原因,并证明流匹配在最大似然估计下与去噪和分数匹配本质等价。这一视角弥合了现有扩散模型不同解释之间的鸿沟,展示了各类形式化方法如何在统一框架下相互转化,为初学者和资深研究者提供了更清晰的教学价值和理论直觉。