针对AI生成内容的验证系统正处在关键发展期。谷歌在I/O大会上宣布,其隐形水印技术SynthID的验证能力将扩展至谷歌图片搜索,同时开放标准C2PA也获得更多行业支持。这些技术通过为图像、视频和音频文件嵌入不可见的来源标记,帮助用户辨别内容真伪。此前教皇AI假图等事件的传播,凸显了缺乏有效标签系统的困境。此次两大技术的迄今最大规模扩展,被视为扭转未标记AI虚假内容在线传播局面、建立可信数字生态的重要契机。
针对AI生成内容的验证系统正处在关键发展期。谷歌在I/O大会上宣布,其隐形水印技术SynthID的验证能力将扩展至谷歌图片搜索,同时开放标准C2PA也获得更多行业支持。这些技术通过为图像、视频和音频文件嵌入不可见的来源标记,帮助用户辨别内容真伪。此前教皇AI假图等事件的传播,凸显了缺乏有效标签系统的困境。此次两大技术的迄今最大规模扩展,被视为扭转未标记AI虚假内容在线传播局面、建立可信数字生态的重要契机。
本文介绍了PixVerve-95K,一个高质量、开源的超高清(UHR)文生图数据集,包含95K张图像(每张至少100M像素)及七维注释。基于此,研究团队探索了三种训练方案,成功将现有文生图基础模型扩展至原生100MP图像生成。同时,提出了PixVerve-Bench评估基准,全面评估UHR图像的视觉质量与语义对齐。实验与探索为该领域的未来突破提供了关键见解与实用策略。
为应对AI生成图像难以鉴别真伪的问题,OpenAI于5月20日宣布同时采用C2PA开放标准与谷歌的SynthID隐形水印技术。C2PA标准在图像元数据中添加可查看的AI生成标识,而SynthID则具备更强的抗篡改能力,两者形成互补。目前该措施仅适用于OpenAI自家产品生成的图像,同时公司展示了一款可检测这两种标识的核验工具,初期用于自家图像,后续计划扩展支持。
GitHub 上出现了开源项目 Remove–AI–Watermarks,提供命令行工具与库两种形式,可自动识别并移除图像中由 AI 生成的隐藏水印。该项目旨在提供便捷的技术方案,以应对 AI 内容标识带来的编辑与再利用限制,目前在开发者社区已获得较高关注。
当前离散自回归文本到图像模型的后训练通常只优化策略网络而固定VQ解码器,导致潜在协变量偏移,使奖励提升但图像质量下降。为此,本文提出首个端到端后训练框架RankE,通过交替优化策略与解码器实现协同进化。在LlamaGen-XL(775M)上,标准RL仅提升CLIP但恶化FID,而RankE同时改善两者(MS-COCO 30K上FID 15.21, CLIP 33.76)。在Janus-Pro(1B)上验证了其稳定转化奖励为图像质量的能力。
扩散模型的主流架构Diffusion Transformers (DiTs)沿用了原始Transformer的残差连接。本文通过系统性分析发现,这种传统残差加法在模型深度和去噪时间步的联合维度上存在信息幅度膨胀、梯度衰减和冗余等问题。为此,研究者提出了即插即用的扩散自适应路由(DAR)作为替代方案,它通过可学习的机制对子层输出历史进行时间步自适应的聚合。在ImageNet 256×256实验中,DAR将SiT-XL/2的FID分数从9.67提升至7.56,并减少了达到基线收敛质量所需的训练迭代。该方法还可与REPA等兼容以加速训练,并应用于文生图模型的微调。
Lens是一个3.8B参数的文本到图像模型,其性能可与6B以上参数的模型竞争甚至超越,且仅需约19.3%的训练计算量。高效训练源于两大策略:一是通过GPT-4.1生成的Lens-800M数据集(含约109词的密集描述)最大化每批次数据信息密度;二是采用语义VAE和强语言编码器等架构设计以加速收敛。预训练后,模型通过应用RL训练、推理器模块和知识蒸馏实现了4步推理,并支持1:2到2:1的任意宽高比及最高1440^2分辨率。该模型在单张NVIDIA H100 GPU上生成1024^2图像需3.15秒,其蒸馏版可在0.84秒内完成4步生成。
本研究针对现有文本-图像生成模型奖励模型训练成本高、评估标准不透明的问题,提出了首个自动评规学习框架AutoRubric-T2I。该框架能够自动合成并筛选明确的评分规则,以指导视觉语言模型评判者。其核心方法在于从偏好对中合成为候选规则,并通过带L1正则化的精炼器筛选出最具区分性的规则。实验表明,该框架仅需不到0.01%的标注数据即可生成高质量且可解释的奖励信号,在多个基准测试中性能优于强基线,并能有效提升下游生成任务的质量。
GenEvolve是一个旨在让图像生成代理自我进化的框架。该框架将每次生成过程建模为工具协调轨迹,代理通过收集证据、选择资源并组合生成技能来完成任务。与主要依赖图像级奖励的方法不同,GenEvolve通过对比同一请求的多个轨迹,将优劣差异提炼为结构化视觉经验,并仅提供给特权教师分支。借鉴策略自蒸馏思想,这些经验为学生代理提供了密集的token级监督,从而帮助其内化更优的搜索与构建能力。研究还构建了配套的数据集与评测基准,实验表明该方法达到了最先进的性能。
针对视频扩散模型生成长序列时质量下降和运动重复的问题,研究提出了一种无需训练的推理方法FlowLong。该方法通过重叠滑动窗口生成长视频,利用Tweedie匹配融合相邻窗口预测样本以保持时间连续性。在高噪声阶段采用随机早期采样同步轨迹,后转为确定性ODE采样保持视觉质量。实验表明该方法能在多种模型上生成数倍长度的视频,在时间一致性和视觉质量上超越现有基线,并可扩展至音视频生成与3DGS任务。
Google 在 IO 2026 大会上正式展示了其在 AI 设计领域的能力。该公司推出了一款新应用,旨在让包括教师、小企业主在内的所有人都能轻松使用。这款应用的发布标志着 Google 进一步将 AI 技术下沉至日常创作工具中,强调其易用性与普惠性,试图降低专业设计的门槛。
谷歌在2026年I/O开发者大会上,面向Workspace用户推出了AI图像生成与设计工具Google Pics。该工具以网页应用形式上线,核心是将图像生成与编辑设计整合在同一流程中,用户可通过鼠标悬停点选元素,并用文字或语音指令进行局部精细调整,无需重新生成整张图片。系统会提供多个候选版本,成品可输出为JPG或PNG格式。目前仅对部分受信测试者开放,AI Pro订阅用户将在夏季稍后体验,未来计划推出移动应用并整合到更多Workspace应用中。
谷歌宣布向全球的 Google AI Ultra 订阅者开放新的访问权限,并推出一项基于 Street View 数据驱动的全新功能。该功能能够模拟真实世界的地点与场景,标志着 AI 在结合地理信息与沉浸式体验方面迈出新步伐,为用户带来更具现实感的交互与探索可能性。
2026年5月19日,一个利用Gaussian Splatting技术渲染草莓高斯模糊效果的在线场景在superspl.at平台发布。该场景通过高斯点渲染算法实现模糊视觉效果,图片中草莓呈现出清晰的细节与艺术化处理。在Hacker News科技社区,此内容获得122个投票点,吸引了社区对新兴3D渲染技术的关注和讨论。
本研究针对扩散模型去除预训练阶段不安全内容时面临的监督数据昂贵及离线方法易导致灾难性遗忘等问题,提出了SafeDiffusion-R1在线强化学习框架。该框架采用组相对策略优化算法,在正负文本提示上进行后训练,无需依赖配对监督数据。其核心在于引入了一种奖励引导机制,直接利用CLIP嵌入特性,在嵌入空间中引导文本表征向安全方向优化,从而无需微调专门的安全奖励模型。实验表明,该方法将不安全内容生成比例从48.9%降至18.07%,裸体检测数大幅减少,同时提升了组合生成质量,并可泛化至多种危害类别,达到当前最优水平。
5月19日,Anthropic 宣布对 Claude 产品线进行两项重要更新。首先,所有付费套餐中 Claude Design 的 Token 上限已翻倍,旨在减少设计中断并支持更长上下文与迭代。其次,Claude Code 的快速模式(通过“/fast”启用)现已默认切换至 Opus 4.7 模型,速度提升至 2.5 倍,但 Token 成本更高。价格方面,Opus 4.7 与之前的 Opus 4.6 在快速模式下定价一致,均为每百万输入 Token 30 美元、输出 150 美元,并覆盖 100 万 Token 的完整上下文窗口。
可灵AI与候鸟300合作推出#候鸟记忆复活计划,邀请曾参与候鸟300的艺术家用旧照片、影像、手稿或故事作为素材,通过可灵AI续写创作。活动即日起至5月31日,带话题发布视频并填写问卷即视为参与。将综合创意独特性和技术表现力筛选10支优秀作品,各奖励12,000灵感值。
本文介绍了轻量级原生统一模型Lance,支持图像与视频的理解、生成与编辑。该模型摒弃了对模型规模扩张或文本-图像主导设计的依赖,探索通过多任务协同训练实现统一多模态建模的实用范式。其核心在于两个原则:统一上下文建模与解耦能力路径。Lance从头训练,采用共享交织多模态序列的双流专家混合架构,并引入模态感知旋转位置编码以减少异构视觉标记间的干扰,增强跨任务对齐。训练采用分阶段多任务范式,结合能力导向的目标与自适应数据调度。实验表明,Lance在图像与视频生成任务上显著优于现有开源统一模型,同时保持了强大的多模态理解能力。
StitchVM是一个用于扩散模型对齐的模型拼接框架。它解决了在噪声中间潜在值上评估奖励的挑战,通过将预训练的干净图像奖励模型(如CLIP ViT-L)与固定的扩散主干(如SD 3.5 Medium)轻量级地“拼接”起来。该框架的核心创新在于,使奖励模型能够直接处理噪声潜在值,从而避免了传统近似方法的计算成本或偏差问题。整个拼接与微调过程极为高效,仅需约10个GPU小时。实验表明,StitchVM显著提升了下游方法的效率,使DPS推理速度提升3.2倍、显存占用减半,并将DiffusionNFT加速2.3倍。
针对从平面图和风格参考生成一致全屋VR漫游的难题,本文提出了PanoWorld。该模型将整屋合成任务转化为基于节点的360度全景图自回归生成,与真实VR产品的导航方式一致。其核心方法是使用基于平面图的3D壳体作为全局几何代理,并结合动态3D高斯溅射缓存作为可渲染的空间记忆。通过专门设计的全景LRM和房间感知组注意力机制,模型能够更新全景图并抑制跨房间特征干扰,在保持高质量2D细节的同时显著提升了跨节点间的布局与材质一致性。项目详见:https://jjrcn.github.io/PanoWorld-project-home/
彭博社报道,苹果iOS 27系统计划引入AI版快捷指令App,并优化自定义壁纸生成功能。图乐园(Image Playground)功能将部署更强AI模型,增强AI生成壁纸能力,使壁纸更逼真,用户可在设置流程中即时生成个性化壁纸,无需依赖相册或预设。同时,写作工具(Writing Tools)在现有生成、总结和基础校对基础上,重点增强语法检查能力,提升句法问题处理,使体验更接近Grammarly。
近日,小米在 CVPR 2026 NTIRE 图像恢复与增强赛事中获得三项大奖。小米玄戒多媒体算法团队凭借自研SPANV2方法,以综合得分4.43夺得高效超分辨率赛道冠军,实现了画质与速度的均衡提升。小米大模型应用团队通过双阶段级联框架与单步扩散技术,获得人像修复赛道冠军;并在反光消除赛道通过骨干网络升级与知识蒸馏等策略获得亚军,主观评分达4.31分,多项客观指标位列第一。
2026年5月18日,一篇题为《那些充满氛围感的Photoshop作品都去哪儿了?》的评论文章在Hacker News引发讨论,获得106点热度。文章似乎聚焦于数字创作领域的趋势变迁,尤其探讨了曾流行于Photoshop中的“氛围感”视觉风格及其作品在当下的呈现状态或减少迹象,并关联到创作者工作流程与工具使用的潜在转向。
针对现有城市建筑能耗建模多为预测性、缺乏生成能力且数据稀缺的问题,本文提出了一个名为SENSE的统一生成式框架。该框架能够基于可控扩散模型,联合合成逼真的城市卫星图像以及与之对齐的高质量建筑能耗与高度图。其通过道路网络和城市密度指标进行条件控制,并利用大型视觉模型在潜在空间生成标注信息。在纽约等四个城市的实验表明,SENSE生成的图像视觉保真度高,且符合物理标准。该模型能利用少量标注数据生成合成数据集,显著提升了下游预测任务的性能并降低了误差,为城市可持续规划提供了新方案。
针对3D高斯溅射难以真实渲染半透明镜面物体的反射模糊与透射遮挡问题,本研究提出了RT-Splatting框架。其核心在于将高斯球的几何占据与光学不透明度解耦,从而用同一组高斯基元统一表征场景的表面与体积。通过混合渲染器,既能捕捉高频反射,又能保留清晰透射。为稳定联合优化,框架引入了镜面感知梯度门控,以抑制高镜面区域对透射分支的干扰梯度。实验表明,该方法在复杂半透明场景中实现了实时的高保真渲染,达到最先进水平,并自然支持灵活的场景编辑。
据马克・古尔曼报道,苹果计划在iOS 27和iPadOS 27中为Genmoji功能引入智能推荐。该功能将基于用户相册照片和键盘输入记录,自动生成个性化的专属表情,旨在提升功能使用率。用户可在键盘设置中自主选择开启或关闭此推荐选项。Genmoji功能最初随iOS 18.2上线,允许用户通过文字指令生成表情。此次升级强调场景贴合度与实用性,但具体是否仍完全依靠端侧AI模型运行尚未明确。
AMD一项名为“基于人工智能的游戏与渲染引擎”的专利曝光,计划推出一款完全依托AI打造的游戏引擎。该引擎旨在通过神经外推、智能超采样等技术,在生成逼真游戏画面的同时大幅降低算力消耗。其核心特点是允许开发者仅绘制简易草图轮廓,AI便能据此从零生成精细的游戏画面与内容,可承接传统游戏引擎的各类运算处理工作。目前该技术具体开放时间未定,但展现了AI颠覆游戏开发流程的潜力。
论文提出EVA01框架,扩展多模态大语言模型以原生方式整合3D网格理解、生成和上下文感知编辑。它基于Mixture-of-Transformers架构,将模型解耦为预训练的理解专家和结构镜像的生成专家,通过共享的全局自注意力与硬模态路由进行耦合。结果显示,EVA01在文本到3D生成保真度上达到最先进水平,并解锁了具有身份保持能力的鲁棒长上下文多轮几何编辑功能,这是无状态重建流程无法实现的。
Image-blaster是一款开源工具,能够仅凭单张输入图片自动生成对应的3D场景、特效和网格模型。该项目已在GitHub平台发布,获得了开发者社区的关注,在Hacker News上收获了102个投票。这一技术简化了3D内容创作流程,有望降低相关领域的制作门槛。
研究提出一种球面流匹配方法,改进图像生成的潜在几何对齐。通过将潜在标记分解为径向与角度分量,发现解码后的感知与语义信息主要由方向承载。该方法将数据潜在投影到固定半径,以高斯噪声的径向投影作为球面先验,冻结编码器微调解码器,并用球面线性插值替代线性插值。由此构建的测地路径始终保持在球面上,速度目标纯由角度构成。在同等训练条件下,该方法在不同图像标记器上持续提升类别条件ImageNet-256的FID指标,无需改变扩散架构,也不依赖辅助编码器或表示对齐目标。
Sat3DGen提出了一种从单张卫星图像生成街景级3D场景的新方法。针对现有方法在几何保真度与语义丰富性间的权衡难题,该方法采用“几何优先”策略,通过整合新颖的几何约束与视角训练策略,有效缓解了因视角差异大、监督稀疏导致的几何失真。在基于VIGOR-OOD测试集与新构建的高分辨率DSM基准上,该方法将几何RMSE从6.76米显著降至5.20米,同时大幅提升视觉真实感(FID从约40优化至19)。所生成的高质量3D资源可支持语义地图转3D合成、多相机视频生成等多种下游应用。代码已开源。
研究团队在NeurIPS 2025上提出ARGenSeg,将图像分割转化为自回归生成过程,逐像素预测分割掩码。该方法利用大规模预训练自回归图像生成模型(如GPT风格视觉模型)的表征与序列建模能力,无需专门架构设计或大量标注数据。实验证明,其在多个标准数据集上性能具有竞争力,展现了生成式基础模型处理判别式视觉任务的潜力。
针对文本到图像模型在复杂语义生成上的局限,研究团队提出了闭环视觉推理框架。该框架通过自动数据引擎进行步骤级视觉验证,合成可靠推理轨迹,并采用代理提示强化学习解决长上下文优化不稳定问题。为降低迭代去噪导致的高延迟,框架引入Δ-Space权重合并方法,将每步推理成本降至仅需4次噪声估计前向传播。实验表明,该框架在多项基准测试中超越现有开源模型,性能接近专有商业模型,实现了复杂视觉生成的通用测试时扩展能力。
科技媒体通过挖掘三星AI Core应用代码,发现其已开始适配联发科天玑9500芯片,预计将用于Galaxy Tab S12系列平板。代码揭示了四项本地化AI功能:AI生成壁纸、AI图像扩展、端侧生成式编辑以及图像协调(可自然融合主体与背景的光线色彩)。这些改进旨在强化本地图像处理,减少对云端的依赖,从而提升响应速度与隐私保护。鉴于前两代旗舰平板已采用天玑芯片,S12系列延续此配置的可能性很高。
本文提出VGGT-Edit,一种基于文本指令的前馈式原生3D场景编辑框架。该方法通过深度同步文本注入技术,将语义引导与主干网络的空间姿态对齐,确保指令的稳定理解。其核心是一个残差变换头,直接预测3D几何位移来变形场景,同时保持背景稳定。框架采用多目标损失函数进行监督,以保障几何精度与跨视角一致性。团队还构建了经过3D一致性过滤的大规模DeltaScene数据集。实验表明,该方法显著优于基于2D提升的基线,能生成更清晰的细节、更强的多视角一致性,并具备接近实时的推理速度。
本研究探讨纯合成数据对平面设计分层解构的效用。基于前沿的CLD框架,团队构建了合成数据集SynLayers,并利用视觉语言模型生成文本监督与自动化推断输入。关键发现包括:纯合成数据训练效果优于PrismLayersPro等非可扩展方案;性能随数据规模增加持续提升,在约5万样本处增益趋于饱和;合成数据能平衡控制图层数量分布,避免现实数据中的图层失衡问题。这项以数据为中心的研究为可扩展的分层设计编辑系统提供了实践基础。
本文提出“Warp-as-History”方法,使冻结的视频生成模型无需训练即可零样本遵循指定相机轨迹。该方法将相机运动形变转化为具有目标帧位置对齐和可见令牌选择的伪历史序列,无需修改模型或进行测试时优化。此外,仅需在单条相机标注视频上进行轻量级离线LoRA微调,即可显著提升模型对相机轨迹的跟随能力、视觉质量和运动动态,并能泛化至未见过的视频。实验在多个数据集上验证了该方法的有效性。
现有少步图像生成方法(如一致性流和均值流)虽减少采样步数,但训练不稳定且可扩展性有限。Sphere Encoder虽能快速生成高质量图像,但推理时需在像素与潜在空间反复转换,并在同一架构内联合优化重建与生成目标,导致效率低下和目标冲突。为此,提出一种解耦框架:使用固定预训练图像编码器,并训练一个完全在球面潜在空间中运行的独立去噪模型。该方法消除反复像素操作,提升效率,允许任务独立优化。实验在Animal-Faces、Oxford-Flowers和ImageNet-1K上显示,生成质量和速度均优于Sphere Encoder,并与强少步及多步基线方法性能相当。
阿里巴巴发布图像模型 Qwen-Image-2.0,其图像压缩强度达到多数竞品的两倍。模型采用重新设计的Transformer架构以稳定训练,并配备专用模块,可将简短用户输入自动扩展为详细提示。其蒸馏版本仅需4步去噪即可完成图像生成,远少于通常的40步。在用户盲测平台LMArena上,该模型目前排名第9位。