针对扩散模型在少步采样时假设失效的问题,研究团队提出了归一化轨迹模型(NTM)。该模型将反向采样的每一步建模为具有精确似然训练的条件归一化流,其架构结合了步内的浅层可逆模块与跨轨迹的深度并行预测器,支持从零训练或由预训练流匹配模型初始化。NTM的精确轨迹似然使其能进行自蒸馏,仅需一个轻量级去噪器即可在四步内生成高质量样本。在文本到图像基准测试中,NTM仅用四步采样就能匹配或超越现有强基线,并独特地保持了生成轨迹的精确似然。
针对扩散模型在少步采样时假设失效的问题,研究团队提出了归一化轨迹模型(NTM)。该模型将反向采样的每一步建模为具有精确似然训练的条件归一化流,其架构结合了步内的浅层可逆模块与跨轨迹的深度并行预测器,支持从零训练或由预训练流匹配模型初始化。NTM的精确轨迹似然使其能进行自蒸馏,仅需一个轻量级去噪器即可在四步内生成高质量样本。在文本到图像基准测试中,NTM仅用四步采样就能匹配或超越现有强基线,并独特地保持了生成轨迹的精确似然。
为构建真正统一的文本-图像序列生成模型,研究团队提出STARFlow2。该模型基于Pretzel架构,通过残差跳跃连接垂直交织预训练视觉语言模型流与TarFlow流,两者共享因果掩码。结合深浅流设计与统一的FAE潜在空间,STARFlow2实现了缓存友好的交错生成,文本与视觉输出可直接进入KV缓存而无需重新编码。实验证明,该模型在图像生成与多模态理解任务上均表现优异,验证了自回归标准化流作为统一多模态建模基础的可行性。
GPT Image 2.0模型发布后持续展现惊人能力,无需参考图即可根据名称或IP生成高质量内容,尤其在二次元画风上表现卓越,被社区认为远超Banana 2等模型。Labnana社区现已将GPT Image 2.0的免费体验作为长期福利,用户通过签到和邀请获取积分即可基本满足使用需求。
SenseNova-U1开源了一项8步蒸馏LoRA技术,将扩散模型的生成步骤从100步压缩至8步,使GPU推理时间从23秒大幅缩短至2秒,速度提升达11倍。该技术同时完整支持ComfyUI,并提供了文本生图、图像编辑和交错生成等开箱即用的工作流程。此举标志着扩散模型从研究阶段迈向实用化,引发了业界关于未来应聚焦参数规模竞赛还是追求速度与实用性的讨论。
🚀SenseNova-U1 Update🚀 ⚡Open-source an 8-step distilled LoRA: 100 NFE → 8 NFE, cutting GPU inference from 23s to 2s 🧩C...
研究人员发布了学习扩散模型积分的新方法,称为Flow Maps,该技术通过数学积分优化扩散过程的概率流,提升生成AI模型的采样效率和图像质量。在Hacker News上获得102点,显示科技社区的高度关注。这一进展可能降低扩散模型的计算成本,推动其在图像生成等领域的实际应用,为生成模型训练提供更高效的解决方案。
针对现有评估方法在图像到图像转换任务中忽视内容保真度与前后一致性的问题,研究团队提出了StableI2I。这是一个无需参考图像的动态评估框架,能在图像编辑、修复等多种任务中量化语义对应与空间结构的保持程度。团队同时构建了配套基准StableI2I-Bench,用于系统评估多模态大模型在此类判断任务上的准确性。实验表明,该框架能提供精细、可解释的评估结果,且与人类主观判断高度相关,可作为诊断真实世界图像转换系统内容一致性与模型性能的实用工具。
针对高性能少步图像生成模型(如Z-Image-Turbo)在持续监督微调中会损害其固有少步推理能力的问题,本文提出D-OPSD训练范式。该方法利用以LLM/VLM为编码器的扩散模型可继承上下文能力的特点,将训练构建为在线策略自蒸馏过程:模型同时扮演教师(以文本和图像多模态特征为条件)和学生(仅以文本特征为条件)双重角色,并通过最小化其在自身生成轨迹上两个预测分布的差异进行优化。这使得模型能在自身监督下学习新概念或风格,同时保持原有的高效少步生成能力。
研究团队在归一化流(NFs)生成模型领域取得新进展,提出了迭代TARFlow(iTARFlow)。该方法在训练阶段保持完全端到端的基于似然的目标,采样时则采用自回归生成方式。iTARFlow延续了TARFlow在图像建模任务上的优势,使其成为扩散模型等方法的可行替代方案,进一步提升了归一化流生成模型的性能表现。
Relit-LiVE提出了一种无需相机姿态先验知识的视频重照明框架。其核心创新在于,将原始参考图像显式引入渲染过程,以恢复固有表示中丢失的关键场景信息;同时,通过单一扩散过程联合预测重照明视频与每帧对齐的环境光照图,增强了几何-光照对齐性,显著提升了动态光照和相机运动下的物理一致性与时间稳定性。实验表明,该方法在合成与真实场景基准测试中均优于现有先进方法,并支持场景渲染、材质编辑等下游应用。
研究团队提出了理解导向的后训练框架UNO,旨在通过理解任务直接引导生成表征,以增强统一多模态模型中理解与生成组件间的协同。该框架整合了语义抽象(如图像描述)和结构细节(如视觉回归)目标,实现了从理解到生成的有效梯度流动。在图像生成与编辑任务上的实验表明,理解监督能显著提升生成质量,证实了理解对生成的催化作用。
Luma just released Uni-1, an image generation model that reasons first! The shift: image generation models typically wor...
《刺客信条》官方回应了网传多人游戏新作《刺客信条:不败》的截图,指出图片虽可能源自内部私人测试,但已被“大幅修改”,很可能是AI编辑所致,并批评了传播错误信息的行为。爆料用户随后承认对原图进行了编辑,包括修改服装颜色和移除水印。官方确认该项目正在推进,由育碧蒙特利尔开发,采用边测试边学习的方式,并强调玩家反馈是核心,未来将在适当时机分享更多内容。
作者在撰写教程时,常需拼接多张图片,但使用Figma等工具较为笨重。在与AI讨论后,其推荐了一个HTML5 Canvas库来解决此问题。作者计划将该库整合到Markdown编辑器中,以便直接在编辑环境内完成图片拼接,再将结果插入文章,从而简化工作流程。相关Github项目链接可在评论区查看。
前沃尔玛电商业务CEO马克·劳尔在其餐饮平台Wonder中推出AI工具“Wonder Create”,用户可在不到一分钟内生成完整的虚拟餐厅品牌,包括名称、描述、图片及菜谱。Wonder平台采用“可编程烹饪平台”模式,配备机器人厨房与700种食材库,能灵活切换25种菜系。该创新旨在大幅降低餐饮创业门槛,让用户快速测试新菜品与品牌概念。
英伟达在GTC 2026展示DLSS 5技术时,将《生化危机:安魂曲》女主角格蕾丝的形象AI修改为轮廓更锐利、眼睛不同、嘴唇更丰满的“美颜”效果,引发玩家强烈反感。玩家普遍认为原版设计更具真实感和个性。对此,游戏总监中西晃史回应称,玩家维护原版形象恰恰证明这个新角色获得了成功和认可,这让他对原创设计充满信心。制作人熊泽正人也表示,玩家对原版外观的强烈认同是积极信号。
美图公司2026年第一季度业绩显示,其全球付费订阅用户数突破1790万,同比增长30.2%,创历史新高。以付费订阅为主的影像与设计产品收入达8.52亿元,同比增长34.3%。公司首次披露AI生产力应用年度经常性收入(ARR)约为5.8亿元,同比大幅增长56.2%,相关付费用户增至234万。此外,用户对AI算力点的消耗金额也呈现快速增长态势。
用户利用GPT Image 2 Prompt功能,描述生成一张半写实半动画照片,其中用户与动画角色野原新之助(小新)及其全家合影。照片要求小新、父亲广志、母亲美冴、妹妹向日葵和宠物小白保持原始动画形象,并自然融入真实环境。每个角色被赋予特定性格:小新滑稽淘气,广志温和朴实,美冴表情丰富略带严厉,小葵天真可爱,小白软萌伶俐。同时,引用推文展示了类似提示词,用于生成高度写实、角色略带风格化且与环境自然融合的照片,强调提示词在AI图像生成中的应用。
Pic 1: GPT Pic 2: Nano banana Prompt ⬇️⬇️⬇️ Create a highly realistic photo where I am standing with Shinchan Nohara and...
研究提出一种混合方法,旨在缩小游戏引擎合成数据与真实图像之间的外观差异。该方法结合了先进图像生成扩散模型 FLUX.2-4B Klein 与传统图像翻译模型 REGEN 的优势。实验表明,传统模型 REGEN 在性能上优于 FLUX.2-4B Klein,而将两者结合使用的混合方法,能够比单独使用任一模型获得更好的视觉真实感,同时保持语义一致性。相关代码已在 GitHub 开源。
Luma的Uni-1.1模型现已作为API开放。这是一个用于图像生成和自然语言编辑的统一智能模型,其核心特点是“意图优先”的图像生成。模型在生成前会进行思考,能补全场景缺失部分,理解空间上下文而非仅像素,并能基于参考图像保持一致性。该API内置提示词增强、研究和参考收集功能,专为生产环境打造。据称,其成本和延迟仅为同类模型的一半以下,且在图像生成与编辑的综合评测中位列前三。
The Uni-1.1 API is live today. Built-in prompt enhancement, research, and reference gathering at the API level. Trained ...
Exciting news: UNI-1.1-Max and UNI-1.1 debuts making @LumaLabsAI the #3 lab in the Image Arena across both Text-to-Image...
new in ai studio ⬇️ we've integrated @nanobanana to automatically create custom image assets for your app as it generate...
一段视频揭露,OnlyFans等平台上的“完美女孩”实为AI系统生成的虚拟伴侣。技术通过Claude维持人格记忆、Flux实时生成图像视频、ElevenLabs克隆声音,仅需少量代码与API费用即可自动运行。系统能精准满足用户情感需求,同步模仿真人动作表情,形成极致的情感剥削。随着AI技术成熟,平台身份验证形同虚设,未来大部分账号可能被AI取代。核心矛盾在于,即使知晓对方是虚拟存在,用户仍可能为获得“完美陪伴”付费,引发真实与虚假关系的深刻伦理危机。
文章介绍一款年费89.99美元的在线AI换脸工具Swaptok,用户可通过四步流程在30秒内将TikTok或Reels公开视频中的人脸替换为AI生成的高清人脸,单条成本极低。作者提出四条变现路径:运营AI网红矩阵账号、承接品牌广告外包、为自有产品制作素材以及出售课程或服务。同时指出需进行二次创作避免限流、注意版权风险及把握红利期等关键建议,视其为技术发展催生的新内容生产方式。
研究团队提出轨道空间几何概率路径(OGPP),这是一个专为粒子系统生成建模设计的原生粒子流匹配框架。该框架基于两个核心洞见:粒子具有置换对称性,匿名索引会导致难以学习的弯曲流;粒子存在于物理空间,其流终端速度可编码几何属性(如表面法线)。OGPP包含三个关键组件:轨道空间规范化、粒子索引嵌入以及具有弧长感知终端速度的几何概率路径。实验表明,在最小表面基准测试中,OGPP单步推理将误差降低达两个数量级;在ShapeNet上,它以更少的步骤和参数达到或超越了当前最佳性能;在单形状编码任务中,其完全在3D空间运行,生成的法线与重建结果可与6D生成器竞争。
IBM近日发布了采用Apache 2.0许可证的Granite 4.1大语言模型系列。随后,Unsloth提供了该系列3B模型的21个GGUF量化变体。作者利用这些大小从1.2GB到6.34GB不等的量化模型,尝试生成“鹈鹕骑自行车”的SVG图像以测试其能力。实验结果显示,所有模型生成的图像质量均较差,且未观察到模型大小与输出质量之间存在明显关联。基于此次不理想的尝试,作者表示未来将选用更擅长图像生成的模型重新进行此类实验。
JoyAI-Image是一个统一的多模态基础模型,集成了视觉理解、文本生成图像和指令引导的图像编辑功能。它通过空间增强的多模态大语言模型与多模态扩散变换器的耦合架构,实现了感知与生成的交互。其可扩展的训练方案融合了统一指令调优、长文本渲染监督及空间编辑信号,增强了模型的几何感知推理与可控视觉合成能力。实验表明,该模型在多项基准测试中达到领先或极具竞争力的性能。其核心在于通过增强理解、可控空间编辑和新视角推理之间的双向循环,推动模型向更强的空间智能演进,为下游应用提供了新路径。