研究提出一种球面流匹配方法,改进图像生成的潜在几何对齐。通过将潜在标记分解为径向与角度分量,发现解码后的感知与语义信息主要由方向承载。该方法将数据潜在投影到固定半径,以高斯噪声的径向投影作为球面先验,冻结编码器微调解码器,并用球面线性插值替代线性插值。由此构建的测地路径始终保持在球面上,速度目标纯由角度构成。在同等训练条件下,该方法在不同图像标记器上持续提升类别条件ImageNet-256的FID指标,无需改变扩散架构,也不依赖辅助编码器或表示对齐目标。
研究提出一种球面流匹配方法,改进图像生成的潜在几何对齐。通过将潜在标记分解为径向与角度分量,发现解码后的感知与语义信息主要由方向承载。该方法将数据潜在投影到固定半径,以高斯噪声的径向投影作为球面先验,冻结编码器微调解码器,并用球面线性插值替代线性插值。由此构建的测地路径始终保持在球面上,速度目标纯由角度构成。在同等训练条件下,该方法在不同图像标记器上持续提升类别条件ImageNet-256的FID指标,无需改变扩散架构,也不依赖辅助编码器或表示对齐目标。
SenseNova近日推出专为信息图表生成设计的增强模型SenseNova-U1-8B-MoT-Infographic。该模型能够根据指令生成多种视觉格式内容,包括海报、图表、食谱卡、明信片以及学术风格的arXiv页面等。在性能方面,模型在BizGenEval(困难版)和IGenBench(Q-ACC)两项基准测试上表现突出,相比其基础U1模型分别提升了6.8分和18.2分。目前,该模型已在Hugging Face平台开源,并提供了超过100个多样化的生成示例,供开发者和研究者参考与试用。
Sat3DGen提出了一种从单张卫星图像生成街景级3D场景的新方法。针对现有方法在几何保真度与语义丰富性间的权衡难题,该方法采用“几何优先”策略,通过整合新颖的几何约束与视角训练策略,有效缓解了因视角差异大、监督稀疏导致的几何失真。在基于VIGOR-OOD测试集与新构建的高分辨率DSM基准上,该方法将几何RMSE从6.76米显著降至5.20米,同时大幅提升视觉真实感(FID从约40优化至19)。所生成的高质量3D资源可支持语义地图转3D合成、多相机视频生成等多种下游应用。代码已开源。
推文展示了利用GPT-2的图像功能,通过上传图片即可自动拆解和标注OOTD(每日穿搭)的提示词方法。作者以近期因马斯克携带参会而走红的其子𝕏的穿搭为例,说明该提示词能快速分析网红造型。提示词已分享至评论区,供读者尝试使用。
研究团队在NeurIPS 2025上提出ARGenSeg,将图像分割转化为自回归生成过程,逐像素预测分割掩码。该方法利用大规模预训练自回归图像生成模型(如GPT风格视觉模型)的表征与序列建模能力,无需专门架构设计或大量标注数据。实验证明,其在多个标准数据集上性能具有竞争力,展现了生成式基础模型处理判别式视觉任务的潜力。
针对文本到图像模型在复杂语义生成上的局限,研究团队提出了闭环视觉推理框架。该框架通过自动数据引擎进行步骤级视觉验证,合成可靠推理轨迹,并采用代理提示强化学习解决长上下文优化不稳定问题。为降低迭代去噪导致的高延迟,框架引入Δ-Space权重合并方法,将每步推理成本降至仅需4次噪声估计前向传播。实验表明,该框架在多项基准测试中超越现有开源模型,性能接近专有商业模型,实现了复杂视觉生成的通用测试时扩展能力。
科技媒体通过挖掘三星AI Core应用代码,发现其已开始适配联发科天玑9500芯片,预计将用于Galaxy Tab S12系列平板。代码揭示了四项本地化AI功能:AI生成壁纸、AI图像扩展、端侧生成式编辑以及图像协调(可自然融合主体与背景的光线色彩)。这些改进旨在强化本地图像处理,减少对云端的依赖,从而提升响应速度与隐私保护。鉴于前两代旗舰平板已采用天玑芯片,S12系列延续此配置的可能性很高。
本文提出VGGT-Edit,一种基于文本指令的前馈式原生3D场景编辑框架。该方法通过深度同步文本注入技术,将语义引导与主干网络的空间姿态对齐,确保指令的稳定理解。其核心是一个残差变换头,直接预测3D几何位移来变形场景,同时保持背景稳定。框架采用多目标损失函数进行监督,以保障几何精度与跨视角一致性。团队还构建了经过3D一致性过滤的大规模DeltaScene数据集。实验表明,该方法显著优于基于2D提升的基线,能生成更清晰的细节、更强的多视角一致性,并具备接近实时的推理速度。
本研究探讨纯合成数据对平面设计分层解构的效用。基于前沿的CLD框架,团队构建了合成数据集SynLayers,并利用视觉语言模型生成文本监督与自动化推断输入。关键发现包括:纯合成数据训练效果优于PrismLayersPro等非可扩展方案;性能随数据规模增加持续提升,在约5万样本处增益趋于饱和;合成数据能平衡控制图层数量分布,避免现实数据中的图层失衡问题。这项以数据为中心的研究为可扩展的分层设计编辑系统提供了实践基础。
POV: The SuperSport cameraman finds the main character 😭⚽ The funniest part about these viral stadium cams is how RANDO...
本文提出“Warp-as-History”方法,使冻结的视频生成模型无需训练即可零样本遵循指定相机轨迹。该方法将相机运动形变转化为具有目标帧位置对齐和可见令牌选择的伪历史序列,无需修改模型或进行测试时优化。此外,仅需在单条相机标注视频上进行轻量级离线LoRA微调,即可显著提升模型对相机轨迹的跟随能力、视觉质量和运动动态,并能泛化至未见过的视频。实验在多个数据集上验证了该方法的有效性。
现有少步图像生成方法(如一致性流和均值流)虽减少采样步数,但训练不稳定且可扩展性有限。Sphere Encoder虽能快速生成高质量图像,但推理时需在像素与潜在空间反复转换,并在同一架构内联合优化重建与生成目标,导致效率低下和目标冲突。为此,提出一种解耦框架:使用固定预训练图像编码器,并训练一个完全在球面潜在空间中运行的独立去噪模型。该方法消除反复像素操作,提升效率,允许任务独立优化。实验在Animal-Faces、Oxford-Flowers和ImageNet-1K上显示,生成质量和速度均优于Sphere Encoder,并与强少步及多步基线方法性能相当。
Introducing Image-to-Replica. Any face that can exist as a single image, whether it's a brand mascot that has lived in a...
阿里巴巴发布图像模型 Qwen-Image-2.0,其图像压缩强度达到多数竞品的两倍。模型采用重新设计的Transformer架构以稳定训练,并配备专用模块,可将简短用户输入自动扩展为详细提示。其蒸馏版本仅需4步去噪即可完成图像生成,远少于通常的40步。在用户盲测平台LMArena上,该模型目前排名第9位。
知情人士透露,虎鲸文娱旗下的妙鸭相机团队已于去年9月底解散,产品不再升级和推广,仅维持最低程度运营。团队产品运营人员约十几人,加上算法、技术等支持人员共三四十人。妙鸭相机是阿里大文娱的创业项目,2023年7月17日正式上线后快速走红,作为首款C端出圈的AIGC产品,用户需上传20张以上人脸照片并支付9.9元来制作数字分身写真。
SenseNova U1 在 ComfyUI 上的实际测试获得了 Bijan Bowany 的强烈认可,证明了其处理复杂任务的能力。测试显示,模型能清晰呈现复杂概念的视觉内容,在交织文本图像中保持逻辑连贯和自我反思,并能轻松应对如人类变直升机等疯狂提示。视频演示和试用资源可通过 Hugging Face 和 GitHub 获取。
this is Krea 2. our first foundation model, built completely from scratch for aesthetic diversity and stylistic control....
Qwen团队推出Qwen-Image-VAE-2.0高压缩变分自编码器,在重建保真度与扩散适应性上均取得显著提升。该模型采用全局跳跃连接与扩展潜在通道的改进架构,基于数十亿图像训练,并引入合成渲染引擎以增强文本场景处理能力。通过增强语义对齐策略解决高维潜在空间收敛难题,并利用非对称无注意力编码器-解码器降低计算开销。在公开重建基准及新提出的文本场景基准OmniDoc-TokenBench上均表现优异,下游DiT实验证实其能显著加速扩散模型收敛。
针对现有图像编辑模型评估基准任务难度有限、评价方法粗糙,以及奖励模型基准脱离实际强化学习场景的问题,研究团队推出了统一评估套件Edit-Compass与EditReward-Compass。Edit-Compass包含2,388个精细标注实例,涵盖世界知识推理、视觉推理等六大渐进式挑战性任务,并采用基于结构化推理的细粒度多维评估框架。EditReward-Compass则提供2,251个偏好对,以模拟强化学习优化中的真实奖励建模场景。该套件旨在为两类模型提供更可靠、贴近实用的评估标准。
研究团队提出非对称流建模(AsymFlow),以解决高维流生成中噪声预测的难题。其核心是秩非对称速度参数化,将噪声预测限制在低秩子空间,同时保持数据预测的全维度,并能解析恢复全维速度,无需改变网络架构或训练流程。在ImageNet 256×256任务上,该方法取得了1.57的领先FID分数。此外,AsymFlow首次实现了将预训练潜在流模型微调为像素空间模型的路径:通过子空间对齐进行无缝初始化,使微调主要改善低级特征而非重新学习生成。基于FLUX.2微调得到的像素模型在多项基准测试中超越了其潜在基础模型,建立了像素空间文生图的新技术标杆。
EverAnimate是一种高效的后训练方法,用于解决长动画视频生成中因分块处理导致的背景质量下降与角色身份不一致问题。该方法通过引入持久的潜在上下文记忆来恢复漂移的流轨迹,包含两个核心机制:持久潜在传播在跨片段间传播身份与动作以减轻时间遗忘;恢复式流匹配在采样时引入隐式修复目标,通过速度调整提升片段内保真度。该方法仅通过轻量级LoRA微调,在短时和长时动画设置下均超越现有最优方案,在10秒和90秒动画上均取得了显著的指标提升。
本研究针对图像编辑中抽象指令(如情绪)评估的空白,首次系统定义了抽象图像编辑的分类体系,并提出Entity-Rubrics评估框架。该框架将抽象编辑拆解为独立的实体级评估,其结果与人类判断高度一致。同时,发布了首个跨场景的抽象图像编辑基准AbstractEdit。对11个模型的测试显示,现有架构难以平衡编辑意图与原图保持,常出现编辑不足或过度编辑。研究表明,结合先进LLM文本编码器与迭代思考机制是提升性能的关键。该范式未来可拓展为奖励模型,助力模型理解抽象指令,推动更自然的多模态交互。
现有遥感变化检测方法在生成式模型上往往因像素空间生成计算成本高、条件机制复杂而性能落后于判别式模型。本文提出ChangeFlow,一种将变化检测重新定义为潜空间中变化掩膜合成的生成式框架,采用结构轻量的条件信号引导,并利用随机采样实现预测集成。通过聚合多个预测掩膜提升鲁棒性,并基于样本一致性提供置信度估计,突出模糊区域。该方法在四个基准测试中平均F1值达80.4%,较此前最佳方法平均提升1.3个百分点,同时保持与近期强基线模型相当的推理速度。
现有图像编辑模型在处理抽象、多步骤指令时存在不足。本研究提出一种长周期编辑框架,包含生成原子分解的规划器与选择工具、区域执行步骤的调度器。视觉语言评判器根据指令遵循度与视觉质量提供奖励信号,调度器通过最大化奖励进行训练,成功轨迹则用于优化规划器。该方法通过紧密耦合规划与奖励驱动执行,生成了比单步或规则基线更连贯可靠的编辑结果。
针对自回归图像生成中文本与人脸保真度不足的核心瓶颈,InsightTok提出了一种改进的离散视觉标记化框架。该框架通过引入局部化、内容感知的感知损失,专门强化文本可读性与面部特征保真度。在保持16k小型码本和16倍下采样率的紧凑设计下,InsightTok在文本和面部重建质量上显著超越先前方法,且未损害通用图像重建性能。其优势在自回归模型InsightAR中得到延续,生成的图像文本更清晰、面部细节更精准。这项工作凸显了在标记化训练中引入针对性监督对推进离散图像生成的重要性。
FFAvatar提出一种通用前馈框架,仅需数秒即可从少量无姿态人像重建高质量、可动画化的3D高斯头部虚拟形象。它通过多视图查询融合器将多源图像信息统一到规范表示,并端到端预测FLAME参数驱动动画。采用三阶段训练策略:在超百万身份的单目视频数据上预训练;利用少量高质量360度数据微调;支持500步内快速个性化适配。在NeRSemble基准上,其PSNR显著优于现有最优方法5.5分,无需个性化时重建仅需2秒,个性化需10秒,并在单A100 GPU上实现49 FPS实时动画。
Creating with Krea 2 🧵 First step: building a moodboard. Don't stress about filling all 250 image slots. Even 10-20 str...
this is Krea 2. our first foundation model, built completely from scratch for aesthetic diversity and stylistic control....
推文引用了James Monaco在《How to Read a Film》中提出的核心问题:一种思想在转换为特定艺术语言时,其本身会受到何种影响?以及每种艺术语言承载思想的独特形式是什么?作者认为,这些关于媒介与思想表达关系的经典追问,在AI时代被重新激活,具有了新的相关性。它促使人们思考,当思想通过AI(如LLM)生成或转换时,其本质与形式将如何被这一新的“艺术语言”或媒介所塑造和改变。
Luma 正式开放其 Uni-1.1 图像模型的 API 服务。该模型在 Arena 排行榜上位列第三,紧随 Google 和 OpenAI 之后。API 定价为每张 2048 像素分辨率图像 0.04 美元起,与行业领先者价格相当。其功能包括网络搜索、内置推理能力,并支持最多 9 张参考图像输入。