全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 468 条

全部一手资讯 X 论文

标签「图像生成」清除

5月27日周三

14:14IT之家（RSS）629.4 秒生成 512×512 图像，Bonsai Image 4B 生图 AI 登陆苹果 iPhone 17 Pro Max

14:14IT之家（RSS）63微软最强生图 AI 模型 MAI-Image-2.5 冲上 Arena 第三：更强文字生成

11:19HuggingFace Daily Papers（社区热门论文）70精选MRT：用于大规模分层图像生成与编辑的掩码区域Transformer

10:19HuggingFace Daily Papers（社区热门论文）58RT-Lynx：以正确方式利用 GEMM 稀疏性提升扩散模型性能

09:19HuggingFace Daily Papers（社区热门论文）61用于训练GAN的跨尺度对齐监督

08:00HuggingFace Daily Papers（社区热门论文）43BiDPO：基于区域感知双模态直接偏好优化的组合式文本到图像生成

02:07Ars Technica：AI（RSS）57FBI 探员解释识别未经同意发布 AI 色情图像者有多容易

5月26日周二

14:18HuggingFace Daily Papers（社区热门论文）75精选通过奖励倾斜分布匹配强化少步生成器

12:18HuggingFace Daily Papers（社区热门论文）64通道级向量量化

08:00HuggingFace Daily Papers（社区热门论文）57通过对称注意力分解平衡扩散模型中的保真度与多样性：Hopfield 视角

5月25日周一

21:55公众号：百度智能云（文心）22自如设计师AI实验：百度智能云文心让"半天等一张图"变成"几秒生成一个家"

18:13公众号：生数科技（Vidu·视频）42Vidu 推出 AI 直播礼物特效定制服务

18:11IT之家（RSS）42"把我整得像 AI 脸一样帅"成英国新潮流，整形外科医生称几乎无法实现

15:11IT之家（RSS）56古尔曼：苹果 iOS 27 将大幅提升 AI 图像模型画质

08:00HuggingFace Daily Papers（社区热门论文）57CollectionLoRA：通过多教师在策略蒸馏将50种效果统一于1个LoRA

08:00HuggingFace Daily Papers（社区热门论文）58SKILD：尺度不变扩散模型统一图像生成与连续超分辨率

08:00HuggingFace Daily Papers（社区热门论文）61从多模态大语言模型中挖掘主体驱动生成能力

5月24日周日

14:11IT之家（RSS）47消息称苹果 iOS 27 将升级相机、照片应用：增加自定义选项，补全视觉智能

08:00HuggingFace Daily Papers（社区热门论文）54无需多视角生成的多视角一致3D高斯头部化身

08:00HuggingFace Daily Papers（社区热门论文）64注入视觉概念：在推理时向文本条件扩散模型注入图像引导

08:00HuggingFace Daily Papers（社区热门论文）57几何感知图像 Flow Matching

5月23日周六

08:00HuggingFace Daily Papers（社区热门论文）55VaaWIT：面向多语网页图像翻译的视觉感知大语言模型适配框架

5月22日周五

21:16HuggingFace Daily Papers（社区热门论文）58SEGA：基于频谱-能量引导注意力的扩散 Transformer 分辨率外推方法

20:56Hacker News 热门（buzzing.cc 中文翻译）38Antigravity 2.0 在 OpenSCAD 建筑 3D 大型语言模型基准测试中位居榜首

18:16HuggingFace Daily Papers（社区热门论文）58DecQ：用于增强表征自编码器重建与生成质量的细节凝练查询

14:09IT之家（RSS）36安克影音推出 Nebula SpaceFlow 配件，配合 AI 生成 3D 投影场景

14:02公众号：龙猫LongCat（美团）54从高拟真到真可用，LongCat-Video-Avatar 1.5 正式开源

09:13HuggingFace Daily Papers（社区热门论文）70精选RiT：在表示空间中使用原生扩散变换器已足够

08:00HuggingFace Daily Papers（社区热门论文）53着色噪声：对抗性Sobolev对齐实现保真图像超分辨率

08:00HuggingFace Daily Papers（社区热门论文）61PhotoFlow：智能体化的3D虚拟摄影任务

08:00HuggingFace Daily Papers（社区热门论文）57PiD：基于像素扩散的快速高分辨率潜在解码

00:07美团 LongCat：HuggingFace 新模型73精选LongCat-Video-Avatar-1.5：升级版音频驱动数字人视频生成框架

5月21日周四

15:59IT之家（RSS）39三星 Galaxy S23 Ultra 国行版获推 One UI 8.5 版本，界面设计焕然一新

15:27MarkTechPost（RSS）63一个模型，三种模态：字节跳动发布 Lance 用于图像与视频的理解、生成和编辑

12:10HuggingFace Daily Papers（社区热门论文）61OcclusionFormer：为基于布局的图像生成安排Z轴顺序

11:09HuggingFace Daily Papers（社区热门论文）63Uni-Edit：智能编辑作为统一模型微调的通用任务

10:33公众号：数字生命卡兹克58OpenAI和Google联手，要让每一张AI图片都无所遁形。

09:58IT之家（RSS）59Adobe Photoshop 27.7 更新：移除工具支持本地 AI 处理

08:00HuggingFace Daily Papers（社区热门论文）55MotiMotion：基于视觉推理的运动控制视频生成

08:00HuggingFace Daily Papers（社区热门论文）55面向自回归MRI重建的"下一加速尺度预测"

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月27日

14:14

IT之家（RSS）

62

9.4 秒生成 512×512 图像，Bonsai Image 4B 生图 AI 登陆苹果 iPhone 17 Pro Max

图像生成模型发布端侧

14:14

IT之家（RSS）

63

微软最强生图 AI 模型 MAI-Image-2.5 冲上 Arena 第三：更强文字生成

Microsoft 图像生成多模态模型发布

11:19

HuggingFace Daily Papers（社区热门论文）

精选70

MRT：用于大规模分层图像生成与编辑的掩码区域Transformer

MRT是一个20B参数的掩码区域扩散模型，专为多层透明图像生成与编辑设计。它在超过1000万个多语言设计样本上训练，统一了文本到图层、图像到图层和图层到图层三项任务。模型通过选择性token掩码实现灵活的图层生成与编辑，并引入溢出感知画布图层以处理边界不一致问题，支持半透明背景合成。此外，应用扩散蒸馏实现了8步实时生成。实验表明，MRT在所有任务上显著优于先前先进方法与商业系统。用户研究显示，其图像到图层质量优于同期Qwen-Image-Layered模型，推理速度快10-100倍，GPU内存消耗降低50-90%。

图像生成多模态论文/研究

推荐理由：首次把分层图像生成统一到 20B 遮罩扩散框架，溢出画布层的设计挺巧，让图层可以超出边界编辑，蒸馏后能实时跑，做设计工具的团队该仔细读读。

10:19

HuggingFace Daily Papers（社区热门论文）

58

RT-Lynx：以正确方式利用 GEMM 稀疏性提升扩散模型性能

RT-Lynx 提出了一种新范式，将扩散模型（Diffusion Transformers）的加速方法从权重稀疏化转向激活稀疏化。研究发现，DiT 模型的激活值具有内在稀疏性，且比权重更耐受 N:M 半结构化稀疏剪枝。通过在激活上应用 N:M 稀疏化并引入误差补偿技术，RT-Lynx 在保持生成质量的同时，实现了线性层平均最高 1.55 倍的推理速度提升。该方法在多个扩散模型上通过了实验验证。

图像生成推理论文/研究

09:19

HuggingFace Daily Papers（社区热门论文）

61

用于训练GAN的跨尺度对齐监督

现代GAN常被解读为多阶段粗到细生成，但论文指出，标准的分尺度对抗监督并未构建此层级结构：各阶段输出被独立推向真实分布，导致跨阶段输出可能并非同一生成样本，即存在“跨尺度轨迹错位”问题。为此，论文提出跨尺度对齐Transformer (CAT)，在保持鉴别器分尺度评估的同时，于生成器侧引入一致性正则化，将中间输出与最终输出对齐。在条件ImageNet-256上，CAT-H/2仅训练60周期，一步推理FID-50K达到1.56，优于多个单步GAN及扩散/流模型基线。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

43

BiDPO：基于区域感知双模态直接偏好优化的组合式文本到图像生成

BiDPO是一种旨在增强文本到图像模型组合式生成能力的框架，用于更准确地反映包含属性绑定、对象关系和计数的复杂提示。该框架通过精心设计的流程构建了大规模偏好数据集BiComp，并扩展Diffusion DPO技术，联合优化图像与文本偏好。此外，采用区域级指导方法以聚焦于与组合概念相关的区域。实验结果表明，BiDPO在多个基准测试上显著提升了组合保真度，并持续优于现有方法。

图像生成多模态论文/研究

02:07

Ars Technica：AI（RSS）

57

FBI 探员解释识别未经同意发布 AI 色情图像者有多容易

FBI 指出，通过 Instagram 上一个可疑的保存帖子，可以将一名男子与一个 AI 色情账号联系起来。

图像生成政策/监管视频

5月26日

14:18

HuggingFace Daily Papers（社区热门论文）

精选75

通过奖励倾斜分布匹配强化少步生成器

本文提出奖励倾斜分布匹配蒸馏（RTDMD），这是一个将分布匹配蒸馏与奖励引导强化学习统一应用于少步流生成器的两阶段框架。该方法通过最小化到奖励倾斜教师分布的KL散度，自然分解为分布匹配项与奖励最大化项。第一阶段引入环境一致分布匹配蒸馏（AC-DMD），在子区间进行分布匹配，并通过一致性正则化辅助分数模型追踪生成器分布。第二阶段联合优化两项，并推导混合策略梯度及步子集GRPO（SubGRPO）以降低方差。在SD3、SD3.5和FLUX.2上的实验表明，RTDMD仅用4步推理即可在偏好、美学和组合指标上达到新的 state-of-the-art。

arXiv 图像生成论文/研究

推荐理由：这篇直接把分布匹配蒸馏和奖励建模拧在一起，在 SD3/3.5/FLUX.2 上用 4 步推理就压了之前所有文生图对齐方法，做图像生成训练和偏好对齐的该看。

12:18

HuggingFace Daily Papers（社区热门论文）

64

通道级向量量化

本文提出通道级向量量化，这是一种新的图像token化范式，用通道级token取代了传统的基于块的token。该方法量化特征图的每个通道，将图像表示为离散的视觉细节层次。基于此，作者提出了采用“下一个通道预测”机制的通道级自回归模型。该模型顺序预测通道，先勾勒全局结构再细化细节。实验表明，CVQ在16K+大小的码本上实现了100%利用率，显著提升了重建质量；CAR模型在文本到图像生成任务中取得了86.7的DPG分数和0.79的GenEval分数。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

通过对称注意力分解平衡扩散模型中的保真度与多样性：Hopfield 视角

研究将 Transformer 中的注意力矩阵表征为编码特征间关联的联想记忆矩阵。通过将其分解为对称与反对称部分，前者被解释为控制能量景观的结构，后者驱动该景观上的循环运动。基于对称部分推导出 Hopfield 风格的稳定度量，用于量化检索特征的稳定性。观察发现，这些稳定度量与生成中的保真度-多样性权衡存在有意义的相关性。最终，提出通过修改底层动态的循环来调节该权衡的可控方法。代码已开源。

图像生成开源生态论文/研究

5月25日

21:55

公众号：百度智能云（文心）

22

自如设计师AI实验：百度智能云文心让"半天等一张图"变成"几秒生成一个家"

自如设计师借助百度智能云文心的AI能力，将室内设计效果图的生成时间从原本的半天大幅缩短至几秒。这一实验展示了生成式AI在居住空间设计中的实际落地效果，显著提升设计师的工作效率和客户沟通体验。

图像生成行业动态

18:13

公众号：生数科技（Vidu·视频）

42

Vidu 推出 AI 直播礼物特效定制服务

Vidu 推出 AI 直播礼物特效定制服务，支持千人千面的礼物特效实时生成，实现秒级互动体验。

产品更新图像生成视频

18:11

IT之家（RSS）

42

"把我整得像 AI 脸一样帅"成英国新潮流，整形外科医生称几乎无法实现

英国整形医生发现，越来越多求美者带着AI生成的“完美版自己”自拍咨询，追求零毛孔、极度对称的五官等几乎无法通过现实手术实现的“AI脸”特征。这种高度模板化的图像（如女性V字脸、男性宽下颌）被患者视为整形目标，医生们担忧其强烈的心理影响及手术无法兑现预期的现实局限。此外，社交媒体上部分“整形奇迹”案例的真实性也受到AI生成的质疑。

图像生成现象/趋势

15:11

IT之家（RSS）

56

古尔曼：苹果 iOS 27 将大幅提升 AI 图像模型画质

苹果 iOS 27 将为 Genmoji 和 Image Playground 功能带来显著的画质提升。此前在 iOS 18.2 首次上线时，Image Playground 画质欠佳。苹果为其自有图像生成模型进行了优化，并计划在该系统中接入除 OpenAI ChatGPT 之外的更多第三方 AI 图像生成模型。

图像生成行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

57

CollectionLoRA：通过多教师在策略蒸馏将50种效果统一于1个LoRA

CollectionLoRA是一个多教师在策略蒸馏框架，旨在解决为扩散模型定制大量视觉效果时，因存储、加载多个LoRA导致的部署开销及参数干扰问题。该框架可将多达50种独立的效果LoRA概念与少步生成能力统一蒸馏到一个单一的LoRA模型中。其核心技术包括概率双流路由机制、非对称正交提示策略以及粗到精蒸馏目标，用以增强泛化、隔离概念并弥合教师与学生模型间的分布差异。评估显示，CollectionLoRA在显著降低部署成本的同时，实现了与独立教师模型相当或更优的概念保真度。

arXiv 图像生成论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

58

SKILD：尺度不变扩散模型统一图像生成与连续超分辨率

SKILD是一个尺度不变的扩散模型，它利用自然图像和物理系统的尺度不变性，在一个统一的无条件框架内同时实现图像生成和连续超分辨率任务。其前向过程从细到粗尺度逐步衰减图像内容并注入噪声。训练后的反向过程仅通过改变起始时间步，即可执行生成或超分辨率，无需任务特定架构。在无条件CIFAR-10上，SKILD达到FID 2.65和Inception Score 9.63；在ImageNet上，它从单一无条件检查点实现了2倍至8倍超分辨率，并在感知指标上优于条件模型。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

从多模态大语言模型中挖掘主体驱动生成能力

现有主体驱动生成方法因分别编码文本与参考图像，存在跨模态推理不足与复制粘贴伪影等问题。本研究将扩散模型建立在联合编码文本与参考图像的多模态大语言模型（MLLMs）之上，并引入基于VAE的身份条件。通过设计双层聚合（DLA）模块汇聚多层次的MLLM特征，以及采用多阶段去噪策略，在推理时逐步平衡来自MLLM的语义信息与来自VAE的身份细节。实验表明，该方法能协调多模态理解与身份保留，缓解复制粘贴问题，并在人类偏好评估中取得优越性能。

图像生成多模态论文/研究

5月24日

14:11

IT之家（RSS）

47

消息称苹果 iOS 27 将升级相机、照片应用：增加自定义选项，补全视觉智能

苹果将在 iOS 27 系统中大幅升级相机与照片应用。相机应用将引入自定义界面布局功能，允许用户将闪光灯、曝光控制、定时器等选项直接放置在主界面，并强化专业控制。同时，视觉智能功能将以全新 Siri 形态集成至相机，新增扫描食品营养标签、名片等能力。照片应用则新增“扩展”“增强”“重构”三项 AI 编辑工具，分别对应生成式填充、自动优化画质以及调整空间照片构图。

产品更新图像生成多模态

08:00

HuggingFace Daily Papers（社区热门论文）

54

无需多视角生成的多视角一致3D高斯头部化身

本文提出MVCHead，一个单次前馈状态空间模型。它仅从随机2D图像学习条件与无条件3D头部模型，无需使用多视角数据、3D监督或中间视角生成。模型核心是分层状态空间块，通过分层双向状态扫描渐进式优化高斯分布并捕捉长程依赖，以直接在3D表示中强制多视角一致性。同时，设计了一个SE(3)多视角评判器，在未观测真实多视角对的情况下，奖励跨视角像素对齐。MVCHead达到了SOTA的感知质量，超越先前方法的纹理和几何一致性。此外，文章发布了首个大规模可用3D Gaussian头部资产数据集FaceGS-10K，用于训练与评估。

arXiv 图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

64

注入视觉概念：在推理时向文本条件扩散模型注入图像引导

Visual Concept Fusion (VCF) 是首个在推理阶段同时接受图像和文本提示、无需概念特定训练的方法。它通过将 CLIP 图像特征对齐到文本嵌入空间，实现视觉概念注入。VCF 包含一个轻量级对齐器、一种融合策略以及可选的提示噪声优化（PNO）模块。实验表明，VCF 能从参考图像转移风格、构图和调色板等视觉属性，同时遵循文本提示。定量结果显示，其文本对齐度（CLIP 分数）与视觉相似度（LPIPS）之间存在权衡，但在参考保真度上优于基线方法。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

几何感知图像 Flow Matching

研究发现，自然图像的语义信息主要编码在方向分量中，其范数分量可由全局平均近似，表明图像数据本质上可建模于超球面。基于此，论文提出了两种几何感知方法：利用角距离的球形最优传输流匹配（SOT-CFM）与在流形上约束动力学的球形流匹配（SFM）。实验证明，这两种方法性能优于欧几里得基线，为基于黎曼流形的建模与自然图像生成之间建立了联系。

arXiv 图像生成论文/研究

5月23日

08:00

HuggingFace Daily Papers（社区热门论文）

55

VaaWIT：面向多语网页图像翻译的视觉感知大语言模型适配框架

翻译网页图像中的文本对提升内容可访问性至关重要。现有大型视觉语言模型因视觉表征差距，常忽视识别多样字符形态所需的细粒度视觉细节，导致在此任务上表现不佳。为此，本研究提出VaaWIT框架，它通过双流注意力模块实现多语义特征与视觉细节的双向交互，并利用视觉感知适配器以参数高效微调方式将融合特征注入冻结的大语言模型骨干。实验表明，该框架在三个公开基准的八个任务上显著超越了SOTA开源基线模型，性能可与闭源模型相媲美。

图像生成多模态论文/研究

5月22日

21:16

HuggingFace Daily Papers（社区热门论文）

58

SEGA：基于频谱-能量引导注意力的扩散 Transformer 分辨率外推方法

研究团队提出一种名为 SEGA 的无训练方法，用于解决扩散 Transformer 在生成超出训练分辨率图像时性能下降的问题。该方法根据去噪过程中潜变量的空间-频谱结构，对旋转位置编码的不同频率分量进行动态、自适应的注意力缩放，从而在提升图像全局结构连贯性的同时，更好地恢复细节保真度。实验表明，SEGA 在多种目标分辨率上均能稳定提升高分辨率图像合成质量，优于当前最先进的无训练基线方法。

图像生成论文/研究

20:56

Hacker News 热门（buzzing.cc 中文翻译）

38

Antigravity 2.0 在 OpenSCAD 建筑 3D 大型语言模型基准测试中位居榜首

Antigravity 2.0 在 OpenSCAD 建筑 3D 大型语言模型基准测试中夺得第一。该模型在生成符合 OpenSCAD 语法的建筑三维代码任务上，显著优于其他参与评估的模型，标志着其在该专业领域的领先地位。

图像生成评测/基准

18:16

HuggingFace Daily Papers（社区热门论文）

58

DecQ：用于增强表征自编码器重建与生成质量的细节凝练查询

表征自编码器（RAEs）使用冻结的视觉模型作为编码器，这在提供高质量生成的同时，限制了其空间重建能力。针对微调能改善重建但会损害生成质量这一权衡难题，本文提出了DecQ框架。该框架引入轻量级的“细节凝练查询”模块，从视觉模型的中间层提取细粒度信息，并将其融合到解码器和生成过程中。实验表明，仅增加8个查询和3.9%的计算量，DecQ就能将基于DINOv2的表征自编码器的峰值信噪比从19.13 dB显著提升至22.76 dB；在生成任务上，其收敛速度比原始框架快3.3倍，FID分数在无引导和有引导下分别达到1.41和1.05，有效兼顾了重建与生成性能。

图像生成编码论文/研究

14:09

IT之家（RSS）

36

安克影音推出 Nebula SpaceFlow 配件，配合 AI 生成 3D 投影场景

产品更新图像生成端侧

14:02

公众号：龙猫LongCat（美团）

54

从高拟真到真可用，LongCat-Video-Avatar 1.5 正式开源

美团技术团队正式开源 LongCat-Video-Avatar 1.5，该版本从高拟真走向真可用，将视频头像生成从室内彩排演练推向千人千面的真实应用场景。

图像生成模型发布视频

09:13

HuggingFace Daily Papers（社区热门论文）

精选70

RiT：在表示空间中使用原生扩散变换器已足够

本研究探讨预训练表示空间在流匹配学习中的优势。比较像素、SD-VAE与DINOv2特征后发现，尽管像素与DINOv2的内在维度相近，但DINOv2在几何统计特性（如有效秩、协方差条件等）上表现更优，使回归过程更稳定。基于此，我们提出了表示图像变换器（RiT），它使用冻结的DINOv2特征，通过x-prediction目标训练一个原生扩散变换器。在ImageNet 256×256生成任务上，RiT性能优于参数量更多的DiT^DH-XL模型，且生成的常微分方程仅需少量步骤即可高效求解。

arXiv 图像生成论文/研究

推荐理由：这篇论文没发明新架构，但通过剖析DINOv2特征的统计属性，证明简单结构在表示空间也能做出SOTA，对做图像生成的人来说是个省钱省参数的好思路。

08:00

HuggingFace Daily Papers（社区热门论文）

53

着色噪声：对抗性Sobolev对齐实现保真图像超分辨率

图像超分辨率（SR）中的生成先验常因频谱失配而牺牲保真度。本文提出ASASR框架，通过“着色”噪声转换核以匹配自然图像频谱衰减，将生成流重构为Sobolev诱导的黎曼几何，从而解决这一问题。其核心在于集成一个基于Riesz表示定理的参数化对抗器，该对抗器生成等价于最差Sobolev梯度的负样本，沿可行结构失败的切线空间引导优化。评估表明，ASASR在保持频谱一致性与结构保真度方面优于现有生成方法，能有效缓解伪影。

arXiv 图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

PhotoFlow：智能体化的3D虚拟摄影任务

PhotoFlow是一个用于闭环相机搜索的Director-Reviewer-Reflector智能体系统，能在预制3D场景中自主推断合适的摄影角度并生成最终图像。该系统包含VPhotoBench基准测试，涵盖47个Blender场景和141个基于语言的摄影任务。实验表明，在六轮渲染预算的设置下，PhotoFlow在多种基线方法中取得了最强的外部质量对齐表现和成功率。这是首个将基于语言的虚拟摄影转化为可执行智能体任务的工作，展示了以LLM为核心的智能体在同时涉及3D推理与美学判断的设置中，已能生成高质量摄影作品。

具身智能图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

PiD：基于像素扩散的快速高分辨率潜在解码

PiD是一种将潜在解码重构为条件像素扩散的解码器，统一了图像解码与上采样。它通过直接在高分辨率像素空间进行去噪，支持4倍及8倍上采样，并具有低延迟。模型采用轻量级sigma-aware适配器注入噪声潜在变量，允许提前终止潜在扩散过程；并利用DMD2进行蒸馏，将推理步骤压缩至4步。PiD兼容传统VAE潜在变量与语义潜在变量。在RTX 5090上，可将512x512潜在变量解码为2048x2048像素，耗时低于1秒，峰值内存13GB；在GB200 GPU上最快仅需210毫秒。

图像生成论文/研究

00:07

美团 LongCat：HuggingFace 新模型

精选73

LongCat-Video-Avatar-1.5：升级版音频驱动数字人视频生成框架

美团LongCat团队发布了LongCat-Video-Avatar-1.5，一个专注于音频驱动数字人视频生成的开源框架。其核心升级在于采用Whisper-Large音频编码器，显著优化了唇部动态的流畅度与自然度。该版本实现了精准的唇形同步、全身时序稳定性以及长视频中的身份一致性，并能泛化应用于动漫、动物及多人交互等复杂场景。通过基于DMD2的步蒸馏技术，模型仅需8步即可高效推理。团队还构建了一个涵盖多场景、多语言的人工评估基准，通过大规模主观评分与专家分析，验证了其在多项关键维度上的优异性能。

Hugging Face 图像生成多模态开源/仓库

关联讨论 1 条IT之家（RSS）

推荐理由：美团把数字人模型升级到1.5版，换了Whisper做音频编码，唇形同步比之前自然不少，而且开源了训练代码，做电商直播和虚拟博主的朋友可以直接拿过来跟商业方案掰手腕。

5月21日

15:59

IT之家（RSS）

39

三星 Galaxy S23 Ultra 国行版获推 One UI 8.5 版本，界面设计焕然一新

5月21日，三星Galaxy S23 Ultra国行版开始推送One UI 8.5系统更新。此次更新主打界面设计焕然一新，引入透明模糊效果和浮动元素，提升视觉层次感与交互感。盖乐世AI功能增强，照片助手支持连续生成图片，Bixby对话能力与设备控制更智能。此外，系统在主屏幕与锁定屏幕布局、电池与电源管理、安全隐私提醒等方面均有改进，并新增了快捷面板自定义、部分屏幕录制等实用功能。

产品更新图像生成

15:27

MarkTechPost（RSS）

63

一个模型，三种模态：字节跳动发布 Lance 用于图像与视频的理解、生成和编辑

字节跳动智能创作实验室发布了Lance，这是一款开源的原生统一多模态模型。它能够在单一框架内，同时处理图像与视频的理解、生成和编辑三大任务。该模型仅需激活30亿参数，实现了用一个轻量级模型统一处理多种视觉内容创作与理解的需求。

图像生成多模态开源生态模型发布

12:10

HuggingFace Daily Papers（社区热门论文）

61

OcclusionFormer：为基于布局的图像生成安排Z轴顺序

针对现有布局到图像模型在遮挡区域生成模糊、纹理缠绕及层次不一致的问题，本研究构建了包含遮挡排序与像素级标注的大规模数据集SA-Z。在此基础上，提出了OcclusionFormer，一种遮挡感知的扩散Transformer框架。该框架通过解耦实例并利用体积渲染进行合成，显式建模Z轴优先级，同时引入查询对齐损失监督单个实例以增强语义一致性。该方法有效降低了重叠区域歧义，确保了正确的遮挡依赖与结构完整，显著提升了生成精度。

图像生成论文/研究

11:09

HuggingFace Daily Papers（社区热门论文）

63

Uni-Edit：智能编辑作为统一模型微调的通用任务

当前，统一多模态模型通过混合多任务训练来提升图像理解、生成和编辑能力，但任务冲突导致需要复杂多阶段流程和大量数据平衡，仅实现性能折衷而非协同增强。为此，研究提出Uni-Edit，一种智能图像编辑任务，作为统一模型微调的首个通用任务。Uni-Edit只需单一任务、单一训练阶段和单一数据集，就能同步提升模型的三种核心能力。研究团队开发了首个自动化、可扩展的智能编辑数据合成流程，将多样化的VQA数据转化为嵌入问题与嵌套逻辑的复杂编辑指令，生成包含14.8万条数据的Uni-Edit-148k数据集。在BAGEL和Janus-Pro模型上的实验证实，仅基于Uni-Edit进行微调，即可全面增强模型的图像理解、生成和编辑能力，无需任何辅助操作。

arXiv 图像生成多模态数据/训练

10:33

公众号：数字生命卡兹克

58

OpenAI和Google联手，要让每一张AI图片都无所遁形。

Google OpenAI 图像生成行业动态

09:58

IT之家（RSS）

59

Adobe Photoshop 27.7 更新：移除工具支持本地 AI 处理

Adobe 发布了 Photoshop 27.7 桌面版更新，核心升级是为“移除工具”新增了本地端侧 AI 模型支持。用户现在可以在不联网的情况下使用该功能移除对象，从而提升处理隐私并减少对网络的依赖。不过，此功能对硬件有明确要求，苹果 Mac 用户需搭载 M1 Pro 或更新芯片，且内存不低于 24GB，否则无法启用。此外，本次更新还包括集成 Firefly 灵感板以及将高级生成式 AI 功能的月度积分从 25 提升至 100。

产品更新图像生成端侧

08:00

HuggingFace Daily Papers（社区热门论文）

55

MotiMotion：基于视觉推理的运动控制视频生成

该研究指出当前运动控制视频生成模型存在轨迹僵硬、因果不完整的问题。为此，MotiMotion框架将运动控制重新定义为“先推理再生成”的任务。其核心是利用一个无需训练的视觉语言推理器来完善主轨迹坐标，并“幻想”出合理的次要运动。同时，框架引入置信度感知控制方案，根据计划的可信度调整引导强度。为系统评估，研究还构建了新的运动交互基准MotiBench。评估表明，MotiMotion能生成物体行为和交互更合理可信的视频，效果优于现有方法。

图像生成推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

面向自回归MRI重建的"下一加速尺度预测"

针对高加速欠采样下MRI重建因模糊性导致高频细节丢失的问题，该研究将重建过程移至离散多尺度潜空间，并构建为自回归的“下一加速尺度预测”任务。方法利用视觉自回归建模中有效的离散先验，将解空间约束在紧凑的码本token序列中，从而即使从极度稀疏的测量中也能实现清晰重建。该框架自然适配大语言模型的后训练技术，并引入了在线策略蒸馏，利用教师模型在推理时不可用的特权上下文（完全采样数据）监督学生模型。在fastMRI基准测试的多种极端欠采样模式下，该方法均展现出改进的重建效果。

图像生成论文/研究

1…4 567 8…12