全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「图像生成」清除

5月21日周四

16:07AYi79精选游戏开发门槛被AI大幅降低

15:59IT之家（RSS）39三星 Galaxy S23 Ultra 国行版获推 One UI 8.5 版本，界面设计焕然一新

15:27MarkTechPost（RSS）63一个模型，三种模态：字节跳动发布 Lance 用于图像与视频的理解、生成和编辑

12:10HuggingFace Daily Papers（社区热门论文）61OcclusionFormer：为基于布局的图像生成安排Z轴顺序

11:09HuggingFace Daily Papers（社区热门论文）63Uni-Edit：智能编辑作为统一模型微调的通用任务

10:33公众号：数字生命卡兹克58OpenAI和Google联手，要让每一张AI图片都无所遁形。

09:58IT之家（RSS）59Adobe Photoshop 27.7 更新：移除工具支持本地 AI 处理

08:03Krea27Krea 2社区空间活动明日开启

08:00HuggingFace Daily Papers（社区热门论文）55MotiMotion：基于视觉推理的运动控制视频生成

08:00HuggingFace Daily Papers（社区热门论文）55面向自回归MRI重建的"下一加速尺度预测"

07:48宝玉68Google Omni与Seedance 2.0对比测试

06:17karminski-牙医66Midjourney 创始人自爆没有使用N卡导致落后一年？

03:50Midjourney69同事件精选V8.1新增反向提示功能同一事件，精选展示《Midjourney V8.1 已成为默认模型》

01:43Luma53Luma Agents 助力打造促销视觉

01:16ViggleAI29Viggle AI推出全球首款表情包格斗游戏

00:36Rohan Paul63商汤开源统一多模态模型SenseNova U1

00:19小互63Midjourney创始人称被Google TPU坑惨

00:14Google AI69精选谷歌发布多款AI创意工具新功能

5月20日周三

23:03PixVerse64AI视频一致性始于动作之前

22:35Chubby♨️43Seedance 2.0为何能持续领先？

22:12The Verge：AI（RSS）61AI内容标签系统迎来关键发展期

22:08Berryxia.AI59黑神话悟空带火山西小西天，3D数字模型上线

22:02向阳乔木73AI生成3D资产模型Rodin Gen-2.5发布：宣称千万级面数，助产业提效

20:08Berryxia.AI70本地AI生图"意外"加速，Draw Things新发现

18:56IT之家（RSS）15荣耀 600 系列手机磁吸副屏配件公布：支持四档补光、预览构图、操控拍摄

17:07HuggingFace Daily Papers（社区热门论文）55PixVerve：推进原生超高清图像生成至100MP

16:56IT之家（RSS）60OpenAI推出AI图像双重溯源方案：C2PA元数据与隐形水印结合

12:32PixVerse16仓鼠奥运举重力压河马

12:06Kling AI47Kling AI戛纳展示全流程AI动画制作

11:34Rohan Paul73SenseNova U1开源发布，革新原生多模态生成

09:31Hacker News 热门（buzzing.cc 中文翻译）64Remove-AI-Watermarks - 用于从图像中移除 AI 水印的命令行工具和库

08:00HuggingFace Daily Papers（社区热门论文）55RankE：离散文本到图像生成的端到端后训练与解码器协同进化

08:00HuggingFace Daily Papers（社区热门论文）61重新思考扩散模型Transformer中的跨层信息路由

08:00HuggingFace Daily Papers（社区热门论文）61Lens：重新思考基础文本到图像模型的训练效率

08:00HuggingFace Daily Papers（社区热门论文）62AutoRubric-T2I：用于文本-图像对齐的基于规则的鲁棒奖励模型

08:00HuggingFace Daily Papers（社区热门论文）67GenEvolve：基于工具协调视觉经验蒸馏的自我进化图像生成代理

08:00HuggingFace Daily Papers（社区热门论文）68FlowLong：基于流形约束Tweedie匹配的推理时长视频生成方法

05:44OpenAI70精选ChatGPT图像生成周使用量突破15亿次

05:33TechCrunch：AI（RSS）42Google 在 IO 2026 宣告入局 AI 设计

05:08Replit ⠕37机器学习与社会技术的交汇实践

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月21日

16:07

AYi@AYi_AInotes

精选79

游戏开发门槛被AI大幅降低

Grok展示了AI深度介入游戏开发的全新工作流。通过“提示词生成角色图→图片转动画视频→自动拼接成Spritesheet→导入引擎”四步流程，将传统需要美术与动画师耗时数天的工作，在几分钟内完成。这标志着AI不再仅生成静态内容，而是能实时生成可直接导入Unity或Godot等游戏引擎的可运行资产。该技术极大压缩了游戏原型的迭代周期，将反馈循环从“天”缩短至“秒”，使得独立开发者也能快速实现创意，显著降低了游戏创作的门槛。

Grok: Prototyping game assets directly with Grok @imagine

xAI 图像生成教程/实践

推荐理由：Grok 这波不是画张图那么简单，它把 AI 直接嵌进游戏引擎工作流，实时生成可运行的资产，solo 开发者周末搞个原型出来真的可行了。

15:59

IT之家（RSS）

39

三星 Galaxy S23 Ultra 国行版获推 One UI 8.5 版本，界面设计焕然一新

5月21日，三星Galaxy S23 Ultra国行版开始推送One UI 8.5系统更新。此次更新主打界面设计焕然一新，引入透明模糊效果和浮动元素，提升视觉层次感与交互感。盖乐世AI功能增强，照片助手支持连续生成图片，Bixby对话能力与设备控制更智能。此外，系统在主屏幕与锁定屏幕布局、电池与电源管理、安全隐私提醒等方面均有改进，并新增了快捷面板自定义、部分屏幕录制等实用功能。

产品更新图像生成

15:27

MarkTechPost（RSS）

63

一个模型，三种模态：字节跳动发布 Lance 用于图像与视频的理解、生成和编辑

字节跳动智能创作实验室发布了Lance，这是一款开源的原生统一多模态模型。它能够在单一框架内，同时处理图像与视频的理解、生成和编辑三大任务。该模型仅需激活30亿参数，实现了用一个轻量级模型统一处理多种视觉内容创作与理解的需求。

图像生成多模态开源生态模型发布

12:10

HuggingFace Daily Papers（社区热门论文）

61

OcclusionFormer：为基于布局的图像生成安排Z轴顺序

针对现有布局到图像模型在遮挡区域生成模糊、纹理缠绕及层次不一致的问题，本研究构建了包含遮挡排序与像素级标注的大规模数据集SA-Z。在此基础上，提出了OcclusionFormer，一种遮挡感知的扩散Transformer框架。该框架通过解耦实例并利用体积渲染进行合成，显式建模Z轴优先级，同时引入查询对齐损失监督单个实例以增强语义一致性。该方法有效降低了重叠区域歧义，确保了正确的遮挡依赖与结构完整，显著提升了生成精度。

图像生成论文/研究

11:09

HuggingFace Daily Papers（社区热门论文）

63

Uni-Edit：智能编辑作为统一模型微调的通用任务

当前，统一多模态模型通过混合多任务训练来提升图像理解、生成和编辑能力，但任务冲突导致需要复杂多阶段流程和大量数据平衡，仅实现性能折衷而非协同增强。为此，研究提出Uni-Edit，一种智能图像编辑任务，作为统一模型微调的首个通用任务。Uni-Edit只需单一任务、单一训练阶段和单一数据集，就能同步提升模型的三种核心能力。研究团队开发了首个自动化、可扩展的智能编辑数据合成流程，将多样化的VQA数据转化为嵌入问题与嵌套逻辑的复杂编辑指令，生成包含14.8万条数据的Uni-Edit-148k数据集。在BAGEL和Janus-Pro模型上的实验证实，仅基于Uni-Edit进行微调，即可全面增强模型的图像理解、生成和编辑能力，无需任何辅助操作。

arXiv 图像生成多模态数据/训练

10:33

公众号：数字生命卡兹克

58

OpenAI和Google联手，要让每一张AI图片都无所遁形。

Google OpenAI 图像生成行业动态

09:58

IT之家（RSS）

59

Adobe Photoshop 27.7 更新：移除工具支持本地 AI 处理

Adobe 发布了 Photoshop 27.7 桌面版更新，核心升级是为“移除工具”新增了本地端侧 AI 模型支持。用户现在可以在不联网的情况下使用该功能移除对象，从而提升处理隐私并减少对网络的依赖。不过，此功能对硬件有明确要求，苹果 Mac 用户需搭载 M1 Pro 或更新芯片，且内存不低于 24GB，否则无法启用。此外，本次更新还包括集成 Firefly 灵感板以及将高级生成式 AI 功能的月度积分从 25 提升至 100。

产品更新图像生成端侧

08:03

Krea@krea_ai

27

我们将于明天举办首次社区空间活动！欢迎通过 X Spaces 加入我们，一起讨论 Krea 2 即将推出的更新、分享反馈或展示你的作品。链接如下 👇

图像生成行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

55

MotiMotion：基于视觉推理的运动控制视频生成

该研究指出当前运动控制视频生成模型存在轨迹僵硬、因果不完整的问题。为此，MotiMotion框架将运动控制重新定义为“先推理再生成”的任务。其核心是利用一个无需训练的视觉语言推理器来完善主轨迹坐标，并“幻想”出合理的次要运动。同时，框架引入置信度感知控制方案，根据计划的可信度调整引导强度。为系统评估，研究还构建了新的运动交互基准MotiBench。评估表明，MotiMotion能生成物体行为和交互更合理可信的视频，效果优于现有方法。

图像生成推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

面向自回归MRI重建的"下一加速尺度预测"

针对高加速欠采样下MRI重建因模糊性导致高频细节丢失的问题，该研究将重建过程移至离散多尺度潜空间，并构建为自回归的“下一加速尺度预测”任务。方法利用视觉自回归建模中有效的离散先验，将解空间约束在紧凑的码本token序列中，从而即使从极度稀疏的测量中也能实现清晰重建。该框架自然适配大语言模型的后训练技术，并引入了在线策略蒸馏，利用教师模型在推理时不可用的特权上下文（完全采样数据）监督学生模型。在fastMRI基准测试的多种极端欠采样模式下，该方法均展现出改进的重建效果。

图像生成论文/研究

07:48

宝玉@dotey

68

这位博主做了系列 Google Omni vs Seedance 2.0的对比视频，看起来差距还是蛮明显

Ratul Ali: Google Omni vs Seedance 2.0 😳 Olympic Diving Test - Seedance 2.0 also wins this test!🔥 Prompt👇 Female Olympic diver f...

Google 图像生成视频评测/基准

06:17

karminski-牙医@karminski3

66

Midjourney 创始人自爆没有使用N卡导致落后一年？

Midjourney 创始人透露，团队因使用 TPU + JAX 训练、GPU + PyTorch 推理的混合技术栈，导致工具链断裂、调试困难，且无法利用开源社区丰富的 PyTorch 资源，严重拖慢了产品迭代速度。创始人反思，若重新开始会选择基于 NVIDIA 的统一方案。对比之下，其他文生图模型在功能上发展迅速，Midjourney 虽在风格艺术性上仍有优势，但在核心功能竞争上已显疲态。

Google 图像生成大佬观点

03:50

Midjourney@midjourney

同事件精选69

今日小幅更新。许多用户要求为V8模型恢复"反向提示"功能（旧版本已有），我们称之为--no标志。该功能现已在V8.1中上线！如果您想从图像中排除某些元素（例如人物），可以尝试使用--no people。玩得开心！

产品更新图像生成

同一事件，精选展示《Midjourney V8.1 已成为默认模型》

推荐理由：Midjourney 把老版本的反提示词带回到 V8.1 了，用 --no 就能剔除画面中不想要的东西，受够了多余路人甲的用户终于可以一键清场。

01:43

Luma@LumaLabsAI

53

促销已开启。确保每张视觉图都传递出这一信息。设定优惠。定义紧迫感。Luma Agents 从这里构建每张销售视觉图。立即行动 → http://lumalabs.ai/app

产品更新图像生成

01:16

ViggleAI@ViggleAI

29

好吧，这是2D版本。稍后回来看看 👀

ViggleAI: Introducing the World's First Meme-powered Game Where you can be anyone, and Fight your colleague Fight your friends Fig...

产品更新图像生成视频

00:36

Rohan Paul@rohanpaul_ai

63

商汤开源统一多模态模型SenseNova U1

商汤科技近日开源了SenseNova U1，其核心创新在于架构设计。该模型摒弃了传统的视觉编码器与变分自编码器分离结构，采用单一共享表示空间原生处理图像与文本，极大减少了模块间转换导致的信息损耗。这一设计使模型能够连贯地同时生成图文内容，在信息图、海报、漫画等需要高一致性的密集视觉内容创作上优势显著。性能方面，其信息图生成速度在同等质量下约为Qwen-Image-2.0/Seedream-4.5的两倍。

图像生成多模态开源/仓库模型发布

00:19

小互@xiaohu

63

Midjourney创始人称被Google TPU坑惨

Midjourney创始人暗示他们被Google的 TPU坑了白白浪费了一年时间… 如果回到过去他会选择英伟达的GPU🤣 “这大概让我们的研究进度，比起一开始就完全采用 Nvidia 技术栈，落后了差不多一年。并不算特别理想。如果我能回到过去，我会从第一天开始就全部使用 Nvidia 的方案。”

David: @bubbleboi it probably put our research a year behind where it could have been if we were pure Nvidia stack, not totally...

Google 图像生成大佬观点数据/训练

00:14

Google AI@GoogleAI

精选69

谷歌发布多款AI创意工具新功能

谷歌与创作者合作推出系列AI工具更新。Google Workspace新增图像创作编辑工具Pics；Google Flow支持Gemini Omni Flash模型，并推出Flow Agent作为多步骤创作伙伴；设计工具StitchbyGoogle支持实时文字或语音编辑布局并导出代码；音乐工具Google FlowMusic增加分段编辑、风格混音及视频生成功能。

智能体 Google 产品更新图像生成

关联讨论 1 条X：Google AI for Developers (@googleaidevs)

推荐理由：Google这次更新的不是单点工具，而是把AI能力像乐高一样嵌入到创意工作流的每一步，Flow Agent的多步骤推理尤其值得做设计的人试试看。

5月20日

23:03

PixVerse@PixVerse_

64

AI视频的一致性始于动作之前。对于这个15秒的烹饪短片，我们首先在PixVerse中生成了一个清晰的角色分镜。然后将其用作视频的参考。相同的角色。清晰的故事节点。镜头指导。动作细节。转发 + 关注 + 回复 = 分镜工作流

产品更新图像生成视频

22:35

Chubby♨️@kimmonismus

43

从现在起，我需要知道： Seedance到底有什么魔力，能让他们的Model 2.0在Google I/O之后依然遥遥领先？ Seedance 2.0是在二月发布的（！）。 Model 3.0应该快了，而目前还没有任何模型能接近2.0的水平。

JSFILMZ: Google promised that Gemini Omni Flash would change the game, but when you put it side-by-side with Seedance 2.0... it's...

Google 图像生成大佬观点视频

22:12

The Verge：AI（RSS）

61

AI内容标签系统迎来关键发展期

针对AI生成内容的验证系统正处在关键发展期。谷歌在I/O大会上宣布，其隐形水印技术SynthID的验证能力将扩展至谷歌图片搜索，同时开放标准C2PA也获得更多行业支持。这些技术通过为图像、视频和音频文件嵌入不可见的来源标记，帮助用户辨别内容真伪。此前教皇AI假图等事件的传播，凸显了缺乏有效标签系统的困境。此次两大技术的迄今最大规模扩展，被视为扭转未标记AI虚假内容在线传播局面、建立可信数字生态的重要契机。

图像生成现象/趋势

22:08

Berryxia.AI@berryxia

59

黑神话悟空带火山西小西天，3D数字模型上线

推文分享了在通关《黑神话：悟空》后，对游戏中小西天场景原型——山西临汾隰县小西天悬塑艺术的震撼与实地探访。一个团队通过实地拍摄数千张照片，使用 Gaussian Splatting (3DGS) 技术，将其建成了一个可在线漫游的 3DGS 数字存档。该模型旨在保留明代悬塑密集的金色空间、细节与光感，让观众得以在屏幕前细细欣赏这一通常因平面印刷限制而难以被充分展现其震撼力的艺术瑰宝，并配有专门音乐。

MasterPa: 小西天,看着像视频,但其实是我们在现场实地拍摄 3,811 张 206 GB 的照片后建模的。FUNES 把《黑神话:悟空》里「既见未来,为何不拜」满天神佛的原型,来自自山西临汾隰县的小西天,做成了一个可漫游的 3DGS 数字存档。完全实...

图像生成教程/实践

22:02

向阳乔木@vista8

73

AI生成3D资产模型Rodin Gen-2.5发布：宣称千万级面数，助产业提效

AI 3D生成模型Rodin Gen-2.5发布，号称全球首款能实现千万级面数的同类产品，材质纹理精细。该模型可从单张图片生成高质量3D资产，快速输出obj等通用格式文件供进一步编辑，极大地简化了传统建模、绑骨、贴图的复杂流程。其技术亮点包括原生3D贴图算法，旨在为游戏、动画、影视等产业提供真正的生产力工具。

Hyper3D by Deemos: Introducing #Rodin Gen-2.5🚀 🔥World's 1st 10 MILLION polygon #3D GenAI - down to skin microstructures. 1️⃣1M-poly in 4s...

产品更新图像生成多模态

20:08

Berryxia.AI@berryxia

70

本地AI生图"意外"加速，Draw Things新发现

在开源生图软件Draw Things中，一项意外发现显著提升了本地AI生图速度。将原为Z-Image Base训练的Z-Image-Fun-Lora-Distill与Z Image Turbo搭配使用后，原本需要8-9步的生成过程可缩减至3-4步，大幅缩短了本地生成时间，同时保持了画质与细节的稳定。这一组合有效突破了此前本地生图速度较慢的限制。

Draw Things: 🔍 An interesting discovery! 🧩 Z-Image-Fun-Lora-Distill from alibaba-pai was originally trained for Z-Image Base, with ...

图像生成开源生态教程/实践

18:56

IT之家（RSS）

15

荣耀 600 系列手机磁吸副屏配件公布：支持四档补光、预览构图、操控拍摄

图像生成行业动态

17:07

HuggingFace Daily Papers（社区热门论文）

55

PixVerve：推进原生超高清图像生成至100MP

本文介绍了PixVerve-95K，一个高质量、开源的超高清（UHR）文生图数据集，包含95K张图像（每张至少100M像素）及七维注释。基于此，研究团队探索了三种训练方案，成功将现有文生图基础模型扩展至原生100MP图像生成。同时，提出了PixVerve-Bench评估基准，全面评估UHR图像的视觉质量与语义对齐。实验与探索为该领域的未来突破提供了关键见解与实用策略。

arXiv 图像生成数据/训练论文/研究

16:56

IT之家（RSS）

60

OpenAI推出AI图像双重溯源方案：C2PA元数据与隐形水印结合

为应对AI生成图像难以鉴别真伪的问题，OpenAI于5月20日宣布同时采用C2PA开放标准与谷歌的SynthID隐形水印技术。C2PA标准在图像元数据中添加可查看的AI生成标识，而SynthID则具备更强的抗篡改能力，两者形成互补。目前该措施仅适用于OpenAI自家产品生成的图像，同时公司展示了一款可检测这两种标识的核验工具，初期用于自家图像，后续计划扩展支持。

OpenAI 产品更新图像生成安全/对齐

12:32

PixVerse@PixVerse_

16

体型不是一切！仓鼠在奥运会上举重超过了河马！

图像生成行业动态视频

12:06

Kling AI@Kling_ai

47

Kling AI戛纳展示全流程AI动画制作

Kling AI展示了其在动画《生来如潮》中全流程应用AI技术的实践。该项目以疍家文化为背景，利用Kling AI辅助完成了从美术指导、环境设计到角色动作、电影镜头规划等关键环节。通过AI驱动的动画制作，项目降低了制作门槛，减少了对大规模团队和漫长制作周期的依赖，使高质量、史诗级的视觉叙事变得更高效、更易扩展，指向了更具敏捷性和创作自由度的动画未来。

图像生成行业动态视频

11:34

Rohan Paul@rohanpaul_ai

73

SenseNova U1开源发布，革新原生多模态生成

商汤科技SenseNova U1已开源发布。其核心创新在于原生多模态统一建模，将视觉、语言与图像生成视为一个统一问题，而非分立模块的链式处理，从而减少了信息损失。该模型采用MoT架构（38B-Active 3B MoE），在生成信息图、海报、漫画等结构复杂的密集图文内容时能保持高度一致性。详细的技术报告披露了其包括近无损视觉接口、联合训练策略在内的完整构建方案，为行业提供了前沿参考。

SenseTime: 🔥 New week, New SenseNova-U1 Drop - and this one goes Deep!🔥 📄 The full Technical Report is OUT - the most detailed d...

图像生成多模态开源生态模型发布

09:31

Hacker News 热门（buzzing.cc 中文翻译）

64

Remove-AI-Watermarks - 用于从图像中移除 AI 水印的命令行工具和库

GitHub 上出现了开源项目 Remove–AI–Watermarks，提供命令行工具与库两种形式，可自动识别并移除图像中由 AI 生成的隐藏水印。该项目旨在提供便捷的技术方案，以应对 AI 内容标识带来的编辑与再利用限制，目前在开发者社区已获得较高关注。

GitHub 图像生成开源/仓库

08:00

HuggingFace Daily Papers（社区热门论文）

55

RankE：离散文本到图像生成的端到端后训练与解码器协同进化

当前离散自回归文本到图像模型的后训练通常只优化策略网络而固定VQ解码器，导致潜在协变量偏移，使奖励提升但图像质量下降。为此，本文提出首个端到端后训练框架RankE，通过交替优化策略与解码器实现协同进化。在LlamaGen-XL（775M）上，标准RL仅提升CLIP但恶化FID，而RankE同时改善两者（MS-COCO 30K上FID 15.21, CLIP 33.76）。在Janus-Pro（1B）上验证了其稳定转化奖励为图像质量的能力。

arXiv 图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

重新思考扩散模型Transformer中的跨层信息路由

扩散模型的主流架构Diffusion Transformers (DiTs)沿用了原始Transformer的残差连接。本文通过系统性分析发现，这种传统残差加法在模型深度和去噪时间步的联合维度上存在信息幅度膨胀、梯度衰减和冗余等问题。为此，研究者提出了即插即用的扩散自适应路由（DAR）作为替代方案，它通过可学习的机制对子层输出历史进行时间步自适应的聚合。在ImageNet 256×256实验中，DAR将SiT-XL/2的FID分数从9.67提升至7.56，并减少了达到基线收敛质量所需的训练迭代。该方法还可与REPA等兼容以加速训练，并应用于文生图模型的微调。

arXiv 图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

Lens：重新思考基础文本到图像模型的训练效率

Lens是一个3.8B参数的文本到图像模型，其性能可与6B以上参数的模型竞争甚至超越，且仅需约19.3%的训练计算量。高效训练源于两大策略：一是通过GPT-4.1生成的Lens-800M数据集（含约109词的密集描述）最大化每批次数据信息密度；二是采用语义VAE和强语言编码器等架构设计以加速收敛。预训练后，模型通过应用RL训练、推理器模块和知识蒸馏实现了4步推理，并支持1:2到2:1的任意宽高比及最高1440^2分辨率。该模型在单张NVIDIA H100 GPU上生成1024^2图像需3.15秒，其蒸馏版可在0.84秒内完成4步生成。

图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

62

AutoRubric-T2I：用于文本-图像对齐的基于规则的鲁棒奖励模型

本研究针对现有文本-图像生成模型奖励模型训练成本高、评估标准不透明的问题，提出了首个自动评规学习框架AutoRubric-T2I。该框架能够自动合成并筛选明确的评分规则，以指导视觉语言模型评判者。其核心方法在于从偏好对中合成为候选规则，并通过带L1正则化的精炼器筛选出最具区分性的规则。实验表明，该框架仅需不到0.01%的标注数据即可生成高质量且可解释的奖励信号，在多个基准测试中性能优于强基线，并能有效提升下游生成任务的质量。

图像生成多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

67

GenEvolve：基于工具协调视觉经验蒸馏的自我进化图像生成代理

GenEvolve是一个旨在让图像生成代理自我进化的框架。该框架将每次生成过程建模为工具协调轨迹，代理通过收集证据、选择资源并组合生成技能来完成任务。与主要依赖图像级奖励的方法不同，GenEvolve通过对比同一请求的多个轨迹，将优劣差异提炼为结构化视觉经验，并仅提供给特权教师分支。借鉴策略自蒸馏思想，这些经验为学生代理提供了密集的token级监督，从而帮助其内化更优的搜索与构建能力。研究还构建了配套的数据集与评测基准，实验表明该方法达到了最先进的性能。

智能体 Hugging Face 图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

68

FlowLong：基于流形约束Tweedie匹配的推理时长视频生成方法

针对视频扩散模型生成长序列时质量下降和运动重复的问题，研究提出了一种无需训练的推理方法FlowLong。该方法通过重叠滑动窗口生成长视频，利用Tweedie匹配融合相邻窗口预测样本以保持时间连续性。在高噪声阶段采用随机早期采样同步轨迹，后转为确定性ODE采样保持视觉质量。实验表明该方法能在多种模型上生成数倍长度的视频，在时间一致性和视觉质量上超越现有基线，并可扩展至音视频生成与3DGS任务。

图像生成视频论文/研究

05:44

OpenAI@OpenAI

精选70

人们每周在ChatGPT中生成超过15亿张图像。研究员 @kenjihata 与产品负责人 @adele__li 及主持人 @AndrewMayne 一起，探讨自 Images 2.0 发布以来出现的新用例和趋势。

OpenAI 图像生成现象/趋势

推荐理由：OpenAI 首次把内部图像生成数据摊开聊，每周 15 亿张的量级说明这功能已经不是玩具了，做图像产品的可以对着用例风向调方向。

05:33

TechCrunch：AI（RSS）

42

Google 在 IO 2026 宣告入局 AI 设计

Google 在 IO 2026 大会上正式展示了其在 AI 设计领域的能力。该公司推出了一款新应用，旨在让包括教师、小企业主在内的所有人都能轻松使用。这款应用的发布标志着 Google 进一步将 AI 技术下沉至日常创作工具中，强调其易用性与普惠性，试图降低专业设计的门槛。

Google 产品更新图像生成

05:08

Replit ⠕@Replit

37

隐秘的干预、互动装置、为其他艺术家打造的工具。@kcimc 的实践存在于机器学习、计算机视觉与社会技术的交汇处。在 Vibecon 首日观看他的新互动装置。纽约，6月17-18日。购票请访问 http://vibecon.ai

图像生成行业动态

1…14 151617 18…30