5月8日

08:00

HuggingFace Daily Papers（社区热门论文）

针对扩散模型在少步采样时假设失效的问题，研究团队提出了归一化轨迹模型（NTM）。该模型将反向采样的每一步建模为具有精确似然训练的条件归一化流，其架构结合了步内的浅层可逆模块与跨轨迹的深度并行预测器，支持从零训练或由预训练流匹配模型初始化。NTM的精确轨迹似然使其能进行自蒸馏，仅需一个轻量级去噪器即可在四步内生成高质量样本。在文本到图像基准测试中，NTM仅用四步采样就能匹配或超越现有强基线，并独特地保持了生成轨迹的精确似然。

图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

STARFlow2：连接语言模型与标准化流以实现统一多模态生成

为构建真正统一的文本-图像序列生成模型，研究团队提出STARFlow2。该模型基于Pretzel架构，通过残差跳跃连接垂直交织预训练视觉语言模型流与TarFlow流，两者共享因果掩码。结合深浅流设计与统一的FAE潜在空间，STARFlow2实现了缓存友好的交错生成，文本与视觉输出可直接进入KV缓存而无需重新编码。实验证明，该模型在图像生成与多模态理解任务上均表现优异，验证了自回归标准化流作为统一多模态建模基础的可行性。

arXiv 图像生成多模态论文/研究

07:05

OpenRouter@OpenRouter

现已在OpenRouter上线：@recraftai。 Recraft V4是一款为高审美调校的图像生成模型--具备艺术指导的构图、光影与色彩，呈现精心设计感而非素材堆砌。该模型与艺术家和设计师共同打造，适用于品牌塑造、概念创作和创意探索。更多关于V4和V4 Pro的信息如下 🧵

产品更新图像生成

06:05

Orange AI@oran_ge

GPT Image 2.0能力深不可测，Labnana社区提供免费体验

GPT Image 2.0模型发布后持续展现惊人能力，无需参考图即可根据名称或IP生成高质量内容，尤其在二次元画风上表现卓越，被社区认为远超Banana 2等模型。Labnana社区现已将GPT Image 2.0的免费体验作为长期福利，用户通过签到和邀请获取积分即可基本满足使用需求。

OpenAI 图像生成评测/基准

01:38

Ethan Mollick@emollick

OpenAI for Excel相当实用（Claude for Excel也是），令人惊讶的是，与Claude不同，目前没有OpenAI for PowerPoint，尤其因为这是OpenAI的一大优势所在：Imagegen-2可以直接生成非常优质的幻灯片/图像，而Claude没有图像制作功能。

图像生成多模态大佬观点

5月7日

23:21

Berryxia.AI@berryxia

精选76

SenseNova-U1开源8步蒸馏LoRA，扩散模型推理提速11倍

SenseNova-U1开源了一项8步蒸馏LoRA技术，将扩散模型的生成步骤从100步压缩至8步，使GPU推理时间从23秒大幅缩短至2秒，速度提升达11倍。该技术同时完整支持ComfyUI，并提供了文本生图、图像编辑和交错生成等开箱即用的工作流程。此举标志着扩散模型从研究阶段迈向实用化，引发了业界关于未来应聚焦参数规模竞赛还是追求速度与实用性的讨论。

Ziwei Liu: 🚀SenseNova-U1 Update🚀 ⚡Open-source an 8-step distilled LoRA: 100 NFE → 8 NFE, cutting GPU inference from 23s to 2s 🧩C...

图像生成开源/仓库部署/工程

推荐理由：这个LoRA把扩散模型推理从23秒压到2秒，还带全套ComfyUI工作流，玩图像生成的人今天就应该装上去试试，速度飞升11倍是真的能立刻用上。