6月25日

08:00

HuggingFace Daily Papers（社区热门论文）

Qwen-Image-2.0-RL 后训练流程应用 RLHF 和 on-policy distillation（OPD）提升 Qwen-Image-2.0 扩散模型的视觉质量与指令跟随。通过微调视觉语言模型构建任务特定复合奖励模型，覆盖文生图的对齐、美学、肖像保真度，以及图像编辑的指令准确性与人脸身份保持。基于 GRPO 的 RL 框架引入混合 CFG 策略、组内奖励范围过滤和分类权重校准。最终通过轨迹级速度匹配的 OPD 合并多个教师策略。评测显示，Qwen-Image-2.0-RL 在 Qwen-Image-Bench 总分 57.84（+2.61），文生图 Elo 1193（+78），图像编辑 Elo 1349（+93）。

图像生成多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Qwen-Image-Agent：弥合真实图像生成中的上下文差距

针对文本到图像模型处理隐含、未明确或依赖最新知识的真实请求时出现的“上下文差距”，Qwen-Image-Agent 提出统一智能体框架，以上下文为中心整合规划、推理、搜索、记忆与反馈。其 Context-Aware Planning 识别缺失上下文并规划获取路径，Context Grounding 通过推理、搜索、记忆和反馈收集上下文。新基准 IA-Bench 涵盖规划、推理、搜索、记忆四项能力。在 IA-Bench、Mindbench 和 WISE-Verified 上，Qwen-Image-Agent 超越强基线，取得最优性能。

智能体图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LISA：基于似然分数对齐的视觉条件可控生成正则化方法

LISA是一种针对视觉条件可控生成的训练正则化方法。它将双分支范式（预训练主网络+侧网络）重新解释为基于分数的生成建模：主网络提供无条件先验分数，侧网络隐式贡献似然分数。LISA通过轻量解码器将侧网络指定层中间特征投影到分数隐空间，与构造的近似似然分数目标计算距离作为正则化损失，并与标准扩散损失联合优化。实验表明，LISA能一致加速训练收敛并提升合成质量，使侧网络特征更解耦，且几乎不增加训练成本、零额外推理成本。

arXiv 图像生成视频论文/研究

00:39

The Verge：AI（RSS）

Figma推出AI动态图形与着色器工具

Figma在年度Config大会上发布多项设计及编码更新。核心亮点：Code layers允许在设计画布内直接操作代码、克隆仓库并通过Agent生成新方向；Motion功能支持通过提示词生成动画和过渡效果，可应用预设样式或手动调整时间线；Shaders借助WebGPU实现抖动、像素化、多种模糊等着色器效果。Figma Weave工作流集成20余种工具，将复杂AI流程简化为画布上的简易操作。此外，Agent技能支持第三方连接器和文件附件上下文，生成式插件允许无代码创建可共享的自定义工具。

产品更新图像生成编码

00:35

TechCrunch：AI（RSS）

Figma更新：新增代码层、动画和AI功能

Figma本周三发布更新，直接在协作画布中加入代码层，支持团队克隆仓库并将代码流程提取为设计图层。新增对动画、转场和3D变换的支持，并允许用AI生成着色器效果和填充。用户可通过文本提示创建可重复使用的技能供AI智能体使用，还能连接Notion、Granola、Excel、GitHub等工具。Figma计划今年晚些时候深度整合去年收购的节点工具Weavy，支持直接在Figma内生成Weavy工作流。

产品更新图像生成编码

6月24日

23:29

Hacker News 热门（buzzing.cc 中文翻译）

Krea 2 技术报告

Krea 2 是一系列基础模型，兼顾审美多样性与创意控制。采用扩散 Transformer（DiT）架构，集成 iREPA、改进 VAE 和 Qwen3-VL，通过预训练、中期训练、SFT、偏好优化和 RL 多阶段流水线训练。构建提示词扩展器和风格参考系统，支持从文本和图像输入进行可控探索。模型权重与推理代码以宽松许可证开源。在 Artificial Analysis 文本到图像排行榜中位列前十，独立实验室模型中排名第二。

Hugging Face 图像生成多模态开源生态

关联讨论 1 条

19:31

OpenRouter：Announcements（RSS）

精选73

OpenRouter推出统一图像API

OpenRouter推出统一图像API，整合Google、OpenAI、Black Forest Labs、Recraft、ByteDance、Sourceful、Microsoft、xAI等30+模型。新API提供标准化请求格式，通过/api/v1/images/models端点返回每个模型的分辨率、宽高比、输出数量、输入参考图数量、种子等能力描述；通过/api/v1/images/models/{id}/endpoints端点获取具体服务商的定价与参数支持（如Seedream 4.5每张$0.04、FLUX.2 Pro每百万像素$0.03、GPT-5.4 Image 2按token计费）。OpenAI的GPT 5系列图像模型支持SSE流式预览，启用"stream": true即可边生成边返回预览。新图像模型将仅添加至专用API，建议现有用户切换。

智能体产品更新图像生成多模态

关联讨论 1 条

推荐理由：OpenRouter 把 30+ 图像模型收进一个 API，参数自动发现和流式预览让频繁切换模型的开发者省去不少适配麻烦，尤其对 Agent 工作流很友好。

15:09

HuggingFace Daily Papers（社区热门论文）

FLAT：前馈潜码三角形泼溅实现几何精确场景生成

FLAT 从单张图像直接解码视频扩散潜码中的三角形泼溅表面基元，首次实现前馈传递下从压缩潜码到显式三角形面片的映射。针对平面基元方向敏感、梯度流动困难问题，引入射线中心旋转参数化回归三角形，并设计乘积窗函数改进可微分三角形渲染的梯度流。标准基准上 FLAT 在保持视觉质量的同时取得显著更高的几何精度。轻量级测试时优化可将三角形网格转换为不透明、支持实时渲染的游戏引擎就绪表示。在相同训练设置下系统对比了 3DGS、2DGS 与三角形泼溅的表示权衡。

arXiv 图像生成论文/研究

10:49

HuggingFace Daily Papers（社区热门论文）

DiffusionBench：扩散Transformer的整体评估基准

当前扩散Transformer（DiT）研究集中于ImageNet类别条件生成单一评估设置，方法排名与文生图（T2I）任务间无强相关。NanoGen框架统一了DiT训练与评估：在ImageNet上匹配SOTA基线，仅需修改12行配置即可训练T2I模型，两种任务训练计算量相当。基于NanoGen训练21个潜在扩散模型后，三个指标上ImageNet与T2I排名间的Pearson相关系数为-0.377至-0.580，表明仅靠ImageNet FID改进未必反映T2I真实进步。为此整合ImageNet与T2I结果形成DiffusionBench，作为替代单一ImageNet评估的DiT整体基准。

图像生成论文/研究评测/基准

10:49

HuggingFace Daily Papers（社区热门论文）

FLUX3D：扩散对齐稀疏表示的高保真3D高斯生成

FLUX3D提出图像到3D高斯泼溅（3DGS）生成框架，解决两个结构性瓶颈：表示瓶颈（判别式2D特征构建稀疏体素潜在表示抑制重构线索）与跨模态对应瓶颈（标准扩散Transformer难对齐密集2D与稀疏3D token）。引入扩散对齐结构化潜在（DA-SLAT）与仅解码器架构提升3DGS保真度，并设计含稀疏结构多模态扩散Transformer（SMDiT）和模态感知旋转位置编码（MARoPE）的稀疏结构感知扩散框架，实现几何无关对齐。实验表明FLUX3D在外观保真度上显著超越现有SOTA。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MIMFlow：掩码图像建模与归一化流融合的端到端图像生成框架

MIMFlow是一个统一端到端框架，联合优化潜语义、像素重建和生成流。它采用VAE编码器从掩码图像推断语义潜变量，使归一化流专注于建模简化的低频频谱流形，专用解码器处理高频合成，从而解决归一化流的容量瓶颈。在ImageNet 256×256上，MIMFlow-L达到71.3%线性探测准确率和FID 2.50。仅使用128 token（比标准模型少50%），性能较相似规模NF基线提升32.8%。代码已开源。

图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

COrigami：用于协同设计可折叠平面折纸的AI管道

COrigami是一个端到端AI驱动管道，从自然语言生成可折叠平面折纸的折痕图案。管道流程包括生成语义火柴人、计算基础填充、求解可折叠折痕图案、塑造平面折叠图案，并通过强化学习与自主审美评估循环对生成模型进行优化。该系统作为高效协作助手，为人类艺术家提供结构起点，展示了AI如何在满足多目标物理约束（如平面可折叠性方程）的前提下实现可靠的、基于数学的协同创造力。

图像生成论文/研究

07:07

Hacker News 热门（buzzing.cc 中文翻译）

Lift4D：协调单视图3D估计与4D重建的真实场景框架

Lift4D是一个测试时优化框架，从单目视频重建动态物体的完整几何、外观和变形，包括相机从未观察到的区域。它通过因果潜在条件化使单视图3D重建模型（图像到3D DiT）生成时间一致的逐帧预测，作为可变形3D高斯泼溅表示的初始化；随后结合遮挡感知优化与视图条件扩散先验，恢复可见表面细节并补全被遮挡及未观测部分。在合成和真实场景中，Lift4D在严重遮挡与非刚性运动下显著优于先前4D重建方法。

图像生成视频论文/研究

6月23日

12:13

HuggingFace Daily Papers（社区热门论文）

VESFlow：通过速度编辑实现安全少步生成

流匹配模型成为少步文本到图像生成的主流范式，但现有安全方法难以适应极少采样步数。VESFlow是一种无需训练的安全方法，直接利用流匹配模型学习的边际速度场，通过安全条件后验编辑速度场，将轨迹导向安全输出而不改变提示词。引入基于风险分数的过滤，绕过良性提示的速度编辑以降低计算开销。进一步提出VESFlow+，同时向安全方向编辑并远离不安全方向。实验表明，在4步MeanFlow模型上，VESFlow+将目标概念攻击成功率降至6.3%（Ring-A-Bell）和6.8%（MMA-Diffusion），同时保持良性提示的生成保真度。

图像生成安全/对齐论文/研究

08:07

IT之家（RSS）

苹果 iOS 27 引入 AI 扩图功能：生成画面自然，无法保证真实还原

科技媒体 AppleInsider 报道苹果在 iOS 27 照片应用中引入基于 Apple 智能的 Extend 扩图工具。测试显示：小猫照片补充了窗帘、枯植物等元素，效果自然；夜景图片生成的路桩、立杆大体合理，但路牌背面形状略异常；罗马 Apple Store 楼梯照片补出台阶和玻璃，视觉合理但现实中不存在；罗马机场照片出现悬浮卡车。苹果表示 AI 扩图生成的画面无法保证真实还原。

图像生成端侧评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

Tailor-Bench：修剪视觉世界建模评估的长尾

Tailor-Bench评估视觉世界模型模拟非常规物理交互的能力，设计三种渐进难度场景：常规（常见工具-任务组合）、非常规（属性兼容替代品）、不可能（违反属性工具）。在统一协议下，预测生成与描述生成分别测试无引导推理与忠实实现。实验表明模型性能从常规到非常规再到不可能逐步退化，暴露物理建模的长尾差距。失败分析显示图像模型无法实现正确状态变化，视频模型还有时间不一致，说明模型依赖表面视觉模式而非内化物理原理。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

IV-CoT：面向结构感知文本到图像生成的隐式视觉思维链

统一多模态大语言模型在文本到图像生成中难以准确遵循物体计数、空间关系等结构感知提示。IV-CoT提出隐式视觉思维链框架，将视觉条件查询分解为结构查询与语义查询的级联：结构查询先形成潜在视觉计划，语义查询再基于该计划渲染外观。训练时引入草图监督引导结构查询捕获结构信息，推理时无需草图或中间解码，单次前向传播完成隐式推理。在GenEval和T2I-CompBench上取得更优结果。

图像生成多模态推理论文/研究

04:03

The Verge：AI（RSS）

AI用不可能的家欺骗租户

生成式AI让房地产经纪人一键虚拟装修房源照片，导致租户看房时发现现实与图片严重不符。纽约租户Joyce看到带有壁炉、厨房翻新的曼哈顿工作室，实地却发现没有壁炉，炉灶缺旋钮。另一位租户Madison在StreetEasy上看到大量AI增强图片，家具细节明显不真实。佛罗里达州经纪人Bee使用ChatGPT和Stuccco、BoxBrownie等工具为客户演示装修方案，但认为用AI制造虚假房源会引发诉讼。纽约州已立法要求广告披露AI使用，加州《修改图像法》进一步要求房产广告披露AI修改的图像。租户表示连房源描述也显AI痕迹，充斥着“迷人”“温馨”等套话。

图像生成现象/趋势

01:41

Hacker News 热门（buzzing.cc 中文翻译）

Moebius：0.22B参数轻量级图像修复框架，性能媲美百亿级模型

Moebius是一个仅0.22B参数的轻量级图像修复框架。其核心是Local-λ Mix Interaction（LλMI）模块，将空间上下文与全局语义先验压缩为固定大小线性矩阵，大幅减少参数。结合自适应多粒度蒸馏策略，在隐空间中从教师模型迁移表征能力，动态平衡多层级梯度损失。在Places2、CelebA-HQ、FFHQ等6个自然场景和人像基准上，Moebius的生成质量与11.9B参数的FLUX.1-Fill-Dev持平甚至超越，参数量不足其2%，总推理速度提升超过15倍。

arXiv 图像生成论文/研究

6月22日

19:30

公众号：卡尔的AI沃茨

字节小云雀短剧 Agent 2.0 上线：Seedance 2.0 Mini 模型降价，新增720度场景与3D导演台

字节旗下小云雀短剧 Agent 2.0 上线，核心升级包括 Seedance 2.0 Mini 模型（价格更低）及 720 度场景观看、3D 导演台（可摆放 3D 人偶设定角色位置与机位）等功能。资产库根据剧本生成详细提示语，支持多角色形象切换。单个镜头时长 1-10 秒，生成 15 秒视频约需 4-5 分钟，自带字幕可抹除。用户可用约三百元成本完成一集短剧，支持片段续接和首尾帧参考，最终一键导出到剪映。该工具旨在降低原创短剧制作门槛，尤其适合规则类、多场景反转等题材。

图像生成教程/实践视频

09:04

IT之家（RSS）

CDPR 联合 CEO 诺瓦科夫斯基：纯 AI 生成的游戏即将问世，但并非行业发展正道

CD Projekt Red 联合 CEO 米哈乌·诺瓦科夫斯基透露，完全由 AI 生成的游戏即将问世。他接触的多家 AI 工作室能快速批量产出游戏，有工作室自称一周内可做 40 个游戏原型甚至完成一整部游戏，其中一款成品很快上线。诺瓦科夫斯基认为，这类纯 AI 游戏即便质量尚可，也无法复刻人工开发的独特感染力，且玩家能轻易识别 AI 素材带来的违和感。AI 辅助开发可以接受，但纯 AI 制作并非行业发展正道。

图像生成大佬观点

08:00

HuggingFace Daily Papers（社区热门论文）

语义浏览：图像生成的可控多样性

现有文本到图像模型虽保真度高，但生成样本单一。现有多样性方法往往产生偶然变化而非有意义的设计选择。本文提出可控多样性方法“语义浏览”，让用户沿可解释变化轴系统遍历结构化图像画廊。核心思路是将语义决策与像素生成分离，直接在文本层面诱导多样性：利用视觉语言模型（VLM）操作完整场景上下文，并通过智能体工作流强制执行与原始提示一致的结构化变化。该方法生成多样且可导航的设计空间，每种变化对应一个可理解的语义决策。

图像生成多模态论文/研究

6月21日

13:00

公众号：腾讯元宝

精选64

腾讯元宝父亲节活动：上传照片生成与年轻爸爸的合影

腾讯元宝推出父亲节主题活动，用户可选择爸爸年轻时照片与自己的照片，输入提示词（如“帮我生成一张和爸爸的合影，将图2的我融合到图1爸爸的照片中，我想穿越回__年前，和他一起_____；保留爸爸照片的背景、动作及五官；人物姿态自然协调，整体光线与色调保持一致”），元宝即可生成合影。活动旨在让用户“回到过去”看到爸爸的青春模样。

图像生成教程/实践

推荐理由：元宝的父亲节营销，但合影生成指令写得具体可复现，比普通AI写真教程更接地气，父亲节想整活的可以直接抄作业。

01:38

The Decoder：AI News（RSS）

欧洲零售协会要求欧盟豁免非欺骗性AI广告的"深度伪造"标注义务

欧洲零售协会Eurocommerce（成员包括Amazon、H&M、Inditex、Ikea）致信欧盟科技专员Henna Virkkunen，要求对非欺骗性AI生成广告图像豁免EU AI Act的透明度标签要求。该法律将于8月2日生效，要求所有符合“deepfake”定义的AI生成内容明确标注。Eurocommerce认为AI生成的沙发展示图不属于deepfake，强制标注将冲淡警示价值。Zalando称其平台90%营销内容由AI生成，H&M和Zara已启用AI模特。业界指出“deepfake”一词源于非法色情与欺诈语境，当前定义过于宽泛。欧盟委员会尚未回应。

图像生成政策/监管行业动态

6月20日

23:00

IT之家（RSS）

《幻兽帕鲁》发行主管：我们没必要使用生成式 AI，因为玩家不想要

《幻兽帕鲁》开发商 Pocketpair 发行与传播负责人约翰·伯克利表示，玩家对生成式 AI 的反感是游戏公司不使用它的充分理由。伯克利确认 Pocketpair 完全没有使用生成式 AI，并称内部有足够多的美术人员愿意亲自完成工作，让 AI 接手而裁掉他们没有意义。他还指出，Steam 已开始在一定程度上限制生成式 AI，未来开发者可能需主动声明游戏“100% 由人类制作”。

图像生成大佬观点

6月19日

23:02

HuggingFace Daily Papers（社区热门论文）

FID彩票：量化生成式模型评估中的隐藏随机性

FID是图像生成的事实标准评估指标，但大多数论文仅报告单一种子下的单个数值。本研究将FID视为训练种子和生成种子两个轴上的随机变量，在数百个SiT网络上直接测量方差。发现：重新训练模型使FID变化幅度是固定网络重新采样的3.2倍，差距来自随机初始化、数据顺序和流匹配损失的高斯噪声；增加计算或模型大小几乎不缩小分散度，FID变异系数稳定在1-2%；每格无分类器引导调优使分散度减半，但重新洗牌最优种子。建议：在每格最优引导下评估，将低于~1.3% CoV的FID差距视为无结论，报告多个训练种子的误差条。

图像生成论文/研究评测/基准

15:55

HuggingFace Daily Papers（社区热门论文）

FlowBender：反馈感知训练用于自纠正条件流

条件扩散和流模型常生成与输入约束不一致的样本。FlowBender 是一个闭环框架，将对齐误差作为第一类输入，训练网络学习基于推理时反馈的修正策略。通过无引导的前向预估步骤估计干净信号，经前向算子计算偏差，再由精炼步骤生成修正速度。包含基于梯度的实现和针对不可微场景的零阶变体，并利用前一步捷径降低额外计算成本。在图像到图像翻译、图像复原和3D网格纹理任务中，同时提升了保真度与合理性。

图像生成多模态数据/训练论文/研究

11:47

HuggingFace Daily Papers（社区热门论文）

JanusMesh：零样本快速3D视觉错觉生成框架

JanusMesh是一个无需训练、文本驱动的3D视觉错觉生成框架，可在3-5分钟内生成从不同视角呈现完全不同语义的单一3D网格。该方法将生成解耦为两阶段：跨空间双分支去噪过程在体素空间中动态解码3D潜在表示，通过CLIP引导的视角对齐和SDF融合实现无缝几何融合；视图条件纹理合成模块将视图特定的2D扩散先验投影并聚合到融合几何体上。实验表明，该方法在几何完整性、语义可识别性和效率上显著优于现有方法。

图像生成论文/研究

10:47

HuggingFace Daily Papers（社区热门论文）

FreeStyle：基于社区LoRA挖掘的风格-内容双参考生成框架

风格-内容双参考生成旨在合成图像，保留内容参考的结构语义并采用风格参考的样式。FreeStyle提出基于社区LoRA挖掘的可扩展双参考生成框架，将LoRA作为风格与内容的组合锚点，通过生成-过滤流程构建大规模三元组数据。针对内容泄漏，采用两阶段课程学习：注意力级增强约束抑制风格参考泄漏，频率感知RoPE调制策略应对双参考阶段的位置对应泄漏。引入覆盖风格参考与双参考生成的基准，包含风格不变内容对齐分数（CAS）和基于VLM的拒绝分数。实验表明模型在风格对齐、内容保留和泄漏抑制间取得强平衡。

Hugging Face 图像生成开源生态论文/研究

10:10

公众号：腾讯元宝

腾讯元宝端午图像编辑：粽叶头套指令说明

用户发布多组详细提示词，要求保留原图主体及背景，仅对宠物、人物、表情包、企鹅等对象添加真实风格的绿色粽叶头套或指套。指令强调粽叶需具备叶脉、折痕、色差、翘边和自然阴影，用红白细绳或草绳固定并在下巴处松松打结，整体效果类似手机随手拍的真实照片，避免卡通感、头盔感和过度规整。每段提示词均独立指定保留原图和比例，不改变原表情或姿势。

图像生成教程/实践

6月18日

23:45

HuggingFace Daily Papers（社区热门论文）

Discriminator-Guided RL：用数据自身奖励修正流匹配模型

针对流匹配模型匹配损失与生成质量的结构不匹配，提出Discriminator-Guided RL（DRL）。在预训练表示空间中训练判别器区分真实数据与基模型样本，将其logit作为KL正则化RL的奖励——该奖励近似数据与模型的对数似然比，直接优化数据分布。在SiT、JiT、REPA、RAE上，DRL一致降低无引导FID（SiT从9.38降至2.62）和语义空间FD（SiT在DINOv3上从88.2降至19.3），且在不依赖人类偏好数据的情况下提升人类偏好奖励。偏好微调中，DRL改善偏好奖励与图像保真度的帕累托前沿，减少过饱和等低层次伪影。

arXiv 图像生成数据/训练论文/研究

21:18

The Verge：AI（RSS）

Adobe 上线重新设计的 Firefly AI 工作室，新增 Elements 与 Projects 功能

Adobe 今日在 private beta 中上线了重新设计的 Firefly AI 工作室，新增“Elements”（可保存已创建的角色、地点和对象并命名复用）和“Projects”（将资产、生成内容与创作上下文集中管理）两项功能。Firefly AI 助手新增品牌套件生成（根据公司名和风格生成 Logo 与色板）、Quick Cut（快速剪辑视频成初稿）、故事板生成以及图片转短视频能力，旨在减少繁琐任务同时保留人工控制权。

产品更新图像生成视频

19:47

Hacker News 热门（buzzing.cc 中文翻译）

精选79

ChatGPT 图像生成器可被绕过滤镜生成暴力和色情内容

Mindgard 红队研究发现，ChatGPT 的图像生成器可通过简单提示词轻易绕过内容过滤器，在未直接请求的情况下自动生成性暴力、血腥谋杀等露骨图像。一个热门的“恢复照片”提示词因输入模糊而绕过输入过滤器，结果如同俄罗斯轮盘赌；进一步添加虚假图像 ID 和“不做审查”指令后，模型持续生成高度性化女性图像，甚至出现被捆绑殴打的尸体，并自动赋予惊悚标题。研究指出，OpenAI 此前声称修复的裸体问题仍未解决，暴露了 AI 工具广泛可及性与不足内容过滤的现实风险。

OpenAI 图像生成安全/对齐

推荐理由：这是自 ChatGPT 图片功能上线以来最严重的安全漏洞曝光，Mindgard 用简单句子就绕过所有 filter 直接生成极端暴力色情图片，OpenAI 的回应和处理令人失望，暴露了训练数据治理的根本问题。

12:00

公众号：龙猫LongCat（美团）

美团智能创作团队海报生成技术体系：PosterCraft/PosterOmni/PosterReward

美团智能创作团队构建了覆盖“生成—编辑—评判”全链路的海报生成技术体系。PosterCraft（ICLR 2026）通过四阶段级联优化实现端到端高美感海报生成，文字渲染准确率接近顶级闭源商业系统；PosterOmni（CVPR 2026）以单一统一模型覆盖扩图、补全、比例调整、风格迁移等六类设计任务；PosterReward（CVPR 2026）是首个专门面向海报质量的奖励模型，在专项评测基准上达86%准确率。三者相互协同，已全部开源至MeiGen-AI仓库，并在美团外卖套餐图生成、品牌IP袋鼠团团等业务中落地。

图像生成开源生态教程/实践评测/基准

08:13

Simon Willison 博客

GLM-5.2：可能是最强大的纯文本开源权重大语言模型

智谱（Z.ai）于6月13日向编码计划订阅者发布GLM-5.2，6月16日以MIT许可证开源完整权重。该模型为753B参数、1.51TB的MoE架构，40个活跃参数，纯文本输入，上下文窗口提升至100万token。在Artificial Analysis Intelligence Index v4.1上以51分领先，超越MiniMax-M3（44）、DeepSeek V4 Pro（max,44）和Kimi K2.6（43）。但每任务输出token消耗达43k，高于同类模型。Code Arena WebDev排行榜位列第二，仅次于Claude Fable 5。通过OpenRouter可获取，多数提供商定价$1.40/百万输入token、$4.40/百万输出token。实测生成SVG动画优秀，但负鼠SVG质量不及GLM-5.1。

图像生成开源生态模型发布编码

关联讨论 9 条

08:00

HuggingFace Daily Papers（社区热门论文）

Go-with-the-Track：视频合成与运动控制与点追踪

Go-with-the-Track将精确合成与运动控制统一在单一视频扩散Transformer中，通过联合多个参考图像和参考锚定点追踪实现。模型引入空间感知点追踪嵌入，利用坐标MLP和时序池化编码完整点轨迹序列，再通过轻量适配器注入模型，避免像素与补丁分辨率不匹配及下采样导致的信息损失。混合训练策略在动态、静态及合成视频数据集上联合训练以增强运动可控性。实验表明，该模型能支持多参考条件视频生成、点追踪驱动合成，并对静态与动态场景提供相机控制。

图像生成视频论文/研究

6月17日

21:30

Hacker News 热门（buzzing.cc 中文翻译）

高分辨率神经细胞自动机（NCA）

针对NCA在高分辨率下训练慢、信息传播局部化、推理计算重的局限，提出将粗网格NCA与轻量隐式解码器（LPPN）配对：解码器通过插值细胞状态与局部坐标直接输出任意分辨率的外观属性（如颜色、法线），且两者均为局部计算，推理可高度并行化。引入任务特定损失函数，以极小额外内存和计算开销监督形态发生与纹理合成。在2D/3D网格及网格域上的实验表明，混合模型能实时生成高分辨率输出，并保留NCA的自组织行为。

图像生成数据/训练论文/研究

11:35

HuggingFace Daily Papers（社区热门论文）

Spectral Forcing：通过输入侧频谱先验提升像素空间扩散模型效率

像素空间扩散模型训练面对全频带噪声图像，而有效信号具有强频率依赖性。本文提出 Spectral Forcing，即在 patch embedder 前对噪声输入施加时间条件 2D-DCT 低通算子，其截止频率随扩散时间单调扩展，在数据端点退化为恒等映射。该方法使去噪器无需内部学习频带边界，从而缓解容量分配问题。在 ImageNet-256 搭配 JiT-700M/32 上，不同训练轮次均一致提升 FID 和 Inception Score；粗 patch 分词化下收益显著，细分词化时仍有竞争力。将该算子直接插入统一文生图模型 SenseNova-U1，同样改进了 DPG-Bench 与 GenEval，表明输入侧频谱先验可迁移至类条件生成之外。

图像生成数据/训练论文/研究

10:33

HuggingFace Daily Papers（社区热门论文）

UniAR：共享语境-视觉分词器是实现统一的关键

UniAR 提出统一多模态自回归框架，用单个离散视觉分词器作为理解与生成的共享桥梁，使模型直接解释自身生成的视觉 token。该框架融合预训练视觉编码器、多级特征融合与无查找按位量化，保留高层语义与低层细节。并行按位预测联合输出空间分组的多级视觉编码，缩短视觉序列长度并加速生成；扩散解码器从离散 token 重建高保真图像。经预训练、监督微调与强化学习，UniAR 在图像生成和编辑上达最优，在多模态理解基准上也有竞争力。

arXiv Hugging Face 图像生成多模态

08:00

HuggingFace Daily Papers（社区热门论文）

BrainG3N：面向可控3D脑MRI生成的双用途tokenizer

提出一种基于3D体素掩码自编码器（MAE）的tokenizer，用于3D脑MRI潜在扩散模型。编码器与解码器解耦：冻结的3D MAE编码器产生临床信息丰富的嵌入，专用CNN解码器从嵌入的线性投影重建体素。编码器在35,309个体积（来自18个公共队列，覆盖四种模态、十种疾病类别和200+采集站点）上预训练。在23任务线性探测基准上，编码器在21个任务上超越或匹配BrainIAC、BrainSegFounder、MedicalNet等SOTA模型。基于这些嵌入训练的扩散Transformer（DiT）支持跨六个变量的条件生成和患者特定纵向预测。

arXiv 图像生成论文/研究