5月16日

04:49

HuggingFace Daily Papers（社区热门论文）

研究提出一种球面流匹配方法，改进图像生成的潜在几何对齐。通过将潜在标记分解为径向与角度分量，发现解码后的感知与语义信息主要由方向承载。该方法将数据潜在投影到固定半径，以高斯噪声的径向投影作为球面先验，冻结编码器微调解码器，并用球面线性插值替代线性插值。由此构建的测地路径始终保持在球面上，速度目标纯由角度构成。在同等训练条件下，该方法在不同图像标记器上持续提升类别条件ImageNet-256的FID指标，无需改变扩散架构，也不依赖辅助编码器或表示对齐目标。

图像生成数据/训练论文/研究

04:05

Krea@krea_ai

精选77

从今天起，Krea 2 正式为 Pro 用户上线。

产品更新图像生成

推荐理由：Krea 2 终于向 Pro 用户开放，虽然更新细节暂未披露，但版本号的跃迁加上 Krea 一贯的实时生成野心，做图像视频的值得第一时间上手试试。

03:28

Runway@runwayml

精选78

Runway Agent 让你仅需一次会话，就能从产品照片和想法转变为完全制作完成的广告。立即通过下方链接开始体验。

产品更新图像生成视频

推荐理由：Runway Agent把广告制作压到一张产品图加一句话的极简流程，做电商和创意的值得上手测一下是不是真省时间。

02:35

Luma@LumaLabsAI

没人会点击他们滑过的缩略图。让你的缩略图不容错过。定义信息。设定美学。Luma Agents从此处理每个缩略图广告。让它不容错过 → http://lumalabs.ai/app

智能体产品更新图像生成

00:22

SenseTime@SenseTime_AI

SenseNova发布增强版信息图表生成模型SenseNova-U1-8B-MoT-Infographic

SenseNova近日推出专为信息图表生成设计的增强模型SenseNova-U1-8B-MoT-Infographic。该模型能够根据指令生成多种视觉格式内容，包括海报、图表、食谱卡、明信片以及学术风格的arXiv页面等。在性能方面，模型在BizGenEval（困难版）和IGenBench（Q-ACC）两项基准测试上表现突出，相比其基础U1模型分别提升了6.8分和18.2分。目前，该模型已在Hugging Face平台开源，并提供了超过100个多样化的生成示例，供开发者和研究者参考与试用。

Hugging Face 图像生成模型发布

5月15日

20:49

HuggingFace Daily Papers（社区热门论文）

Sat3DGen：从单张卫星图像生成全面的街景级3D场景

Sat3DGen提出了一种从单张卫星图像生成街景级3D场景的新方法。针对现有方法在几何保真度与语义丰富性间的权衡难题，该方法采用“几何优先”策略，通过整合新颖的几何约束与视角训练策略，有效缓解了因视角差异大、监督稀疏导致的几何失真。在基于VIGOR-OOD测试集与新构建的高分辨率DSM基准上，该方法将几何RMSE从6.76米显著降至5.20米，同时大幅提升视觉真实感（FID从约40优化至19）。所生成的高质量3D资源可支持语义地图转3D合成、多相机视频生成等多种下游应用。代码已开源。

图像生成开源/仓库论文/研究

17:54

Berryxia.AI@berryxia

用GPT-2图像功能一键拆解网红OOTD穿搭

推文展示了利用GPT-2的图像功能，通过上传图片即可自动拆解和标注OOTD（每日穿搭）的提示词方法。作者以近期因马斯克携带参会而走红的其子𝕏的穿搭为例，说明该提示词能快速分析网红造型。提示词已分享至评论区，供读者尝试使用。

OpenAI 图像生成教程/实践