5月24日

08:00

HuggingFace Daily Papers（社区热门论文）

本文提出MVCHead，一个单次前馈状态空间模型。它仅从随机2D图像学习条件与无条件3D头部模型，无需使用多视角数据、3D监督或中间视角生成。模型核心是分层状态空间块，通过分层双向状态扫描渐进式优化高斯分布并捕捉长程依赖，以直接在3D表示中强制多视角一致性。同时，设计了一个SE(3)多视角评判器，在未观测真实多视角对的情况下，奖励跨视角像素对齐。MVCHead达到了SOTA的感知质量，超越先前方法的纹理和几何一致性。此外，文章发布了首个大规模可用3D Gaussian头部资产数据集FaceGS-10K，用于训练与评估。

arXiv 图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

注入视觉概念：在推理时向文本条件扩散模型注入图像引导

Visual Concept Fusion (VCF) 是首个在推理阶段同时接受图像和文本提示、无需概念特定训练的方法。它通过将 CLIP 图像特征对齐到文本嵌入空间，实现视觉概念注入。VCF 包含一个轻量级对齐器、一种融合策略以及可选的提示噪声优化（PNO）模块。实验表明，VCF 能从参考图像转移风格、构图和调色板等视觉属性，同时遵循文本提示。定量结果显示，其文本对齐度（CLIP 分数）与视觉相似度（LPIPS）之间存在权衡，但在参考保真度上优于基线方法。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

几何感知图像 Flow Matching

研究发现，自然图像的语义信息主要编码在方向分量中，其范数分量可由全局平均近似，表明图像数据本质上可建模于超球面。基于此，论文提出了两种几何感知方法：利用角距离的球形最优传输流匹配（SOT-CFM）与在流形上约束动力学的球形流匹配（SFM）。实验证明，这两种方法性能优于欧几里得基线，为基于黎曼流形的建模与自然图像生成之间建立了联系。

arXiv 图像生成论文/研究

04:51

elvis@omarsar0

刚刚发布了新的 /lesson-generator 技能。与你的代理一起使用它来学习任何内容： - 生成任何主题的课程/教程 - 结合我的 /image-generator 技能添加 nano-banana 图片 - 将课程呈现为 HTML 作品它也已在我们的学院中可用。

智能体图像生成教程/实践

5月23日

11:21

向阳乔木@vista8

即梦Seedream 4.5测试500种艺术家风格

即梦Seedream 4.5对500位艺术家风格进行了大规模测试，采用统一提示词模板——“一个女子坐在窗边读书，一只猫趴在她腿上，窗外是花园，用{artist}的风格绘制”——以凸显不同艺术家对AI生图的独特影响。测试结果已在线上展示，部分风格极具辨识度，常见于潮流设计领域。

图像生成教程/实践

10:18

Berryxia.AI@berryxia

AI海报设计Agent上线：对话生成，限时1刀

一款名为Bloome的AI海报设计Agent已上线，用户可通过直接对话的方式快速生成各类海报。该工具整合了之前用于快速出图的提示词，降低了使用门槛，让非专业设计人员也能高效完成设计工作。目前该功能限时一周开放，支付1美元即可解锁约100张图的生成额度，适合市场部等有设计需求的人员使用。

Berryxia.AI: 兄弟们,今天我不装了。摊牌了~ 之前一直有朋友说你这套提示词生成的海报这么好看,而且非常丝滑。捣鼓了一套万能产品、人文、科技、展会等等都可以快速出图的提示词。但是,很多人还是用不来觉得麻烦。于是我,我把它在Bloome 做了个海报...

智能体图像生成教程/实践

08:00

HuggingFace Daily Papers（社区热门论文）

VaaWIT：面向多语网页图像翻译的视觉感知大语言模型适配框架

翻译网页图像中的文本对提升内容可访问性至关重要。现有大型视觉语言模型因视觉表征差距，常忽视识别多样字符形态所需的细粒度视觉细节，导致在此任务上表现不佳。为此，本研究提出VaaWIT框架，它通过双流注意力模块实现多语义特征与视觉细节的双向交互，并利用视觉感知适配器以参数高效微调方式将融合特征注入冻结的大语言模型骨干。实验表明，该框架在三个公开基准的八个任务上显著超越了SOTA开源基线模型，性能可与闭源模型相媲美。

图像生成多模态论文/研究

06:08

Luma@LumaLabsAI

你的客户写出了你永远无法超越的文案。现在，为它匹配相应的视觉效果吧。插入引言，设定美学风格。Luma Agents 将处理后续所有推荐语图形。让它被听见 → http://lumalabs.ai/app

产品更新图像生成

5月22日

23:21

PixVerse@PixVerse_

从分镜到电影感短片：一只柯基独处的一天，由Pixverse使用GPT Image 2 × Seedance 2.0实现转发 + 关注 + 回复 = 工作流

图像生成教程/实践视频

23:14

Google DeepMind@GoogleDeepMind

精选67

Project Genie 🤝 @GoogleMaps Street View 你现在可以将真实的美国地点转化为全新的交互式世界。🌍

DeepMind Google 产品更新图像生成

推荐理由：Project Genie这次不是纸上谈兵了，直接吃进真实街景吐出来可玩世界，虽然暂时只限美国，但这是生成式游戏从能做走向普通人可玩的关键一步。