6月8日

18:44

🚨 AI News | TestingCatalog@testingcatalog

感谢 Ideogram 发送了这个 ❤️ Ideogram 4.0 是上周最大的发布之一！尤其对开源社区而言。测试了一下 👀

Ideogram: Today we published a technical blog post about Ideogram 4.0 - our goal is to enable more innovation and creativity. It's...

图像生成开源生态模型发布

16:13

歸藏(guizang.ai)@op7418

藏师傅社交媒体卡片Skill重磅升级

藏师傅的社交媒体卡片 Skill 即将迎来重大升级，新增对小红书 Live Photo 的支持。该功能可帮助用户制作带文字排版的动态 Live Photo，使发布动态内容时仍能以图文形式呈现，无需制作完整视频。具体细节尚未公布，但用户可期待更便捷的社交媒体内容创作体验。

歸藏(guizang.ai): http://x.com/i/article/2059811469081141248

图像生成教程/实践

16:13

歸藏(guizang.ai)@op7418

藏师傅的社交媒体卡片 Skill 即将重磅升级，可制作小红书动态带文字排版的 Live Photo，方便以图文形式发布动态内容。随后实测发现公众号图文卡片同样支持 Live Photo，但需通过 iPhone 上传。

歸藏(guizang.ai): 藏师傅的社交媒体卡片 Skill,即将迎来一个非常重磅的升级。可以帮大家解决小红书 Live Photo 的制作问题,同时会帮你制作动态的带文字排版的 Live Photo 这样你可以在发布一些必须的动态内容的时候,依然以图文的形式发布,...

图像生成教程/实践

13:34

Deedy@deedydas

AI电影《Hell Grind》制作分析：50万美元成本、14天完成，但质量平庸

95分钟AI电影《Hell Grind》由15人14天完成，成本50万美元（80%为算力）。相比中位数美国电影（约200人2年、1800万美元），实现660倍人时、50倍时间、36倍成本改善。影片从约100小时AI生成素材（使用字节跳动Seedance等模型）中按64:1比率剪辑。质量方面，角色一致性、摄像机角度和写实感基本解决，但剪辑过多、角色口音多变、AI合成声音明显，动作和编排生硬——整体平庸，主因是导演选择而非模型限制。作者认为这是AI电影最差、最慢、最贵的时刻，未来创作者将直接投放YouTube。

图像生成大佬观点视频

08:00

HuggingFace Daily Papers（社区热门论文）

FlowLet：基于小波流匹配的条件3D脑MRI合成

FlowLet是一种条件生成框架，在可逆3D小波域中利用流匹配合成年龄条件的3D脑MRI，避免潜在压缩伪影并降低计算开销。实验表明，仅需少量采样步即可生成高保真体积；用其数据训练脑年龄预测模型可改善欠代表性年龄组的表现，区域分析证实解剖结构得以保留。

arXiv 图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Z-Reward：通过推理内化分数分布超越标量奖励

Z-Reward 是一种教师-学生奖励建模框架，用于文生图后训练。教师为 27B VLM，采用 Group-wise Direct Score Optimization (GDSO) 结合策略梯度奖励与分数分布监督；学生通过 Reasoning-Internalized Score Distillation (RISD) 将教师推理条件分布压缩进 9B VLM，推理时无需显式推理链。在内部评测集上，27B 教师达 89.6% 人类偏好准确率，超越 SFT、RewardDance 和 GRPO；9B 学生达 88.6%，超越 O

图像生成推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ABot-Earth 0.5：生成式3D地球模型

ABot-Earth 0.5是一个生成式3D框架，利用3D高斯泼溅（3DGS）表示，从地理参考卫星图像合成大规模无缝3D环境。模型在真实城市重建数据集上训练，推理时仅依赖卫星图像，以每平方公里不到10分钟的速度生成逼真的几何与纹理。框架集成层次细节（LOD）结构，支持网页地图引擎上的实时交互可视化。该高保真模拟沙箱可缩小sim-to-real差距，服务于闭环无人机导航等具身AI应用，降低大规模3D重建的技术与财务门槛。

arXiv 具身智能图像生成论文/研究

06:40

karminski-牙医@karminski3

Ideogram 4实测：9.3B开放权重原生2K

ideogram发布Ideogram 4文生图模型，开放权重，仅9.3B参数，支持原生2K分辨率生成。作者将其与通义Z-image-Turbo生成效果对比，认为两者风格相似。

图像生成开源生态评测/基准

6月7日

23:37

Chubby♨️@kimmonismus

OpenAI 的 ChatGPT "超级应用"改造可能在未来几周开始推出。第一波可能不是一次大发布，而是分阶段重新设计，将用户推向 Codex、AI 智能体、图像生成和合作伙伴应用。正如一位 OpenAI 员工告诉《金融时报》："聊天已死"，新目标是打造一个能在你的工作和个人生活中行动的单一 AI 助手。

智能体 OpenAI 产品更新图像生成

20:04

The Verge：AI（RSS）

AI"内容创作者"越来越难被识别

AI虚拟影响者最初较为容易识别——Lil Miquela、Imma、Shudu Gram等早期虚拟形象明显是数字制作。如今，AI生成的内容创作者与真人之间的界限日益模糊，用户越来越难以分辨。

图像生成多模态现象/趋势视频

12:00

宝玉@dotey

精选76

对比一下 GPT-5.5 的设计效果和 Opus 4.8 的设计效果

宝玉对比了GPT-5.5与Opus 4.8的设计能力，认为Opus 4.8效果远优于GPT-5.5。他使用了基于Cursor浏览器和元素标注的baoyu-design Skill，该Skill通过npx skills add JimLiu/baoyu-design安装，可在本地运行：描述屏幕需求即可生成精良HTML，点击预览中任意元素即可发出修改指令。官方推荐搭配Opus 4.8以获得最佳效果。工具GitHub仓库：https://github.com/JimLiu/baoyu-design。

宝玉: Cursor's new browser + element annotation turns it into a design studio. Meet Cursor Design 🎨 - Claude Design, running ...

MCP/工具图像生成教程/实践

关联讨论 1 条

推荐理由：宝玉这个 skill 把 Claude Design 拉到本地，一个 prompt 就能出图对比，GPT-5.5 和 Opus 4.8 的审美差距肉眼可见，做设计的可以直接套。

08:00

HuggingFace Daily Papers（社区热门论文）

WaveDiT：分布感知小波流匹配实现高效3D脑MRI合成

WaveDiT是一种在3D Haar小波系数空间中的条件流匹配框架，结合分解时空注意力与基于高阶小波统计的带异方差不确定性建模。预测对数方差融入流目标和条件路径，适应解剖细节的输入相关方差结构。该方法在单个GPU上实现全分辨率3D合成。多中心评估显示，相比扩散、潜在和小波基线，生成与真实MRI分布对齐更优，下游脑年龄预测和区域解剖一致性均有提升。代码已开源。

arXiv GitHub 图像生成数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

MaskAlign：Token子集表示对齐以实现高效扩散训练

针对扩散模型训练中噪声输入与干净参考特征的时间步信息不匹配问题，论文从token级视角发现：完整token对齐中梯度范数大的token具有稳定空间偏好，导致模型过度依赖完整干净图像token集。为此提出MaskAlign，训练时对随机采样的token子集施加表示对齐，减少对完整token集的依赖，增强鲁棒性；并引入轻量级预掩码token混合块，在掩码前跨token共享信息以缓解信息损失。实验表明该方法有效提升扩散Transformer的训练效率和生成质量。

图像生成数据/训练论文/研究

04:46

jason@jxnlco

LLM 能否一次性生成高斯溅射？

其他图像生成

03:17

fofr@fofrAI

从一张建筑图片开始，用提示词在Omni中生成投影映射。主推文：让建筑随音乐舞动。

fofr: Start with an image of a building and prompt for a projection mapping with Omni.

图像生成教程/实践视频