5月27日

10:27

Berryxia.AI@berryxia

PrismML推出官方iOS应用"Bonsai Studio"，允许用户在iPhone或iPad上完全本地运行Bonsai Image 4B图像生成模型。该模型基于FLUX.2 Klein，通过1-bit/3-bit量化将权重从7.75GB压缩至0.93GB。在iPhone 15 Pro及以上设备，生成一张512×512图片约占1.5GB内存，1024×1024约占2GB，全程离线推理，无需联网或支付token费用。应用免费，支持多种风格，可用于教学素材等轻量场景，但生成中文文字存在乱码。此外，M芯片的Mac电脑也可下载该iOS客户端使用，不过需要重启并降低设备安全策略。Android端暂无官方App，可通过网页版体验。

Berryxia.AI: iPhone 上直接用 App Store 下载就行: 👉 Bonsai Studio - PrismML 官方 iOS 应用,免费安装,模型在手机本地跑我觉得给学校老师做一些素材展示,或者幼儿园小朋友教学还是可以的。不需要额外的TO...

图像生成教程/实践端侧

10:19

HuggingFace Daily Papers（社区热门论文）

RT-Lynx：以正确方式利用 GEMM 稀疏性提升扩散模型性能

RT-Lynx 提出了一种新范式，将扩散模型（Diffusion Transformers）的加速方法从权重稀疏化转向激活稀疏化。研究发现，DiT 模型的激活值具有内在稀疏性，且比权重更耐受 N:M 半结构化稀疏剪枝。通过在激活上应用 N:M 稀疏化并引入误差补偿技术，RT-Lynx 在保持生成质量的同时，实现了线性层平均最高 1.55 倍的推理速度提升。该方法在多个扩散模型上通过了实验验证。

图像生成推理论文/研究

09:27

Berryxia.AI@berryxia

Bonsai Studio：iPhone端侧离线图像生成应用上线

PrismML发布官方iOS应用Bonsai Studio，用户可免费下载，在iPhone上本地离线运行其Bonsai Image 4B扩散模型。该模型基于FLUX.2 Klein，其1-bit压缩版仅0.93GB，比全精度版小8.3倍。在iPhone 15 Pro及以上机型生成512×512图像耗时约几十秒，内存占用约1.5GB。应用支持多种风格，但中文文字生成目前为乱码。Android用户可通过WebGPU网页版体验。

Berryxia.AI: 兄弟们,端侧生图模型又有新东西了! 之前有客户端Drawthing 客户端也是支持iPad 手机进行文生图~ 今天PrismML也来了一个好玩的... 他们发布了1-bit和Ternary版本的Bonsai Image 4B扩散模型。 1-...

图像生成端侧评测/基准

09:19

HuggingFace Daily Papers（社区热门论文）

用于训练GAN的跨尺度对齐监督

现代GAN常被解读为多阶段粗到细生成，但论文指出，标准的分尺度对抗监督并未构建此层级结构：各阶段输出被独立推向真实分布，导致跨阶段输出可能并非同一生成样本，即存在“跨尺度轨迹错位”问题。为此，论文提出跨尺度对齐Transformer (CAT)，在保持鉴别器分尺度评估的同时，于生成器侧引入一致性正则化，将中间输出与最终输出对齐。在条件ImageNet-256上，CAT-H/2仅训练60周期，一步推理FID-50K达到1.56，优于多个单步GAN及扩散/流模型基线。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

BiDPO：基于区域感知双模态直接偏好优化的组合式文本到图像生成

BiDPO是一种旨在增强文本到图像模型组合式生成能力的框架，用于更准确地反映包含属性绑定、对象关系和计数的复杂提示。该框架通过精心设计的流程构建了大规模偏好数据集BiComp，并扩展Diffusion DPO技术，联合优化图像与文本偏好。此外，采用区域级指导方法以聚焦于与组合概念相关的区域。实验结果表明，BiDPO在多个基准测试上显著提升了组合保真度，并持续优于现有方法。

图像生成多模态论文/研究

07:27

Berryxia.AI@berryxia

PrismML发布Bonsai Image 4B极致压缩版本

PrismML发布了Bonsai Image 4B扩散模型的1-bit和Ternary两个极致压缩版本。1-bit版本仅0.93GB，比全精度模型缩小8.3倍；Ternary版本为1.21GB，采用-1、0、+1三元权重。两者在Mac M4 Pro上的生成速度最高可提升5.6倍，且生成质量可与更大模型相媲美。同时，PrismML推出了配套的iOS应用Bonsai Studio，支持在iPhone上完全离线、本地生成图像。

PrismML: Today we're releasing 1-bit and Ternary Bonsai Image 4B. A new family of image-generation models designed to run high-qu...

图像生成模型发布端侧

04:10

Luma@LumaLabsAI

文字已就位。现在让它们无法被滑过。只需放入内容，设定方向。Luma Agents 从此将每份新闻稿转化为可分享的图形。让它可分享 → http://lumalabs.ai/app

智能体产品更新图像生成

02:07

Ars Technica：AI（RSS）

FBI 探员解释识别未经同意发布 AI 色情图像者有多容易

FBI 指出，通过 Instagram 上一个可疑的保存帖子，可以将一名男子与一个 AI 色情账号联系起来。

图像生成政策/监管视频

00:30

向阳乔木@vista8

Chrome新标签页交互设计：专注模式与侧边栏方案

一条关于Chrome新标签页的UI设计推文。其核心创意是增加一个“专注模式”：点击特定图标后，界面切换为番茄钟显示，旨在帮助用户在专注工作时忘记时间流逝。此外，推文提出将“最近访问”、“收藏夹”等非高频功能模块折叠至侧边栏，以减少主界面干扰。该设计想法及原型均由AI模型Codex生成。

OpenAI 其他图像生成

5月26日

22:58

SenseTime@SenseTime_AI

SenseNova-U1全训练代码开源，支持多模态多任务训练

OpenSenseNova开源了SenseNova-U1的完整训练代码库，支持其8B密集模型与A3B MoE架构。该代码库使用一个统一的框架，可同时训练多种多模态任务，包括文本到图像生成、图像编辑、交错生成及文本与视觉理解。工程上为大规模训练设计，支持混合并行、流式可恢复数据管线、环境变量驱动配置以及从1×8 GPUs到多节点集群的扩展能力。代码已在GitHub开源，采用Apache-2.0协议。

图像生成多模态开源/仓库开源生态

关联讨论 1 条

21:31

歸藏(guizang.ai)@op7418

一条关于AI生成小红书图文内容的推文。它展示了一个AI技能，可以使生成的图文呈现3：4比例的杂志般视觉效果。该技能名为"藏师傅的小红书图文排版 Skill"，完全基于HTML和实拍图片生成，因此生成内容不会被平台标注为AI生成。AI能主动从高质量图片网站搜索匹配主题的图片，解决了纯文字排版的单调问题。

歸藏(guizang.ai): 藏师傅的小红书图文排版 Skill 预览完全靠 HTML 和实拍图片,不会被标注 AI AI 会去高质量图片网站帮你寻找对应的主题图片,让你的图文告别只有生硬文字的尴尬情况

图像生成教程/实践

19:31

歸藏(guizang.ai)@op7418

藏师傅推出的小红书图文排版技能，完全依赖HTML和实拍图片，不会被平台标注为AI生成内容。AI能够主动在高质量图片网站寻找与主题匹配的图片，有效解决纯文字排版的生硬感。该技能在旅行、美妆等注重视觉效果的场景中表现突出，倾向于采用低侵入性排版来突出图片本身质量。

图像生成教程/实践

19:00

Alibaba Cloud@alibaba_cloud

看看创作者们用AI为#DiveIntoYourWorld构建了什么 👇🧵

产品更新图像生成

16:31

歸藏(guizang.ai)@op7418

藏师傅预览了其"小红书图文排版 Skill"。该工具完全依靠HTML和实拍图片进行排版，生成内容不会被标注为AI。它能自动访问高质量图片网站，为用户寻找匹配主题的图片。此外，该Skill项目还包括基于PPT Skill一键生成封面，以及基于文档自动生成图文所需3：4组图等能力。

歸藏(guizang.ai): 不吵架了,预告一下下一个 Skill 项目基于 PPT Skill 可以帮你一键生成微信公众号和小红书封面也可以基于文档生成小绿书和小红书图文所需的 3:4 组图会自动处理你的截图素材,自动进行匹配

图像生成大佬观点

14:18

HuggingFace Daily Papers（社区热门论文）

精选75

通过奖励倾斜分布匹配强化少步生成器

本文提出奖励倾斜分布匹配蒸馏（RTDMD），这是一个将分布匹配蒸馏与奖励引导强化学习统一应用于少步流生成器的两阶段框架。该方法通过最小化到奖励倾斜教师分布的KL散度，自然分解为分布匹配项与奖励最大化项。第一阶段引入环境一致分布匹配蒸馏（AC-DMD），在子区间进行分布匹配，并通过一致性正则化辅助分数模型追踪生成器分布。第二阶段联合优化两项，并推导混合策略梯度及步子集GRPO（SubGRPO）以降低方差。在SD3、SD3.5和FLUX.2上的实验表明，RTDMD仅用4步推理即可在偏好、美学和组合指标上达到新的 state-of-the-art。

arXiv 图像生成论文/研究

推荐理由：这篇直接把分布匹配蒸馏和奖励建模拧在一起，在 SD3/3.5/FLUX.2 上用 4 步推理就压了之前所有文生图对齐方法，做图像生成训练和偏好对齐的该看。

12:29

Alibaba Cloud@alibaba_cloud

Picsart联合Qwen推出HappyHorse AI视频创作挑战赛

Picsart与通义千问（Qwen）的AI工具HappyHorse联合推出“Picsart HappyHorse Awards”AI视频创作挑战赛。参赛者需使用Picsart和HappyHorse工具创作时长15秒至5分钟的竖屏（9:16）短视频，并在社交媒体发布后提交。大奖为5,000美元现金或前往HumanX Amsterdam的机会，另有荣誉奖。比赛旨在推动AI电影创作，探索AI创意的边界。赛事时间为5月26日至6月14日，获奖名单将于7月3日公布。

Picsart: Your AI cinema era starts now with the Picsart Happy Horse Awards 🎬🐎 Create a short film using Happy Horse + Picsart a...

图像生成行业动态视频

12:18

HuggingFace Daily Papers（社区热门论文）

通道级向量量化

本文提出通道级向量量化，这是一种新的图像token化范式，用通道级token取代了传统的基于块的token。该方法量化特征图的每个通道，将图像表示为离散的视觉细节层次。基于此，作者提出了采用“下一个通道预测”机制的通道级自回归模型。该模型顺序预测通道，先勾勒全局结构再细化细节。实验表明，CVQ在16K+大小的码本上实现了100%利用率，显著提升了重建质量；CAR模型在文本到图像生成任务中取得了86.7的DPG分数和0.79的GenEval分数。

图像生成论文/研究

10:31

歸藏(guizang.ai)@op7418

藏师傅的小红、小绿书组图生成器 Skill 配合 Codex 太好用了！

藏师傅的小红、小绿书组图生成器 Skill 与 Codex 搭配，用户只需提供拼接图片，它便能自动识别内容并匹配对应页数，无需手动指定。生成结果还会分格标注以确保对齐。该技能可一键生成封面及 3:4 组图，并自动处理截图素材进行匹配。

图像生成教程/实践