6月23日

23:16

Berryxia.AI@berryxia

网友分享一张AI生成图，图中Exo集群的网线、C口、电源线等硬件细节明显错误，暴露了图片是AI所作。引用推文指出，2026年最新炫富方式不再是豪车名表，而是在家部署一个满血GLM5.2模型集群。

Max For AI: 我觉得现在豪车、名表或者什么首饰的炫富方式已经过时了。 2026年的方式是:我在我家部署了一个满血GLM5.2🫡

图像生成教程/实践

23:07

Krea@krea_ai

今天，我们发布了 Krea 2 的开源权重。欢迎 Krea 2 Raw 和 Krea 2 Turbo，一个来自中期训练的未蒸馏模型，旨在用于微调；以及一个快速蒸馏版本，具有广泛的美学多样性。详情如下 👇

图像生成模型发布

21:14

Josh Woodward@joshwoodward

⚽️在@GeminiApp 中将你的球队忠诚转化为定制卡牌、壁画或虚拟毛绒玩具如何创建你的作品： 1）访问 http://gemini.google 或打开应用 2）点击"图片"（侧面板） 3）选择"Get in the game"模板 4）上传你的照片并在此分享你的输出

Google 图像生成教程/实践

19:11

PixVerse@PixVerse_

画面被裁掉一半。再次裁剪不是解决办法。 PixVerse Web 上的 Magic Extend 可以补全缺失的空间--主体保持不变，背景被填充。转推+关注+回复=300Creds 私信（仅 72 小时）

产品更新图像生成视频

15:55

X.PIN@thexpin

字节跳动刚刚推出了一波新模型： 1️⃣ Doubao 2.1 Pro 面向编程。 2️⃣ Seedance 2.5：4K 视频，每段最长 30 秒。将于 7 月上线，同时推出新的 AI 版权商业化平台。 3️⃣ Seedream 5.0 Pro：图像模型，能处理图像中的文本，支持多层编辑，并输出可编辑的分层设计文件。 4️⃣ Seed-Audio 1.0：零样本多模态音频：一次生成多角色对话、背景音乐和音效。

图像生成多模态模型发布视频

15:14

Berryxia.AI@berryxia

字节跳动发布视频模型 Seedance 2.0 升级版及 Seedance 2.5。Seedance 2.5 一次生成 30 秒短片，原生支持 4K 分辨率，支持 50 个全模态参考素材输入和 3D 白模。同时推出 AI 版权商业化平台，允许使用官方授权 IP 进行创作并分成。主推文指出该版本 CG 感大幅减轻，但当前仅限 Demo 展示，正式上线预计在 7 月初。

小互: 字节跳动发布全新视频模型Seedance2.0升级版和 Seedance 2.5 一次生成30秒短片原生支持4K分辨率支持50个全模台参考素材输入支持3D白模同时发布AI版权商业化平台,可以使用官方授权的各种IP电影版权进行创作,分...

图像生成模型发布行业动态视频

13:09

Ethan Mollick@emollick

我知道他们正在转向医疗保健（？！），但Midjourney在制作奇怪且氛围感的图像和短动画方面仍然无与伦比，其他AI图像生成器都无法做到。下面是我用类似提示但风格迥异的提示词制作的一些奇怪城市。

图像生成大佬观点视频

12:13

HuggingFace Daily Papers（社区热门论文）

VESFlow：通过速度编辑实现安全少步生成

流匹配模型成为少步文本到图像生成的主流范式，但现有安全方法难以适应极少采样步数。VESFlow是一种无需训练的安全方法，直接利用流匹配模型学习的边际速度场，通过安全条件后验编辑速度场，将轨迹导向安全输出而不改变提示词。引入基于风险分数的过滤，绕过良性提示的速度编辑以降低计算开销。进一步提出VESFlow+，同时向安全方向编辑并远离不安全方向。实验表明，在4步MeanFlow模型上，VESFlow+将目标概念攻击成功率降至6.3%（Ring-A-Bell）和6.8%（MMA-Diffusion），同时保持良性提示的生成保真度。

图像生成安全/对齐论文/研究

12:10

meng shao@shao__meng

字节跳动发布Seedream 5.0 Pro与Seedance 2.5

字节跳动在火山引擎FORCE 2026原动力大会上官宣发布Seedream 5.0 Pro和Seedance 2.5，分别聚焦图像和视频的理解与生成。在OpenAI Sora关停、Google Veo迟迟不更新的背景下，图像视频生成赛道基本成为中国大厂的竞争阵地，包括字节跳动、阿里巴巴、快手等。

图像生成模型发布视频

12:01

向阳乔木@vista8

火山引擎活动：Seeddance 2.5 与 Seedream 5.0 Pro 更新

火山引擎活动透露，Seeddance 2.5 是全场最受期待的产品，预计 7 月上线，价格尚未公布。同时展示的 Seedream 5.0 Pro 编辑能力提升，支持箭头和高亮区块编辑。

产品更新图像生成

09:44

小互@xiaohu

字节火山引擎大会发布 Seedance2.5、豆包 Seed2.1 等新模型

字节跳动今日在 2026 火山引擎大会上发布 Seedance2.5，同时推出全新豆包 Seed2.1 模型，声称能力达 Opus4.6 水平，以及新款图像模型 Seeddream 5.0。具体参数、性能分数及定价信息尚未公布。

产品更新图像生成多模态视频

08:07

IT之家（RSS）

苹果 iOS 27 引入 AI 扩图功能：生成画面自然，无法保证真实还原

科技媒体 AppleInsider 报道苹果在 iOS 27 照片应用中引入基于 Apple 智能的 Extend 扩图工具。测试显示：小猫照片补充了窗帘、枯植物等元素，效果自然；夜景图片生成的路桩、立杆大体合理，但路牌背面形状略异常；罗马 Apple Store 楼梯照片补出台阶和玻璃，视觉合理但现实中不存在；罗马机场照片出现悬浮卡车。苹果表示 AI 扩图生成的画面无法保证真实还原。

图像生成端侧评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

Tailor-Bench：修剪视觉世界建模评估的长尾

Tailor-Bench评估视觉世界模型模拟非常规物理交互的能力，设计三种渐进难度场景：常规（常见工具-任务组合）、非常规（属性兼容替代品）、不可能（违反属性工具）。在统一协议下，预测生成与描述生成分别测试无引导推理与忠实实现。实验表明模型性能从常规到非常规再到不可能逐步退化，暴露物理建模的长尾差距。失败分析显示图像模型无法实现正确状态变化，视频模型还有时间不一致，说明模型依赖表面视觉模式而非内化物理原理。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

IV-CoT：面向结构感知文本到图像生成的隐式视觉思维链

统一多模态大语言模型在文本到图像生成中难以准确遵循物体计数、空间关系等结构感知提示。IV-CoT提出隐式视觉思维链框架，将视觉条件查询分解为结构查询与语义查询的级联：结构查询先形成潜在视觉计划，语义查询再基于该计划渲染外观。训练时引入草图监督引导结构查询捕获结构信息，推理时无需草图或中间解码，单次前向传播完成隐式推理。在GenEval和T2I-CompBench上取得更优结果。

图像生成多模态推理论文/研究

04:03

The Verge：AI（RSS）

AI用不可能的家欺骗租户

生成式AI让房地产经纪人一键虚拟装修房源照片，导致租户看房时发现现实与图片严重不符。纽约租户Joyce看到带有壁炉、厨房翻新的曼哈顿工作室，实地却发现没有壁炉，炉灶缺旋钮。另一位租户Madison在StreetEasy上看到大量AI增强图片，家具细节明显不真实。佛罗里达州经纪人Bee使用ChatGPT和Stuccco、BoxBrownie等工具为客户演示装修方案，但认为用AI制造虚假房源会引发诉讼。纽约州已立法要求广告披露AI使用，加州《修改图像法》进一步要求房产广告披露AI修改的图像。租户表示连房源描述也显AI痕迹，充斥着“迷人”“温馨”等套话。

图像生成现象/趋势

02:08

AYi@AYi_AInotes

用户通过Claude Fable 5总结出AI生成性感人像提示词的8种有效写法：用"成人+气质+材质"定人设；用"服装剪裁+面料质感"替代直白身体描述；用"表情瞬间"制造吸引力；用"镜头语言"强化质感；用"光线"塑造皮肤轮廓；用"背景虚化+前景留白"凸显主体；用"克制的性感"而非夸张；用强负面词避免跑偏。此外还需使用干净住宅IP以避免风控拒绝。

AYi: 跟大家分享下绝版的Claude Fable 5总结的AI生图焚决,+2个顶级美女人像提示词,这篇至少值3000块! 昨晚睡前让Fable 5总结了AI生图之性感人像提示词最有效的写法: 1️⃣用"成人 + 气质 + 材质"来定人设,比如 2...

图像生成教程/实践

01:41

Hacker News 热门（buzzing.cc 中文翻译）

Moebius：0.22B参数轻量级图像修复框架，性能媲美百亿级模型

Moebius是一个仅0.22B参数的轻量级图像修复框架。其核心是Local-λ Mix Interaction（LλMI）模块，将空间上下文与全局语义先验压缩为固定大小线性矩阵，大幅减少参数。结合自适应多粒度蒸馏策略，在隐空间中从教师模型迁移表征能力，动态平衡多层级梯度损失。在Places2、CelebA-HQ、FFHQ等6个自然场景和人像基准上，Moebius的生成质量与11.9B参数的FLUX.1-Fill-Dev持平甚至超越，参数量不足其2%，总推理速度提升超过15倍。

arXiv 图像生成论文/研究

6月22日

23:42

SenseTime@SenseTime_AI

商汤SenseTime感谢YouTuber xCreate拆解SenseNova U1，展示文本-图像推理与信息图表生成能力

商汤SenseTime发布推文，感谢YouTuber xCreate对SenseNova U1模型的详细拆解，重点展示其文本-图像交错推理（text-image interleaved reasoning）和信息图表（infographic）生成能力。推文附有逐步指南，指导用户通过SenseNova Studio在线使用或本地运行模型。相关资源包括YouTube视频、HuggingFace模型集合、GitHub仓库及Discord社区链接。

GitHub Hugging Face 图像生成多模态

21:26

Chubby♨️@kimmonismus

Sonnet 5 首次亮相。模型速度极快，且未使用参考图。看来下周会很忙。Kim 评论称，若测试确认，这将是一次很棒的发版。

Jayden Davis: BREAKING: First Look at Sonnet 5 🚨 SVG of Nintendo Switch 2 This model is hella fast and it is impressive since I didn'...

Anthropic 图像生成多模态模型发布

21:07

PixVerse@PixVerse_

云上的城市。一个谎言让它悬浮在空中。 Skyforged - PixVerse Originals S1。由 @VladyWir 及其团队在阿姆斯特丹、芝加哥和基辅共同打造，PixVerse 全程保持整个蒸汽朋克世界的一致性。转发+关注+回复"Skyforged" = 150 Credits 及完整影片私信发送（仅限 72 小时）

图像生成行业动态视频

19:30

公众号：卡尔的AI沃茨

字节小云雀短剧 Agent 2.0 上线：Seedance 2.0 Mini 模型降价，新增720度场景与3D导演台

字节旗下小云雀短剧 Agent 2.0 上线，核心升级包括 Seedance 2.0 Mini 模型（价格更低）及 720 度场景观看、3D 导演台（可摆放 3D 人偶设定角色位置与机位）等功能。资产库根据剧本生成详细提示语，支持多角色形象切换。单个镜头时长 1-10 秒，生成 15 秒视频约需 4-5 分钟，自带字幕可抹除。用户可用约三百元成本完成一集短剧，支持片段续接和首尾帧参考，最终一键导出到剪映。该工具旨在降低原创短剧制作门槛，尤其适合规则类、多场景反转等题材。

图像生成教程/实践视频

16:11

Berryxia.AI@berryxia

CuiMao用seedance2和Grok Imagine Video 1.5制作Fable 5谍战短片

CuiMao使用seedance2与Grok Imagine Video 1.5制作了一部7分钟谍战短片，讲述Fable 5发布后24小时内的虚构事件：Anthropic CEO Dario突然失联，美国国防部长Pete亲自审讯，正在美国度假看世界杯的CuiMao收到神秘取件短信，内含验证码、太阳花与自毁录音。短片将近期真实出口管制事件包装成完整剧情，结尾暗示封杀背后更深原因。近日CuiMao为扩大影响力，追加了日语字幕版本。

CuiMao: Fable 5发布后的24小时内,Anthropic CEO Dario突然失联,美国国防部长Pete亲自审讯。与此同时,在美国度假观看世界杯的 CuiMao收到一条来自Dario的神秘取件短信。一个验证码,一朵太阳花,一段即将自毁的录音,...

其他图像生成视频

14:06

AYi@AYi_AInotes

GLM-5.2 母公司智谱股价半年涨约16倍，因测评对比改变默认选项

智谱年初上市，股价从约131.50 HKD涨至约2,094 HKD，YTD涨幅约1,492%。背后由GLM-5.2与Fable 5测评对比驱动：同一任务下GLM-5.2效果达Fable 5九成，但价格不到$0.10（Fable 5约$5），价差五十倍。该对比改变了设计探索默认选项——当开源模型做到“够好且便宜到可以随便用”，用户优先选择低成本方案。GLM-5.2此次正好踩上这条线。

AYi: 难怪今天智谱股票突突突疯长26%, 刚刷到一个GLM-5.2和Fable 5的测评, 同一个任务,同一句 prompt,同一张参考图, Fable 5 确实更精致,间距、质感、整体完成度, 一眼就能看出差距, 但 GLM-5.2 做出来的东...

图像生成大佬观点开源生态

09:04

IT之家（RSS）

CDPR 联合 CEO 诺瓦科夫斯基：纯 AI 生成的游戏即将问世，但并非行业发展正道

CD Projekt Red 联合 CEO 米哈乌·诺瓦科夫斯基透露，完全由 AI 生成的游戏即将问世。他接触的多家 AI 工作室能快速批量产出游戏，有工作室自称一周内可做 40 个游戏原型甚至完成一整部游戏，其中一款成品很快上线。诺瓦科夫斯基认为，这类纯 AI 游戏即便质量尚可，也无法复刻人工开发的独特感染力，且玩家能轻易识别 AI 素材带来的违和感。AI 辅助开发可以接受，但纯 AI 制作并非行业发展正道。

图像生成大佬观点

08:00

HuggingFace Daily Papers（社区热门论文）

语义浏览：图像生成的可控多样性

现有文本到图像模型虽保真度高，但生成样本单一。现有多样性方法往往产生偶然变化而非有意义的设计选择。本文提出可控多样性方法“语义浏览”，让用户沿可解释变化轴系统遍历结构化图像画廊。核心思路是将语义决策与像素生成分离，直接在文本层面诱导多样性：利用视觉语言模型（VLM）操作完整场景上下文，并通过智能体工作流强制执行与原始提示一致的结构化变化。该方法生成多样且可导航的设计空间，每种变化对应一个可理解的语义决策。

图像生成多模态论文/研究

03:02

fofr@fofrAI

Nano Banana Pro： > 一张照片，但其中某个（本该正常存在的）物体变得过大（而其他一切正常），场景逼真。

图像生成教程/实践

00:09

Berryxia.AI@berryxia

博主转发开源乔木icon Skill，支持两种方案：1）调用Imagen参考数百图标生成；2）搜索2万SVG图标叠加纯色/渐变背景。适用于App或网页快速设计图标，精细打磨仍需设计师。安装命令：`npx skills add joeseesun/qiaomu-icon-generator`。

向阳乔木: 不求设计师!Codex一句话生成App图标,加快项目开发速度。开源乔木icon设计Skill,支持两种方案: 1. Codex内调用Imagen生图能力,参考小耳@xiaoerzhan收集的几百个图标参考生成。 2. 支持搜索 2w SV...

GitHub 图像生成开源/仓库编码

6月21日

22:09

Berryxia.AI@berryxia

开发者用AI编程打造"抓真实猫"的Pokemon Go式App

一位开发者花几个周末用AI辅助编程制作了一款类似Pokemon Go的App，但抓的是真实世界的猫。用户打开摄像头拍路边猫，App会检测照片中是否有真实的猫（防止截屏），然后将猫转化为复古卡通风格插画（奶油色调、粗轮廓），并添加到玩家的图鉴中。每只猫拥有名字、稀有度、等级、状态页和收藏卡，世界地图还能显示附近其他玩家抓到的猫。该App无融资、无团队、无市场预算，利用“全球六亿只流浪猫”这一普遍事实，让玩家不再错过路边的猫。

Om Patel: SOMEONE VIBE CODED POKEMON GO BUT FOR CATS YOU MEET IN REAL LIFE see a cat, open the camera, snap it, and it gets added ...

产品更新图像生成编码

13:00

公众号：腾讯元宝

精选64

腾讯元宝父亲节活动：上传照片生成与年轻爸爸的合影

腾讯元宝推出父亲节主题活动，用户可选择爸爸年轻时照片与自己的照片，输入提示词（如“帮我生成一张和爸爸的合影，将图2的我融合到图1爸爸的照片中，我想穿越回__年前，和他一起_____；保留爸爸照片的背景、动作及五官；人物姿态自然协调，整体光线与色调保持一致”），元宝即可生成合影。活动旨在让用户“回到过去”看到爸爸的青春模样。

图像生成教程/实践

推荐理由：元宝的父亲节营销，但合影生成指令写得具体可复现，比普通AI写真教程更接地气，父亲节想整活的可以直接抄作业。

12:35

向阳乔木@vista8

开源乔木icon Skill：Codex一句话生成App图标

Vista分享开源乔木icon设计Skill，支持Codex内一句话生成App/网页图标。两种方案：1）调用Imagen生图，参考数百图标示例；2）搜索2万SVG图标，搭配纯色或渐变背景。适用于快速原型开发，精细设计仍需设计师。安装命令：npx skills add joeseesun/qiaomu-icon-generator。

MCP/工具图像生成开源/仓库

10:08

Berryxia.AI@berryxia

钟二信开源Cowart：Codex无限画布插件

钟二信发布了开源插件Cowart，结合Codex与无限画布工具，让用户直接在画布上用自然语言标注、修改图片。该过程比传统AI图片处理（发prompt、等生成、再迭代）更直观，也更容易留痕。插件还支持更自由地使用GPT Image 2。Cowart名字来自“Code with Art”。插件已开源至GitHub。

钟二信: Cowart:Codex + 无限画布工具插件开源,大家可以来试试啦,这个插件先取名叫 Cowart,别问为什么叫这个,我只能说 Code with Art 这种冠冕堂皇的理由:https://github.com/zhongerxin/c...

OpenAI 图像生成开源/仓库

07:32

🚨 AI News | TestingCatalog@testingcatalog

错过提醒 👀：用户现在可以在Grok上搜索@imagine图片和视频了！它就像一个正常的图片搜索，但仅限于你创建的Imagine内容。我希望最终能在所有已发布的Grok图片上实现这个功能--那将非常棒！

xAI 产品更新图像生成搜索

02:03

AYi@AYi_AInotes

GLM-5.2 与 Fable 5 测评：五十分之一价格实现九成效果，开源模型跨过"够好且便宜"线

同一任务、同一 prompt、同一参考图下，GLM-5.2（价格 <$0.10）效果接近 Fable 5（约 $5）的九成，价格仅为后者五十分之一。作为最强开源模型，GLM-5.2 体积从 1.5TB 压缩 84% 至 238GB，可在 256GB Mac 本地运行，保留 82% 能力。当开源模型跨过“够好且便宜到随便用”的线，设计探索第一步的默认选项可能从 Fable 转向 GLM-5.2。

AYi: 把 1.5TB 的模型剁掉 84% 的体积,塞进本地跑,还剩 82% 的功力, 这就是GLM-5.2,最强开源模型, 现在缩骨到了 238GB,256GB 的 Mac 或者同档 RAM/VRAM 的机器就能带起来了技术博客:http://...

图像生成开源生态现象/趋势

01:38

The Decoder：AI News（RSS）

欧洲零售协会要求欧盟豁免非欺骗性AI广告的"深度伪造"标注义务

欧洲零售协会Eurocommerce（成员包括Amazon、H&M、Inditex、Ikea）致信欧盟科技专员Henna Virkkunen，要求对非欺骗性AI生成广告图像豁免EU AI Act的透明度标签要求。该法律将于8月2日生效，要求所有符合“deepfake”定义的AI生成内容明确标注。Eurocommerce认为AI生成的沙发展示图不属于deepfake，强制标注将冲淡警示价值。Zalando称其平台90%营销内容由AI生成，H&M和Zara已启用AI模特。业界指出“deepfake”一词源于非法色情与欺诈语境，当前定义过于宽泛。欧盟委员会尚未回应。

图像生成政策/监管行业动态

6月20日

23:03

Berryxia.AI@berryxia

GLM-5.2 已达到 Opus 4.6 水平。主推文称"搞的差不多了，过2天就给大家开源玩玩"。

Berryxia.AI: GLM-5.2 这次真的有Opus 4.6 的水平了,牛逼~~

图像生成开源/仓库

23:00

IT之家（RSS）

《幻兽帕鲁》发行主管：我们没必要使用生成式 AI，因为玩家不想要

《幻兽帕鲁》开发商 Pocketpair 发行与传播负责人约翰·伯克利表示，玩家对生成式 AI 的反感是游戏公司不使用它的充分理由。伯克利确认 Pocketpair 完全没有使用生成式 AI，并称内部有足够多的美术人员愿意亲自完成工作，让 AI 接手而裁掉他们没有意义。他还指出，Steam 已开始在一定程度上限制生成式 AI，未来开发者可能需主动声明游戏“100% 由人类制作”。

图像生成大佬观点

22:27

向阳乔木@vista8

Codex 利用其内置浏览器读取能力，无需调用 API 即可直接使用内置的 Imagen 模型进行图像生成。配合画布工具，实现了更直觉、保留修改痕迹的图片标注与调整方式。此外，直接使用 Codex 还能自由调用 GPT Image 2 完成图像生成任务。

钟二信: Codex + 画布工具,以及尝试一种更直觉、更留痕的图片标注修改方式。直接用 Codex 的好处是 GPT Image 2 也基本可以自由干。

MCP/工具图像生成教程/实践

22:27

向阳乔木@vista8

一个很常见的细节问题，AI生成的HTML标题的line-height太紧了。只要换行就变的很丑。问题虽小，但很影响观感，不知道有多少朋友注意到了。

图像生成教程/实践

17:01

AYi@AYi_AInotes

手工钩织玩偶治愈风提示词分享

分享了一个治愈风提示词，用于生成手工钩织玩偶形象（如 @elonmusk 等）。提示词描述：一只手工钩织的[主体]玩偶，柔软毛线材质，编织纹理细腻，身穿鲜艳主色调搭配精致辅色服饰，手中握着小道具，置于温馨场景中，氛围温暖柔和，充满手工质感与怀旧阿米古鲁米风格。@dotey 评论称该提示词挺酷，针织玩偶效果佳。

宝玉: 这个提示词挺酷,针织玩偶

图像生成教程/实践

16:01

歸藏(guizang.ai)@op7418

Nano Banana超分GPT-Image-2.0图片去毛躁

GPT-Image-2.0生成的图片常出现毛躁、破碎纹路等观感问题，容易被识别为AI生成。使用Nano Banana超分放大工具可去除杂乱无意义的细节，增加有意义的细节，同时让文字和边缘更锐利清晰。对比图显示左边为GPT原图，右边为Nano Banana处理后效果。推荐提示词："帮我将这张图片重绘和清晰化，让他细节更丰富，同时去掉原图中杂乱不必要的细节"。

图像生成教程/实践