AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「图像生成」清除
6月4日周四
22:53Krea73同事件精选Krea 2 Turbo:2秒生成高质量图像同一事件,精选展示《Krea 2图像模型现已登陆ComfyUI》
22:46SenseTime69同事件精选SenseNova U1 开源统一模型:原生图文生成同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
22:46Runway81同事件精选Runway Aleph 2.0 精准局部编辑轻松实现同一事件,精选展示《Aleph 2.0 与 Edit Studio》
20:48The Verge:AI(RSS)58社交媒体平台应允许用户过滤AI生成内容
19:32fofr54Reve 2 早期测试:同日两款新图像模型
19:02fofr61fofr推荐负面提示词"no embellishments"
16:18The Decoder:AI News(RSS)55xAI 更新 Grok Imagine 至 1.5,新增 720p 图像转视频生成
14:11IT之家(RSS)75Ideogram 4.0 开源文生图模型发布
12:11IT之家(RSS)60英国工党议员起诉马斯克旗下xAI:Grok生成其色情深度伪造图像
11:39swyx44Reve 2.0 发布:用代码中间表示实现可控图像生成
11:21AK62dMoE:带可学习块专家的dLLM
11:00歸藏(guizang.ai)61Reve 2.0 图像模型:原生4K输出与分层编辑能力
11:00公众号:火山引擎48中国美术学院×火山引擎:高质量数据集赋能普通人专业作画
10:51AK46生成器自举:流匹配非配对视觉编辑
10:42HuggingFace Daily Papers(社区热门论文)63MeshWeaver:稀疏体素引导的自回归网格生成框架
10:29DogeDesigner39Grok Imagine 1.5 视频质量惊艳
09:40小互73Ideogram 4.0 开源:边界框控制+多语言文字渲染
09:06Elon Musk72同事件精选Grok Imagine视频生成上线Vercel同一事件,精选展示《xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)》
08:39宝玉54Claude Design 用 SVG 设计 Icon 体验
08:00HuggingFace Daily Papers(社区热门论文)47结构化缺陷定位:面向文本到图像反馈的诊断与对齐框架
08:00HuggingFace Daily Papers(社区热门论文)50DIRECT:通过分解视觉代理实现直接3D感知物体插入
05:57🚨 AI News | TestingCatalog53Reve 2.0 发布,登顶文生图排行榜第二
04:31fofr61Ideogram v4 开放权重,图像清晰出色
03:31fofr69Ideogram v4开源权重,图像清晰出色
02:58DogeDesigner78Grok Imagine 1.5 预览版发布
02:47The Decoder:AI News(RSS)66Ideogram 4.0 发布:开放权重模型,原生2K分辨率与改进文本渲染
02:16AYi70Ideogram 4.0 开源图像模型仅次于前两名
01:49Krea74精选Ideogram v4.0 发布:2K 分辨率和 JSON 提示支持
00:55🚨 AI News | TestingCatalog74Ideogram 4.0 发布,开源图像生成新 SOTA
00:16The Verge:AI(RSS)46Amazon 搜索栏将用 AI 生成你无法购买的商品
00:15TechCrunch:AI(RSS)31亚马逊将在搜索结果中展示AI生成的产品图片
00:10IT之家(RSS)23拼好饭上"岛"、窥屏保护实装:荣耀 Magic8 系列 MagicOS 10.0.0.160 开推
6月3日周三
23:01fofr18AI编辑指令:修改屏幕为FaceTime通话
22:42HuggingFace Daily Papers(社区热门论文)60ByG:无需配对数据的流匹配图像/视频编辑框架
22:39SenseTime73同事件精选商汤开源SenseNova U1:视觉理解推理生成一体模型同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
22:27DogeDesigner49Grok Imagine:手机照片秒变专业广告
21:31fofr55修改屏幕显示FaceTime通话
19:16The Decoder:AI News(RSS)71Build 2026:Microsoft 在图像生成上超越 Google,在推理上仍追赶
14:05宝玉72GPT Image Gen V2 生成效果惊人:以假乱真的短视频截图
13:39Alibaba Cloud47Picsart视频产品负责人谈Wan模型影响
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月4日
22:53
Krea@krea_ai
同事件精选73
推出 Krea 2 Turbo。 仅需2秒即可生成高质量图像;兼容风格参考、情绪板和 LoRA。 在 krea . ai 免费试用。
产品更新图像生成
同一事件,精选展示《Krea 2图像模型现已登陆ComfyUI》
推荐理由:2秒出图不算新概念,但Krea 2 Turbo把风格参考和LoRA都揉进实时生成里,做设计的可以试试能不能省掉Midjourney的等待时间。
22:46
SenseTime@SenseTime_AI
同事件精选69
SenseNova U1 开源统一模型:原生图文生成

商汤 SenseTime 推出 SenseNova U1 开源多模态模型,实现原生理解与生成文本和图像,可一键将提示词转化为专业信息图。该模型被开发者 @gurru_tech 评价为“非常令人印象深刻”。项目已开源,提供 SenseNova Studio 在线试用,并公开 HuggingFace 模型集合、GitHub 源码仓库及 Discord 社区入口。

图像生成多模态开源生态模型发布
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
推荐理由:商汤这回把图文统一模型开源了,SenseNova U1的infographic功能比市面上大多数文生图工具更懂文字和布局,做内容的朋友可以上手试试。
22:46
Runway@runwayml
同事件精选81
你需要的编辑,变得简单。Aleph 2.0 只更改你想要编辑的部分,保持画面的其余部分不变。在我们的新 Edit Studio 中试试。 通过下方链接开始使用。
产品更新图像生成视频
同一事件,精选展示《Aleph 2.0 与 Edit Studio》
推荐理由:Runway 终于把 AI 视频编辑的精度问题解决了,Aleph 2.0 只改你选定的部分,其余画面纹丝不动,做视频的可以立刻去 Edit Studio 试试手。
20:48
The Verge:AI(RSS)
58
社交媒体平台应允许用户过滤AI生成内容

YouTube、Instagram、TikTok等平台过去一年已陆续采用自动标签区分AI生成的图像、视频和音乐,但用户仍无法主动过滤这些内容。目前的标签机制并未改变内容的呈现方式,用户依然被迫接触大量AI垃圾内容。文章呼吁平台提供过滤选项,让用户自行屏蔽AI生成内容。

GoogleMeta图像生成现象/趋势
19:32
fofr@fofrAI
54
这是 Reve 2 的一些早期测试,提示词为: > an amateur photo of fantastical realism 同日两款优秀的全新图像模型。真是享受。

Reve: Today, we're launching Reve 2.0, the best 4K image model in the world. We invented a new way to generate and edit any im...

产品更新图像生成
19:02
fofr@fofrAI
61
我的最新常用负面提示词: "no embellishments" 当模型试图以你不喜欢的方式发挥创意时使用。
图像生成教程/实践
16:18
The Decoder:AI News(RSS)
55
xAI 更新 Grok Imagine 至 1.5,新增 720p 图像转视频生成

xAI 发布 grok-imagine-video-1.5-preview 图像转视频模型,能将静态图片转换为最高 720p 分辨率的影视级视频,支持文本提示控制,多个片段可拼接为更长的场景。

xAI图像生成模型发布视频
14:11
IT之家(RSS)
75
Ideogram 4.0 开源文生图模型发布

Ideogram 6月3日发布开源文生图模型 Ideogram 4.0,核心规模 9.3B 参数,采用单流架构,文本 tokens 与图像 tokens 共享自注意力序列。模型使用 Qwen3-VL-8B-Instruct 文本编码器、34 层单流 DiT、Euler 流匹配采样器及冻结 KL 自动编码器。擅长文字绘制,能准确呈现较长文本;通过对象和文本边界框训练,配合结构化 JSON 字幕数据,支持用提示词指定版式和布局。在 DesignArena 人类评价排名中位列全球第 4。

图像生成开源生态模型发布
12:11
IT之家(RSS)
60
英国工党议员起诉马斯克旗下xAI:Grok生成其色情深度伪造图像

英国工党议员杰丝·阿萨托起诉xAI,称Grok AI平台被用于制作她的色情深度伪造图像。阿萨托声明指出,Grok生成的深度伪造色情内容侵害数千名妇女与未成年人权益,该功能是产品研发方刻意的设计选择。xAI虽于1月中旬限制相关功能,但路透社2月核查发现用户输入指令后Grok仍能生成涉黄伪造人像。阿萨托已向英国高等法院递交诉状,指控违反数据保护法规及滥用隐私,要求赔偿、承认违法并申请禁令。此前美国巴尔的摩市也在3月起诉xAI。

xAI图像生成安全/对齐
11:39
swyx@swyx
44
引用推文高度评价 Reve 2.0 发布文案。Reve 2.0 的核心理念:可控图像生成与编辑的关键不是更密集的提示词,而是以代码形式呈现的高度详细、可操作的中间表示。指出当前图像生成模型通过渐进退化惩罚迭代,而创造力本质上不是一次性工作流。引用 Alan Kay "做软件应自造硬件" 类比,Reve 认为真正严肃的创意工具公司应训练自己的模型。

Hasan: wow this @reve 2.0 launch copy is supurb. "it is now clear that the key to both controllable image generation and editin...

图像生成大佬观点
11:21
AK@_akhaliq
62
dMoE 具有可学习块专家的dLLM
图像生成数据/训练论文/研究
11:00
歸藏(guizang.ai)@op7418
61
Reve 2.0 图像模型:原生4K输出与分层编辑能力

Reve 2.0 图像模型支持原生4K输出,核心亮点在于类似 Photoshop 的图像分层编辑能力。用户点击图像中的任意部分即可选中该区域,无需复杂的中间处理步骤,直接进行针对性编辑。该功能大幅简化了图像局部修改的工作流。

图像生成模型发布
11:00
公众号:火山引擎
48
中国美术学院×火山引擎:高质量数据集赋能普通人专业作画

中国美术学院与火山引擎联合开发「中国画创作平台」,通过6个月数据治理,将约3000张国画梳理为7维度结构化标签数据集,一次性标注通过率约95%。采用模型后训练技术,将国画鉴赏逻辑、创作理论注入豆包大模型和Seedream图像创作模型,封装为低门槛智能体。用户通过基础生成、修改调整、氛围添加三步操作,几分钟即可完成国画创作。智能体支持文生图、图生图,可集成至小程序、交互大屏,应用于教学、文创开发等场景。

产品更新图像生成多模态
10:51
AK@_akhaliq
46
自举你的生成器 非配对视觉编辑与流匹配
图像生成论文/研究
10:42
HuggingFace Daily Papers(社区热门论文)
63
MeshWeaver:稀疏体素引导的自回归网格生成框架

MeshWeaver提出一种自回归网格生成框架,将网格生成视为表面编织过程,直接预测下一个顶点而非独立坐标。其核心是多级稀疏体素编码器,通过三种方式注入几何上下文:体素特征作为顶点表示、交叉注意力引导token预测、以及作为结构骨架约束生成。层次化设计可在单解码步骤中实现从粗到细的顶点预测。实验表明,MeshWeaver达到18%的压缩比(SOTA),可生成最多16K面网格,并在几何保真度上显著超越此前方法。

图像生成论文/研究
10:29
DogeDesigner@cb_doge
39
Grok Imagine 1.5 视频质量确实令人印象深刻。🔥
xAI图像生成大佬观点视频
09:40
小互@xiaohu
73
Ideogram 4.0 开源:边界框控制+多语言文字渲染

Ideogram 发布首个开源 AI 图像模型 Ideogram 4.0,主推文字渲染与版面控制。模型引入 bounding box(边界框)控制,允许用坐标精确指定元素位置;支持结构化 JSON 提示词格式,不再仅限纯文本;英文 OCR 准确率达 0.97(X-Omni 基准),支持跨语言密集文字渲染,涵盖中日韩等非拉丁文字。

图像生成开源生态模型发布
09:06
Elon Musk@elonmusk
同事件精选72
Vercel 的 AI Gateway 上现已推出 Grok Imagine Video 1.5。该服务支持图生视频并同步音频,一次性完成。示例代码: `await generateVideo({ model: 'xai/grok-imagine-video-1.5-preview', prompt: 'a rabbit sprinting through nyc' });`

Vercel Developers: Grok Imagine Video 1.5 on AI Gateway. Image-to-video generation with synced audio in one pass. await generateVideo({ mod...

xAI图像生成模型发布视频
同一事件,精选展示《xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)》
推荐理由:Grok Imagine Video 1.5 把同步音频塞进了图生视频,一条 prompt 直接出带声短片,做短视频和创意的可以换上这条流水线了。
08:39
宝玉@dotey
54
让 Claude Design 设计个 Icon,用 SVG 给我直接画,看着还行,好歹是矢量的。
Anthropic图像生成教程/实践
08:00
HuggingFace Daily Papers(社区热门论文)
47
结构化缺陷定位:面向文本到图像反馈的诊断与对齐框架

本文提出结构化缺陷定位(SDG),将文本到图像(T2I)模型缺陷诊断建模为结构化集预测,每个缺陷表示为(位置、类型、原因、重要性)元组。构建了SDG-30K数据集(30K图像,来自四种T2I生成器,含框级标注)和评估协议SDG-Eval。在此基础上提出诊断到对齐框架:以视觉语言模型为SDG检测器,BoxFlow-GRPO将预测缺陷集转化为框导出、重要性加权的空间奖励,用于扩散模型对齐。实验表明,SDG检测器在结构化缺陷定位上超越领先专有VLM,SDG引导的奖励持续提升T2I对齐并支持局部图像细化。

图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
DIRECT:通过分解视觉代理实现直接3D感知物体插入

提出DIRECT框架,实现姿态可控的物体插入。该方法将插入条件分解为三个互补组件:参考物体外观引导、用户调整的3D代理几何引导、目标背景上下文引导,通过分开注入避免特征纠缠,同时保留参考外观、遵循指定姿态并适配场景。还引入自动化数据构建管道提升训练数据多样性与质量。实验表明,DIRECT在几何可控性和视觉质量上均优于此前方法。

arXiv图像生成论文/研究
05:57
🚨 AI News | TestingCatalog@testingcatalog
53
新模型 Reve 2.0 上线,在 Text-to-Image 竞技场中排名第二,超越 Nano Banana 2 和 GPT-Image-1.5。该模型采用全新图像生成与编辑方式,利用精确布局实现可交互的图像创作:图像被表示为代码,每个区域均可寻址、编辑和操控;图像被自动分割并标注,用户可对每一元素进行精细化控制。

Reve: Our independent research lab ranks top 2 on @arena Text-to-Image, ahead of Nano Banana 2 and GPT-Image-1.5.

图像生成模型发布
04:31
fofr@fofrAI
61
Ideogram v4 表现出色,开放权重。图像清晰,感觉焕然一新。

fofr: Ideogram v4 is really good, and open weights. Images are crisp and feel fresh.

图像生成开源生态模型发布
03:31
fofr@fofrAI
69
Ideogram v4 真的很好,而且开源权重。图像清新锐利,令人耳目一新。

Ideogram: Introducing Ideogram 4.0: the best open image model in the world. Think it. Make it. Own it. Download the weights, fine-...

图像生成多模态开源/仓库模型发布
02:58
DogeDesigner@cb_doge
78
Grok Imagine 1.5 预览版已发布,即日起可在 API 中体验。SpaceXAI 正在发力。

Grok: Grok @Imagine 1.5 Preview is here Try it today in the API: http://x.ai/api/imagine

xAI图像生成模型发布
关联讨论 3 条xAI:News(网页)X:Elon Musk (@elonmusk, xAI)X:阿易 AI Notes (@AYi_AInotes)
02:47
The Decoder:AI News(RSS)
66
Ideogram 4.0 发布:开放权重模型,原生2K分辨率与改进文本渲染

Ideogram 发布 4.0 版本文本到图像模型,采用开放权重,支持原生2K分辨率、边界框控制和改进的文本渲染。在 DesignArena 排行榜上,该模型位列所有开放模型之首;仅 OpenAI 和 Google 的闭源系统得分更高。商业使用需购买付费许可证。

图像生成开源生态模型发布
02:16
AYi@AYi_AInotes
70
世界最好的开源图像模型, 仅次于GPT-image-2和Nanobanana2

Ideogram: Introducing Ideogram 4.0: the best open image model in the world. Think it. Make it. Own it. Download the weights, fine-...

图像生成开源生态模型发布
01:49
Krea@krea_ai
精选74
介绍 Ideogram v4.0。 原生 2K 分辨率,出色的文字渲染,支持 JSON 提示词。 立即在 Krea 中体验。
图像生成模型发布

推荐理由:图像生成模型的军备竞赛又添一员,Ideogram v4.0的2k原生分辨率和JSON prompt对接工作流,做设计生成的同学可以直接上手试试。
00:55
🚨 AI News | TestingCatalog@testingcatalog
74
Ideogram 4.0 开源图像生成模型发布,在 LM Arena 文生图类别排名第 8,Design Arena 第 5,评分 1204,成为该领域排名最高的开放模型,性能接近 Nano Banana Pro。主要特性包括密集准确的文本渲染、原生 2K 分辨率、活动背景透明度及精确布局控制。

Arena.ai: New open model Ideogram-4.0-Quality has landed at #8 in the Text-to-Image Arena. This makes the new model by @ideogram_a...

图像生成开源生态模型发布
00:16
The Verge:AI(RSS)
46
Amazon 搜索栏将用 AI 生成你无法购买的商品

Amazon 更新了应用内搜索功能。用户输入衣物或家居用品的描述后,搜索栏会直接显示 AI 生成的对应商品图像,但这些图像对应的产品是虚构的,无法直接购买。用户点击最匹配的 AI 图像后,系统会搜索外观相似的真实商品。该功能旨在帮助记不清纹理或风格名称(如“荡领”)的用户进行更直观的搜索。

产品更新图像生成
00:15
TechCrunch:AI(RSS)
31
亚马逊将在搜索结果中展示AI生成的产品图片

亚马逊将利用视觉搜索与AI技术,在用户搜索时生成并展示匹配查询的AI产品图片。该零售商表示,此举旨在帮助引导用户找到对应商品。

产品更新图像生成搜索
00:10
IT之家(RSS)
23
拼好饭上"岛"、窥屏保护实装:荣耀 Magic8 系列 MagicOS 10.0.0.160 开推

荣耀 Magic8 系列手机今日推送 MagicOS 10.0.0.160 版本升级,系统包约 11.11GB。新版本上线 YOYO AI 创作、AI 窥屏防护(智能识别窥视并触发遮挡)和虚拟权限(应用访问通话记录/联系人/日程仅返回空白)。灵动胶囊新增支持淘宝闪购买药、百度地图驾车导航、大众点评排号及美团拼好饭。桌面新增装饰卡片和闹钟卡片,锁屏小组件新增笔记与录音机,安全输入键盘支持挖孔区避让与圆角适配。离焦视力舒缓新增运动舒缓模式。系统优化相机拍摄、功耗与稳定性,合入安卓 2026 年 5 月安全补丁。

产品更新图像生成
6月3日
23:01
fofr@fofrAI
18
用户指令要求修改屏幕,使其显示为正在打FaceTime电话。主推文感叹:被困在潜在空间中的那种感觉。

fofr: > Change the screen so it shows that she's on a facetime call

图像生成教程/实践
22:42
HuggingFace Daily Papers(社区热门论文)
60
ByG:无需配对数据的流匹配图像/视频编辑框架

提出 Bootstrap Your Generator (ByG) 框架,用于非配对训练流匹配图像/视频编辑模型。方法从冻结的基础模型中提取指令遵循线索,结合循环一致性保持结构;通过梯度路由将下游损失反向传播到噪声训练状态,弥合训练-推理差距。在数据稀缺的图像和视频编辑任务上达到 SOTA,泛化到未见领域,性能优于用百万级配对样本训练的监督基线。实验表明,从基础模型提取的语义线索提供了稳健的训练信号,无需外部奖励模型。

arXiv图像生成视频论文/研究
22:39
SenseTime@SenseTime_AI
同事件精选73
商汤开源SenseNova U1:视觉理解推理生成一体模型

商汤(SenseTime)开源SenseNova U1模型,宣称实现“看、思考、创作”一体——从一张普通运动鞋图片直接生成营销视觉效果。该模型代表了架构上的范式转变。用户可通过SenseNova Studio、HuggingFace和GitHub尝试使用。

GitHubHugging Face图像生成多模态
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
推荐理由:商汤把理解、推理、创作塞进一个模型,而且直接开源,做视觉营销的可以不用再拼凑工具链了。
22:27
DogeDesigner@cb_doge
49
Grok Imagine 在产品营销方面相当不错。 将手机随手拍的照片在几秒钟内变成专业广告。
xAI图像生成教程/实践
21:31
fofr@fofrAI
55
更改屏幕,使其显示她在FaceTime通话中。
图像生成教程/实践视频
19:16
The Decoder:AI News(RSS)
71
Build 2026:Microsoft 在图像生成上超越 Google,在推理上仍追赶

微软在 Build 2026 大会上发布七款自研新 AI 模型,其中包括其首款推理模型。公司还推出了一种新的调优方法和一个自主后台 AI 智能体。

Microsoft图像生成推理模型发布
关联讨论 3 条X:Rohan Paul (@rohanpaul_ai)The Verge:AI(RSS)X:Satya Nadella (@satyanadella)
14:05
宝玉@dotey
72
推文展示 GPT Image Gen V2 根据详细提示词生成的图像效果,被评价为"可以以假乱真"。生成的图像模拟了短视频应用的手机自拍截图,具备特定视觉特征:包括低分辨率帧、美颜滤镜平滑、压缩模糊、柔焦及动态模糊。画面主体为一位动漫cosplay风格的女性,外貌、发型、服装和普通卧室背景均有细致描述,并包含了应用界面UI元素,整体风格追求真实手机拍摄的质感。

Emily: Exploring the possibilities GPT Image Gen V2 Vertical smartphone screenshot from a Chinese short-video app. Front phone ...

OpenAI图像生成教程/实践
13:39
Alibaba Cloud@alibaba_cloud
47
Narek Hayrapetyan,Picsart视频产品负责人 推出HappyHorse和Wan模型后,视频生成量激增72%,用户每月创建超过100万个资产,并使用超过600万Picsart积分。
图像生成行业动态视频
‹ 上一页
1…89101112…30
下一页 ›