AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「图像生成」清除
4月28日周二
22:10凡人小北46图像生成产品两派融合:Flowith以稳定工作流与多模型集成引领视觉创作
22:06Greg Brockman49AI图像生成正改变产品创意的分享方式
21:35阿绎 AYi52GPT-image-2加Seedance2.0做的美女换装视频,丝滑到离谱😍
20:36歸藏(guizang.ai)64优化Codex的PPT生成与图片一键生成功能
20:25SenseTime59SenseNova U1 Lite系列开源,统一多模态理解与生成
19:35公众号:生数科技(Vidu·视频)24降本50%,效率提升10倍,Vidu发布一键生成AI解说剧产品,重塑解说剧生产链路
18:36Berryxia.AI56商汤开源多模态大模型SenseNova-U1,推动本地化部署
17:35阿绎 AYi56AI生成"刀马舞"视频及零门槛副业路径分享
17:26PixVerse40欢乐马匹上线PixVerse 限时五折优惠
16:06Kling AI544K捕捉雨中光影 展现城市雨景细节
15:33IT之家(RSS)49AI 算法可消除大气畸变,地面望远镜图像清晰度堪比太空拍摄
12:34HuggingFace Daily Papers(社区热门论文)69Tuna-2:基于像素嵌入的统一跨模态模型在理解与生成任务上超越视觉编码器
12:00Alibaba Cloud30阿里云新加坡AI视频挑战赛启动,工作坊反响热烈
08:00Apple Machine Learning Research(RSS)49条件扩散模型中组合泛化的局部机制
05:51Luma57Luma Agents助你探索多元视觉风格
03:02Midjourney:Updates(RSS)50High-res rating
01:05Luma56Luma Agents快速构建完整品牌系统
00:09Greg Brockman56GPT Image 2:智能学习无边界
4月27日周一
23:57宝玉75精选GPT Image 2 Prompt生成埃隆·马斯克概念海报设计指南
22:53Chubby♨️40ChatGPT图像模型精准制图能力获赞
21:25阿绎 AYi60AI技术赋能普通人创作赛博朋克版《权游》,降低影视制作门槛并开辟副业新路径
18:49Berryxia.AI48GPT-Image-2 还是太强了,这么小的字都可以做到不糊。 中文都依旧能打,最牛的还是可以支持元素分层。 改天写个实践的文章,最近图像模型又可以玩起来了。
18:20IT之家(RSS)43脉脉 CEO 林凡谈 ChatGPT Images2.0:感觉整个互联网内容信任崩塌了,但实名社交迎来黎明
16:51Rohan Paul71精选ChatGPT Images 2.0生成数学信息图表现惊艳,输出结果多样
15:53小互49用 AI 将60岁的妈妈穿越回她年轻的时候 作为她60岁的生日礼物 这个创意有点牛P…
14:19IT之家(RSS)44印度医学生用 AI 生成"MAGA 女孩"诈骗美国男性,月入数千美元
13:21小互61高级概念海报提示词:用GPT将文字内涵视觉化
11:30Elon Musk51Grok Imagine图像生成功能上线
11:20Berryxia.AI60开源AI提示词激发跨领域创意实践
11:18IT之家(RSS)48世界模型首次搬进手机:蚂蚁灵光 App 今日上线「体验世界模型 」功能
10:59小互46GPT Image 2文字理解能力超乎想象
08:00HuggingFace Daily Papers(社区热门论文)49扩散模型作为通用分割学习器
08:00HuggingFace Daily Papers(社区热门论文)48用于可微分图像表示的软各向异性图
08:00HuggingFace Daily Papers(社区热门论文)53Learning from Noisy Preferences: 一种用于直接偏好优化的半监督学习方法
08:00HuggingFace Daily Papers(社区热门论文)63Diffusion Templates:可控扩散的统一插件框架
08:00HuggingFace Daily Papers(社区热门论文)53Meta-CoT:增强图像编辑中的细粒度与泛化能力
07:29DogeDesigner39Grok 想象 💫
06:29宝玉70精选GPT Image 2 Prompt生成刺绣风图像提示与复刻挑战
01:24Greg Brockman49GPT图像模型输出多样 重要内容需多次生成
01:18阿绎 AYi51Seedance 2.0提示词一键生成电影级视频,AI副业红利期来临
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月28日
22:10
凡人小北@frxiaobei
46
图像生成产品两派融合:Flowith以稳定工作流与多模型集成引领视觉创作

当前图像生成产品主要分为追求单次生成效果极致与打通完整视觉工作流两大方向。Flowith属于后者,其推出的Image Agent不仅能够生成高质量图像,更核心的价值在于构建了稳定的视觉工作流体系。该平台底层集成多个模型(如Image2等),且上层工作流架构设计稳健,不受底层模型更换的影响。它能将单一文本提示转化为完整的营销活动工作流,提供可放大的细节、有效的文字渲染、具备搜索感知的创意智能,并能通过Seedance 2.0技术将图像转化为视频,从而成功融合了“单点极致”与“工作流闭环”两种路径,为用户提供了显著的综合价值。

Flowith: the most powerful image agent has arrived. flowith image agent doesn't just make better images. It builds perfect visual...

智能体产品更新图像生成
22:06
Greg Brockman@gdb
49
AI图像生成技术,特别是先进的2.0图像模型,正深刻改变产品开发流程。该技术能精准生成屏幕界面和视觉概念稿,使得数字表面的呈现效果非常"到位"。在内部协作中,大量产品创意开始通过图像生成来分享和具象化,而非依赖传统的原型制作。将此项能力整合进Codex后,Codex能扮演全栈设计工程师的角色,构建出精美的界面。这标志着产品构思与沟通方式向更快速、更视觉化的方向演进。

Rohan Varma: Our 2.0 image model is so good at making screens and vision mocks. Something about AI generated images of digital surfac...

OpenAI图像生成大佬观点
21:35
阿绎 AYi@AYi_AInotes
52
GPT-image-2加Seedance2.0做的美女换装视频,丝滑到离谱😍

利用GPT-image-2与Seedance2.0生成AI美女换装或跳舞视频,已成为抖音、小红书等平台快速起号的低门槛路径。该方法无需真人出镜与实拍,通过调整提示词即可产出不同风格的高质量视频,成本极低且易于上手。目前平台提供流量分成,可覆盖成本并盈利;粉丝增长后还可承接品牌商单,是一条处于红利期的变现副业赛道。

阿绎 AYi: 很多人总说AI没用,我觉得那是因为你光刷不用,真正能赚钱的人早就闷声发大财了。 分享一个用 AI 做副业的路子, 有点野,基本上算零门槛,见钱快(`・ω・ ́)💰 为啥说零门槛: 首先不用囤货不用开店不用露脸,一台电脑就能干,成本低到可以...

图像生成教程/实践视频
20:36
歸藏(guizang.ai)@op7418
64
优化Codex的PPT生成与图片一键生成功能

作者优化了在Codex中生成PPT的效果,核心是整合了GPT-Image-2模型,实现了一键生成图片的功能。该系统能根据内容生成具有独特风格的图片,类型包括人文纪实氛围图、各类信息图表(如流程图、对比图)以及对截图进行美化与比例优化。此外,Codex的生成流程也得到改进,系统会在生成PPT前增加询问确认步骤,而非直接跳过。

歸藏(guizang.ai): http://x.com/i/article/2047484171258634240

图像生成教程/实践编码
20:25
SenseTime@SenseTime_AI
59
SenseNova U1 Lite系列开源,统一多模态理解与生成

SenseNova宣布开源其U1 Lite系列模型。该系列基于NEO-unify架构,原生统一了多模态理解与生成能力。其核心优势包括:在开源模型中具备领先的效率,紧凑的8B和A3B模型在保持商业级性能的同时实现了优异的成本效益;支持原生的图像-文本交织生成,单一模型即可在单次流程中生成连贯交织的图文内容,适用于制作指南等实用场景;并拥有高密度信息渲染能力,擅长为知识图解、海报、PPT、漫画等信息密集型格式生成结构丰富的版式。模型已在Hugging Face、GitHub等平台发布。

图像生成多模态开源/仓库模型发布
19:35
公众号:生数科技(Vidu·视频)
24
降本50%,效率提升10倍,Vidu发布一键生成AI解说剧产品,重塑解说剧生产链路

Vidu发布一键生成AI解说剧产品,实现降本50%、效率提升10倍,重新塑造解说剧生产链路。该产品无需人工剪辑与配音,可自动完成解说剧的全部生成流程,推动内容创作进入全AI化阶段。

产品更新图像生成视频
18:36
Berryxia.AI@berryxia
56
商汤开源多模态大模型SenseNova-U1,推动本地化部署

商汤发布开源可商用的多模态大模型SenseNova-U1,采用NEO-Unify架构统一处理视觉与语言。其核心功能包括图文交错生成、智能图像编辑与图表渲染。模型提供8B密集版和约3B活性参数的轻量版,适合个人显卡本地部署。现提供每日5小时及1500次免费调用额度,并即将推出办公场景应用功能。

图像生成多模态开源生态模型发布
17:35
阿绎 AYi@AYi_AInotes
56
AI生成"刀马舞"视频及零门槛副业路径分享

推文展示了一段以假乱真的AI生成“刀马舞”手势舞视频,并分享了利用此技术快速创收的副业方法。该方法门槛极低,仅需电脑,无需囤货、开店或露脸。核心是使用Rita平台的Seedance2.0和GPT-image-2模型,批量生成高质量美女跳舞视频,发布到小红书、抖音、支付宝视频号等平台获取流量分成。粉丝增长后可接品牌商单,成本远低于真人网红。推文强调该赛道尚处红利期,并附上了详细的视频分镜提示词和负面提示词以确保生成质量。

阿绎 AYi: 很多人总说AI没用,我觉得那是因为你光刷不用,真正能赚钱的人早就闷声发大财了。 分享一个用 AI 做副业的路子, 有点野,基本上算零门槛,见钱快(`・ω・ ́)💰 为啥说零门槛: 首先不用囤货不用开店不用露脸,一台电脑就能干,成本低到可以...

图像生成教程/实践视频
17:26
PixVerse@PixVerse_
40
Happy Horse 已正式驰骋进入 PixVerse。 从一个提示开始,或放入第一帧并让它自由发挥。 限时优惠 - 额外 50% 折扣 截止时间:5月6日 · 07:00 UTC / 00:00 PDT 备好马鞍。立即在 PixVerse 上尝试 Happy Horse。 转发+关注+回复 = 300积分(仅限48小时)
产品更新图像生成视频
16:06
Kling AI@Kling_ai
54
720p 看到了雨城,但 4K 看见了雨中每一缕光。🌧️ 在 Kling 4K 中查看更多。
产品更新图像生成视频
15:33
IT之家(RSS)
49
AI 算法可消除大气畸变,地面望远镜图像清晰度堪比太空拍摄

加州大学圣克鲁兹分校研究团队开发出一款名为Neo的人工智能算法,可有效消除地面望远镜因大气湍流导致的图像畸变。该算法基于条件生成对抗网络,通过训练使地面观测图像的清晰度提升至太空望远镜水准,天体形态参数测量准确度提高2至10倍。目前该技术已应用于智利薇拉・C・鲁宾天文台,该台配备8.4米口径反射镜,造价约8亿美元。此前类似AI算法已将詹姆斯・韦布空间望远镜的数据分析时间从数年缩短至数日,助力多项天文发现。

图像生成论文/研究部署/工程
12:34
HuggingFace Daily Papers(社区热门论文)
69
Tuna-2:基于像素嵌入的统一跨模态模型在理解与生成任务上超越视觉编码器

Tuna-2是一种原生统一的跨模态模型,它摒弃了传统的VAE等模块化视觉编码器,直接通过简单的图像块嵌入层处理像素,统一执行视觉理解与生成任务。实验表明,该模型在多项跨模态基准测试中取得了最先进的性能,证明其像素空间建模在高质量图像生成上可与潜在空间方法竞争。尽管基于编码器的变体在预训练早期收敛更快,但Tuna-2的无编码器设计在大规模训练后实现了更强的跨模态理解能力,尤其在细粒度视觉感知任务上表现突出。这表明预训练视觉编码器对跨模态建模并非必需,端到端的像素学习为视觉任务提供了可扩展的新路径。

图像生成多模态论文/研究
12:00
Alibaba Cloud@alibaba_cloud
30
阿里云新加坡AI视频挑战赛启动,工作坊反响热烈

阿里云在新加坡举办的“SG WANders AI视频挑战赛”已拉开序幕,首场AI工作坊吸引了近200名参与者,反响热烈。注册即将截止,主办方鼓励参与者把握最后机会报名,并有机会赢取奖品。第二场工作坊定于5月4日举行,旨在帮助参与者利用阿里云的WAN模型学习、创作和完善其AI视频作品。本次活动由阿里云与FizzDragon联合组织,并得到了新加坡工艺教育学院等多家机构的协作支持。

图像生成行业动态视频
08:00
Apple Machine Learning Research(RSS)
49
条件扩散模型中组合泛化的局部机制

条件扩散模型展现出组合泛化能力,能生成超出训练分布的条件组合样本,但其机制尚不明确。研究聚焦于长度泛化,即生成比训练所见更多数量物体的图像。在受控的CLEVR场景中发现,模型仅在某些情况下能实现长度泛化,表明其并非总能掌握底层组合结构。通过分析扩散过程的局部动态,研究揭示了泛化成功与失败案例中条件交互模式的系统性差异,为理解生成式模型的组合推理边界提供了新视角。

图像生成论文/研究
05:51
Luma@LumaLabsAI
57
不确定该选择哪个方向?探索所有可能。 设定你的参考标准,让 Luma Agents 探索你心中的每一种视觉风格。从暗黑电影感到明亮编辑风,每一种美学方向都能被渲染呈现,随时可供比较。 立即构建 → https://app.lumalabs.ai/?seed=922de654-a944-4679-adbf-d23cbfb48307
智能体产品更新图像生成
03:02
Midjourney:Updates(RSS)
50
High-res rating

Midjourney团队正为v8.1/8.2版本筹备重大美学更新,并公开征集用户协助进行图像排序以改进模型。此次工作的核心在于,团队将首次在完整的2K分辨率下进行图像排序活动,旨在为模型获取最优的高清像素数据,以提升图像生成质量。

产品更新图像生成
01:05
Luma@LumaLabsAI
56
辣酱不像康普茶那样做品牌。康普茶不像咖啡那样做品牌。 Luma Agents 懂得其中的差异,并在几分钟内构建整个系统。 标识、氛围、编辑产品图、色彩标记、字体样本。一份简报。一个品牌。为货架、信息流和菜单做好准备。 立即尝试 → https://app.lumalabs.ai/?seed=20c28b58-6310-4f7e-8b78-c334121d3f8c
智能体产品更新图像生成
00:09
Greg Brockman@gdb
56
GPT Image 2 用于了解一切 【引用 @Preda2005】:GPT 2 完全疯了… 🙀⚡️ 我要来一个史前掠食者 它围绕它建造了整个博物馆。 这不仅仅是一张图片。 感觉就像在发现历史。🤯 提示词掉落 ⤵️

Marcio Lima 利真 マルシオ 💎: GPT 2 is totally insane... 🙀⚡️ I asked for a prehistoric predator and it built an entire museum around it. This is not ...

OpenAI图像生成教程/实践
4月27日
23:57
宝玉@dotey
精选75
GPT Image 2 Prompt生成埃隆·马斯克概念海报设计指南

GPT Image 2 Prompt工具发布了一项针对生成“Elon Musk”主题高级概念排版海报的详细设计规范。核心要求是海报必须以“Elon Musk”标题为绝对主导视觉结构,文字需巨大、可读、有力且拼写精确。设计需基于对标题含义、文化氛围及象征意义的解读,转化为一个强有力的视觉隐喻。若标题指代广为人知的人物,则需将具有可识别性的编辑肖像作为主要视觉元素,占据40-70%版面,并与标题文字产生互动。整体风格需为高端编辑海报,采用4-6色系,强调定制化字形、戏剧性尺度和精炼的视觉张力,避免通用化设计元素。

小小东: http://x.com/i/article/2048438511788007424

MCP/工具图像生成教程/实践

推荐理由:这个 prompt 把 GPT Image 2 从「随便生成一张图」拉到「博物馆级海报设计」的水准,做内容、做品牌视觉的人可以直接抄,是目前公开可得的最强 typography prompt 之一。
22:53
Chubby♨️@kimmonismus
40
ChatGPT的图像2模型之出色,持续让我惊叹不已。 其创作过程中的推理能力产生了准确的结果,不仅创造出视觉上令人惊叹的图形,而且事实正确,同时还能呈现正确的标志。 或者换句话说:你现在可以用图像模型创建准确的图表了。我不明白为什么这个新的图像模型只在我们自己的圈子里如此成功。
OpenAI图像生成大佬观点
21:25
阿绎 AYi@AYi_AInotes
60
AI技术赋能普通人创作赛博朋克版《权游》,降低影视制作门槛并开辟副业新路径

网友利用GPT-image-2和Seedance 2.0等AI工具,创作出赛博朋克风格的《权力的游戏:2048》概念短片,将维斯特洛大陆重构为反乌托邦世界,其电影级质感可媲美HBO原作。这标志着AI技术正将曾属于好莱坞的顶级创作权下放给普通人,大幅降低了史诗级内容的制作门槛。同时,AI也成为有效的创收工具,例如通过特定平台批量生成“AI美女跳舞”类短视频,可凭借流量分成和商单实现低门槛副业盈利,目前该赛道仍处红利期。

阿绎 AYi: 很多人总说AI没用,我觉得那是因为你光刷不用,真正能赚钱的人早就闷声发大财了。 分享一个用 AI 做副业的路子, 有点野,基本上算零门槛,见钱快(`・ω・ ́)💰 为啥说零门槛: 首先不用囤货不用开店不用露脸,一台电脑就能干,成本低到可以...

OpenAI图像生成教程/实践视频
18:49
Berryxia.AI@berryxia
48
GPT-Image-2 还是太强了,这么小的字都可以做到不糊。 中文都依旧能打,最牛的还是可以支持元素分层。 改天写个实践的文章,最近图像模型又可以玩起来了。
OpenAI图像生成大佬观点
18:20
IT之家(RSS)
43
脉脉 CEO 林凡谈 ChatGPT Images2.0:感觉整个互联网内容信任崩塌了,但实名社交迎来黎明

脉脉CEO林凡针对ChatGPT Images 2.0生图工具发表看法,认为该技术可能导致互联网内容信任崩塌,但实名社交将迎来发展机遇。该工具于4月21日发布,基于GPT Image 2模型,核心升级是引入“思考能力”。用户仅需简单提示词即可生成高度逼真的宣传图像,文字和人物元素极少出现传统AI生图的穿帮痕迹,引发了广泛讨论。

图像生成大佬观点现象/趋势
16:51
Rohan Paul@rohanpaul_ai
精选71
用户@doodlestein使用ChatGPT Images 2.0,以蒙娜丽莎为主题创建关于线性变换和谱定理的数学解释信息图。尽管使用了相同的详细提示词,模型在四次生成尝试中产出了布局、矩阵示例和解释结构明显不同的结果。虽然核心概念保持一致,但每次生成在特征向量和变换的可视化呈现方式上各有独特之处。这证实了即使输入不变,模型的输出也存在显著变化。因此,对于重要内容,建议进行多次生成以获取不同的视觉方案和创意角度。

Jeffrey Emanuel: I was curious how much the new ChatGPT image model would vary in its outputs given the same detailed prompt to make a ma...

OpenAI产品更新图像生成

推荐理由:ChatGPT Images 2.0的输出变异性比想象中大,做内容或设计的人别只看第一张就满意,多生成几次可能有意想不到的好结果。
15:53
小互@xiaohu
49
用 AI 将60岁的妈妈穿越回她年轻的时候 作为她60岁的生日礼物 这个创意有点牛P…
图像生成教程/实践
14:19
IT之家(RSS)
44
印度医学生用 AI 生成"MAGA 女孩"诈骗美国男性,月入数千美元

一名印度医学生利用谷歌Gemini生成名为Emily Hart的AI虚拟形象,针对美国保守派男性群体运营社交媒体账号。该角色以护士身份发布亲基督教、反移民等MAGA倾向内容,单条短视频播放量高达数百万,一个月内粉丝破万。通过销售订阅内容及主题T恤,其月收入达数千美元。此类政见导向的AI虚拟账号正大量涌现,而平台对AI内容标识监管松散。该账号已于今年2月因“欺诈行为”被Instagram封禁。

Google图像生成现象/趋势
13:21
小互@xiaohu
61
高级概念海报提示词:用GPT将文字内涵视觉化

推文分享了一个用于生成“高级概念海报”的GPT提示词模板。其核心是输入文字后,GPT需深度解析该文字的表层与深层含义、情绪气质及文化联想,并据此自动生成独特的画面风格、构图和视觉隐喻,而非套用统一模板。海报要求以巨大的输入文字为主体,搭配极简、克制的展览级视觉设计,并辅以少量关键词和短句。推文引用了一位用户的反馈,表明GPT Image 2对文字的理解能力出色,生成效果震撼。

小互: 改造了一下 效果炸裂啊... GPT Image 2 对文字的理解能力超乎想象!

OpenAI图像生成教程/实践
11:30
Elon Musk@elonmusk
51
Grok 想象
xAI产品更新图像生成
11:20
Berryxia.AI@berryxia
60
开源AI提示词激发跨领域创意实践

主推文展示了多元背景的群体如何基于同一套AI提示词创造出多样化内容,突破单一方向局限,促进知识共享与协作。文中引用案例指出,用户可通过GPT-Image-2稳定生成科普海报等视觉化素材,并将提示词开源供社区使用。这一模式鼓励社区成员结合专业领域(如数学、物理、工业安全)进行创意延伸,推动AI工具在科普、教育等场景的创新应用。

Berryxia.AI: 兄弟们!信息图看腻了? 密密麻麻的文字,可能没有几个人看完! 来来来!我搞了一套科普海报宣传挂图,可以给学生、展会、科普活动。 直接丢给GPT-Image-2 就可以稳定输出! 提示词我丢在评论区了,记得交作业。 看看大家有何更好的创意~

OpenAI图像生成教程/实践
11:18
IT之家(RSS)
48
世界模型首次搬进手机:蚂蚁灵光 App 今日上线「体验世界模型 」功能

蚂蚁集团全模态AI助手灵光App今日正式上线“体验世界模型”功能,首次将世界模型应用于手机端。用户上传一张图片,即可在几秒钟内生成对应的3D世界,并能通过摇杆控制以第一人称视角自由漫步探索,体验类似游戏。该功能基于蚂蚁灵波LingBot-World-Fast世界模型,该模型已对外开源。

产品更新图像生成多模态
10:59
小互@xiaohu
46
改造了一下 效果炸裂啊… GPT Image 2 对文字的理解能力超乎想象!
OpenAI图像生成教程/实践
08:00
HuggingFace Daily Papers(社区热门论文)
49
扩散模型作为通用分割学习器

研究提出DiGSeg框架,将预训练扩散模型转化为通用分割器。该方法将输入图像与真实掩码编码为潜变量,作为扩散U-Net的条件输入,并通过并行CLIP文本通路注入多尺度语言特征,实现文本与视觉表征的对齐。实验表明,该框架在标准语义分割基准上取得领先性能,并在开放词汇泛化及跨域迁移(医疗、遥感、农业)中表现优异,且无需针对特定领域调整模型架构。这证明扩散模型不仅能用于图像生成,也可作为强大的通用视觉理解模型,缩小了生成与理解任务间的差距。

图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
用于可微分图像表示的软各向异性图

本文提出软各向异性图(SAD),一种基于图像平面自适应站点参数化的显式可微分图像表示方法。SAD通过各站点定义各向异性度量与加权距离,并依据像素前K个站点的softmax混合计算颜色,形成具有可学习温度的软加权Voronoi划分,在保持清晰边界的同时保留有效梯度。该方法支持基于前K映射的高效渲染,并采用受跳转扩散启发的传播方案更新站点。在Kodak数据集上,SAD以2.2秒编码时间达到46.0 dB PSNR,训练速度比先进基线快4-19倍,且在相同码率下性能更优。SAD还能无缝集成至可微分流程,并具备快速随机访问与紧凑存储优势。

图像生成论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
53
Learning from Noisy Preferences: 一种用于直接偏好优化的半监督学习方法

研究指出,将人类多维度的视觉偏好压缩为二元胜负标签会产生严重的标签噪声,误导扩散模型直接偏好优化训练。为解决此问题,团队提出了Semi-DPO方法。该方法将标注一致的图像对视为干净数据,将存在冲突的视为带噪声的未标注数据。训练过程首先在共识过滤的干净子集上进行,然后利用该模型作为隐式分类器为噪声集生成伪标签,进行迭代优化。实验表明,Semi-DPO取得了最先进的性能,显著提升了与复杂人类偏好的对齐度,且无需额外人工标注或显式的奖励模型。代码和模型将在指定GitHub仓库开源。

图像生成数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
Diffusion Templates:可控扩散的统一插件框架

针对现有可控扩散方法因架构孤立、流程不兼容导致的碎片化问题,研究团队提出统一开源插件框架Diffusion Templates。该框架通过模板模型、模板缓存和模板管道三大核心组件,实现基础模型推理与可控能力注入的解耦。其系统级接口设计支持KV-Cache、LoRA等多种异构能力载体。基于此构建的模型库覆盖了结构控制、图像编辑、超分辨率等十类任务,展现了框架在模块化、可组合性及跨模型可扩展性方面的统一能力。所有代码、模型与数据集将开源。

图像生成开源生态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
Meta-CoT:增强图像编辑中的细粒度与泛化能力

Meta-CoT提出一种新的图像编辑范式,通过两级分解提升模型的理解细粒度和任务泛化能力。该方法首先将任意编辑操作分解为(任务、目标、所需理解能力)三元组,以增强对编辑意图的细粒度理解;其次将编辑任务拆解为五个基础元任务,使训练仅需在这些元任务上进行,结合新引入的“思维链-编辑一致性奖励”机制,促使模型更准确地利用推理信息进行编辑。实验表明,该方法在21项编辑任务上实现了15.8%的整体性能提升,并能有效泛化到未见过的编辑任务。相关代码、基准测试和模型已开源。

图像生成多模态论文/研究
07:29
DogeDesigner@cb_doge
39
Grok 想象 💫
xAI产品更新图像生成
06:29
宝玉@dotey
精选70
GPT Image 2 Prompt生成刺绣风图像提示与复刻挑战

GPT Image 2 Prompt 描述了一幅精致立体刺绣风插画,以“蚕丝白+奶白”为底色,呈现小鸟停于花枝的轻盈构图。引用推文中,用户@0x00_Krypt 指出复刻该图像时难以达到原图的特定色彩效果。Banana Prompt 提供了结构化提示词,包括平视方形构图、霜冻纹理树枝、明亮春季色彩和谐,以及五只详细小鸟的布局,强调超写实线程绘画技术和高光白色背景,旨在生成高级手工刺绣的艺术效果。

两斤: 特别喜欢这种刺绣工艺,但是复刻了好久还是没有原图的那种"蚕丝白+奶白"的感觉 Banana Prompt👇 --- [Composition & Structure] A strictly flat, eye-level, straigh...

OpenAI图像生成教程/实践

推荐理由:宝玉这个prompt把GPT Image 2的刺绣风格从模糊描述变成精确指令,做内容或设计的可以直接抄,省去反复调试的时间。
01:24
Greg Brockman@gdb
49
GPT Image 2 即使面对详细的提示词也能生成多样化的图像

Jeffrey Emanuel: I was curious how much the new ChatGPT image model would vary in its outputs given the same detailed prompt to make a ma...

OpenAI图像生成教程/实践
01:18
阿绎 AYi@AYi_AInotes
51
Seedance 2.0提示词一键生成电影级视频,AI副业红利期来临

作者分享Seedance 2.0的提示词,可一次性生成高质量视频,无需返工,实现低成本电影级别制作。引用推文指出,利用Rita平台的Seedance2.0和GPT-image-2批量生成AI美女跳舞视频,在小红书、抖音和支付宝视频号等平台通过流量分成和商单盈利,适合零门槛副业。当前赛道处于红利期,提示词到位即可高效产出内容,大幅降低传统拍摄成本。

阿绎 AYi: 很多人总说AI没用,我觉得那是因为你光刷不用,真正能赚钱的人早就闷声发大财了。 分享一个用 AI 做副业的路子, 有点野,基本上算零门槛,见钱快(`・ω・ ́)💰 为啥说零门槛: 首先不用囤货不用开店不用露脸,一台电脑就能干,成本低到可以...

图像生成教程/实践视频
‹ 上一页
1…2223242526…30
下一页 ›