AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「图像生成」清除
5月11日周一
10:48歸藏(guizang.ai)78精选开源PPT工具"鬼藏PPT技能"迎重大更新,新增瑞士风格与AI配图功能
09:45Berryxia.AI56利用开源3D库与工具快速创建3D展示与互动应用
08:00HuggingFace Daily Papers(社区热门论文)45基于多边形序列生成的平面图重建方法
07:30DogeDesigner62用Grok提示词制作母亲节贺卡
04:58elvis66AI工具栈快速生成交互式3D生物结构
5月10日周日
22:33阿绎 AYi80精选教育科技门槛一夜归零:AI助力单人低成本开发3D教学应用
22:22Baidu Inc.25妈妈语录的言外之意
16:33IT之家(RSS)52尽管裁员千人,Epic 仍表示 AI 不会取代游戏从业者
10:13小互58兄弟们 这个创意牛P啊 3D 趣味互动科学应用 用GPT生成图像,然后使用Gemini 3.1 Pro生成,可以将任何知识的内容制作成3D可交互的效果展示! 效果炸裂!
10:13小互53GPT结合Tripo 3D优化机器人销售网站
09:13向阳乔木60GPT-Image-2为段落生成视觉解释,提升阅读体验
08:00HuggingFace Daily Papers(社区热门论文)50基于噪声追踪对的整流流离线偏好优化
08:00HuggingFace Daily Papers(社区热门论文)63微观缺陷暴露宏观伪造:通过局部分布偏移检测AI生成图像
07:58Elon Musk44Grok Imagine发布引发计算机本质思考
07:44Berryxia.AI48从此告别无聊的课堂教学! 自己开发趣味互动科学应用创意 ~ 现在使用GPT-image-2 + Gemini 尝试生成3D生物结构,并开发了一款能交互探索这些结构的应用!
03:30🚨 AI News | TestingCatalog46从提示词到建筑设计:AI驱动住宅设计自动化
00:44歸藏(guizang.ai)31厌倦了千篇一律的衬线字体和排版? 歸藏的 PPT Skill 新主题预告 【引用 @op7418】:http://x.com/i/article/2047484171258634240
5月9日周六
12:49Hacker News 热门(buzzing.cc 中文翻译)51人们讨厌AI艺术
11:36Berryxia.AI28AI时代原来我的"嘴"才是核心竞争力!😂 靠"嘴口喷"代码,现在直接"靠嘴搞设计"! 太特么好了,AI时代我也算是吃上细糠了。
11:25宝玉71GPT Image 2 Prompt:水墨风格 Slides/PPT
10:55宝玉76精选GPT Image 2 Prompt:中文科技新闻爆款封面生成器
06:52Luma19展位设计:品牌形象的关键呈现
06:49Chubby♨️57索尼与万代南梦宫合作AI加速游戏开发
01:26向阳乔木61AI辅助快速制作PPT的实战方法
5月8日周五
23:33歸藏(guizang.ai)72抖音"法天象地"特效:从图片生成到视频优化的突破
23:15Google Blog:AI(RSS)45看创意传奇人物如何用AI为小企业制作广告
17:26-Zho-52AI图像生成未达设计标准,保罗·兰德阐释设计本质
15:16IT之家(RSS)63新研究点破 AI 生图弱点:透视线和阴影最容易露馅
12:21Berryxia.AI24用户分享GPT提示词创作惊喜体验
11:44向阳乔木59好像是丁师傅分享的网站? 趋势中的HTML模版都好有设计感,可以发给AI参考学习。 不然Claude 和 Codex的默认设计风格,很快就会成为新的AI味。 网址见评论
11:22HuggingFace Daily Papers(社区热门论文)69SwiftI2V:通过条件分段生成实现高效高分辨率图像到视频生成
11:22HuggingFace Daily Papers(社区热门论文)60连续时间分布匹配用于少步扩散蒸馏
10:22HuggingFace Daily Papers(社区热门论文)66MARBLE:面向扩散模型强化学习的多维度奖励平衡框架
08:00HuggingFace Daily Papers(社区热门论文)55Implicit Preference Alignment for Human Image Animation
08:00HuggingFace Daily Papers(社区热门论文)46SplatWeaver:一种为可泛化新视角合成动态分配高斯图元的框架
08:00HuggingFace Daily Papers(社区热门论文)54BalCapRL:基于强化学习的平衡型多模态大语言模型图像描述框架
08:00HuggingFace Daily Papers(社区热门论文)51Delta-Adapter:基于单对图像监督的可扩展范例编辑
08:00HuggingFace Daily Papers(社区热门论文)50SCOPE:面向复杂图像生成的结构化分解与条件技能编排框架
08:00HuggingFace Daily Papers(社区热门论文)61先验对齐自编码器:为潜在扩散模型构建友好的潜在流形
08:00HuggingFace Daily Papers(社区热门论文)62Flow-OPD:面向流匹配模型的在线策略蒸馏框架
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月11日
10:48
歸藏(guizang.ai)@op7418
精选78
开源PPT工具"鬼藏PPT技能"迎重大更新,新增瑞士风格与AI配图功能

开源项目“鬼藏PPT技能”迎来重大更新,新增瑞士国际主义视觉风格,提供克莱因蓝等四套主题色。核心升级包括:通过接入GPT-Image 2.0,可根据PPT内容与风格自动生成胶片质感配图、流程图及UI截图美化;支持基于同一内容一键生成公众号、小红书、视频号等多种规格的封面图。更新旨在解决用户对多风格、自动配图及跨平台适配的需求,并通过预设22种版式和严格的视觉规则,确保设计的一致性与专业性。

智能体GitHub产品更新图像生成

推荐理由:藏师傅把做PPT的整条链闭环了,从大纲、配图到多平台封面一个对话走完。瑞士风的设计纪律直接写进skill,做出来的PPT终于甩掉AI模板味。
09:45
Berryxia.AI@berryxia
56
利用开源3D库与工具快速创建3D展示与互动应用

推文讨论了在精度要求不高的3D展示场景下,可直接利用开源3D库快速实现。作者提及Apple Reality Composer及其免费的USDZ/USDC格式官方3D模型库,适用于AR增强现实。对于需要自定义或教学互动的场景,推荐了JigSpace应用。同时,作者分享了使用GitHub上的glTF样本模型快速制作Demo的经验。引用的推文补充了关键应用:结合GPT-image-2和Gemini等AI工具生成3D生物结构,并开发可交互探索的应用,旨在为课堂教学等场景创造趣味互动体验。

Berryxia.AI: 从此告别无聊的课堂教学! 自己开发趣味互动科学应用创意 ~ 现在使用GPT-image-2 + Gemini 尝试生成3D生物结构,并开发了一款能交互探索这些结构的应用!

图像生成开源生态教程/实践
08:00
HuggingFace Daily Papers(社区热门论文)
45
基于多边形序列生成的平面图重建方法

本文提出Raster2Seq方法,将复杂平面图的重建任务转化为序列到序列学习问题。该方法将房间、门窗等平面图元素表示为同时编码几何与语义信息的多边形序列,并通过自回归解码器,利用可学习锚点引导注意力机制,依据图像特征与已生成角点预测下一个角点。这种设计使模型能够灵活、高效地处理包含大量房间和复杂多边形结构的平面图。实验表明,Raster2Seq在多个标准基准上取得了领先性能,并在更具挑战性的数据集上展现出强大的泛化能力。

arXiv图像生成论文/研究
07:30
DogeDesigner@cb_doge
62
用这个 @Grok 提示词为妈妈制作一张精美的母亲节贺卡 ❤️ "将这张照片转化为精美专业的母亲节贺卡,采用宝丽来风格大幅居中设计,周围环绕鲜艳花朵与优雅装饰元素,搭配丰富欢快的色彩和典雅的'母亲节快乐'文字,整体保持温暖、精致、视觉惊艳的效果。"
xAI图像生成教程/实践
04:58
elvis@omarsar0
66
作者受启发复现了一个利用AI工具栈快速生成3D生物结构的工作流。该流程整合了Gemini Nano Pro生成概念、Tripo进行3D生成、Codex组装代码,并通过HTML构件实现交互式查看。作者认为,此类AI应用将指数级加速学习过程,并推动高质量教育的民主化。其灵感来源于@DilumSanjaya展示的利用GPT生成UI、Gemini编写代码来创建交互式科学探索应用的概念。

Dilum Sanjaya: Fun interactive science app ideas | Part 3 Played around with generating 3D biological structures and made an app to exp...

MCP/工具图像生成多模态教程/实践
5月10日
22:33
阿绎 AYi@AYi_AInotes
精选80
教育科技门槛一夜归零:AI助力单人低成本开发3D教学应用

AI工具GPT Images 2和Gemini 3.1 Pro的出现,彻底颠覆了教育应用的开发模式。过去需多人团队、数月时间和高昂成本才能完成的3D教育应用,如今一个具备领域知识(如生物学)的普通人,仅用约48小时和不到10美元即可实现。这消除了对编程、3D建模等技术能力的依赖,使教师、家长等个体也能独立创造高质量互动教学工具。此举有望推动过去仅属于精英机构的教学资源(如虚拟实验室)普及,为缩小教育不平等提供了新的技术路径。

Dilum Sanjaya: Fun interactive science app ideas | Part 3 Played around with generating 3D biological structures and made an app to exp...

GoogleOpenAI图像生成教程/实践

推荐理由:阿易这视频展示了 GPT Images 2 和 Gemini 3.1 Pro 的组合,48 小时从想法到可交互 3D 教学 App,零代码工作流直接可以抄,教育技术门槛真的归零了,做内容的别错过。
22:22
Baidu Inc.@Baidu_Inc
25
我们将几句经典的妈妈语录翻译成它们通常的真实含义。 因为有时"有空打给我"蕴含的意义远不止字面这些。 祝所有庆祝的人#母亲节快乐! 📷 图片由ERNIE-Image生成
图像生成行业动态
16:33
IT之家(RSS)
52
尽管裁员千人,Epic 仍表示 AI 不会取代游戏从业者

Epic公司高管表示,人工智能不会取代游戏行业工作岗位,而是用于提升效率、减轻繁重工作负担。尽管该公司在2026年裁员1000人,但坚称裁员与AI无关。Epic正在探索AI工具以支持游戏开发,未来将应用于艺术创意领域,并强调《堡垒之夜》开发中的AI使用由公司统一管控,合作方不得擅自使用。这一立场与索尼、艺电等企业相似,但外界对其“AI不危及就业”的说法仍存质疑。

图像生成行业动态
10:13
小互@xiaohu
58
兄弟们 这个创意牛P啊 3D 趣味互动科学应用 用GPT生成图像,然后使用Gemini 3.1 Pro生成,可以将任何知识的内容制作成3D可交互的效果展示! 效果炸裂!
GoogleOpenAI图像生成多模态
10:13
小互@xiaohu
53
创建一个售卖机器人的未来网站效果也不错 GPT 生成图像 → Tripo 3D
图像生成多模态教程/实践
09:13
向阳乔木@vista8
60
GPT-Image-2为段落生成视觉解释,提升阅读体验

GPT-Image-2能够根据选中的文章段落直接生成视觉化的解释,极大地改善了阅读体验,使其不再枯燥。这一功能展示了AI在将文本内容转化为直观图像方面的应用潜力,为理解和消化复杂信息提供了新的辅助工具。

OpenAI图像生成多模态教程/实践
08:00
HuggingFace Daily Papers(社区热门论文)
50
基于噪声追踪对的整流流离线偏好优化

针对文本到图像整流流模型,现有偏好数据集仅存储最终图像,无法描述其以特定先验噪声为索引的近似直线轨迹。本研究提出先验噪声感知偏好优化方法,通过保留生成胜出/落败图像时使用的配对先验噪声,将标准三元组扩展为六元组。利用整流流的直线特性,通过噪声-图像插值估计中间状态,从而约束轨迹估计空间并获得更紧致的代理优化目标。此外,引入动态正则化策略,根据奖励差距和训练进度自适应调整正则化强度,提升训练稳定性与样本效率。实验表明,该方法能持续改善偏好指标,同时显著降低训练计算量。

arXiv图像生成数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
微观缺陷暴露宏观伪造:通过局部分布偏移检测AI生成图像

针对AI生成图像检测,本研究提出MDMF框架,通过聚焦局部区域的微观统计异常来识别伪造。该方法引入可学习的“补丁取证签名”,将图像语义块映射到紧凑的取证潜在空间,并利用最大均值差异量化生成图像与真实图像间的分布差异。理论分析表明,当生成图像存在局部取证信号时,基于补丁的建模能产生可证明的更大分布差异,从而实现更可靠的区分。在多个基准测试上的实验表明,MDMF consistently outperforms baseline detectors,验证了其通用有效性。项目页面已公开。

arXiv图像生成安全/对齐论文/研究
07:58
Elon Musk@elonmusk
44
Grok Imagine 【引用 @heavypulp】:万物皆计算机,但计算机并非万物!

Heavy Pulp: Everything is Computer, but Computer isn't Everything!

xAI产品更新图像生成
07:44
Berryxia.AI@berryxia
48
从此告别无聊的课堂教学! 自己开发趣味互动科学应用创意 ~ 现在使用GPT-image-2 + Gemini 尝试生成3D生物结构,并开发了一款能交互探索这些结构的应用!
GoogleOpenAI图像生成多模态
03:30
🚨 AI News | TestingCatalog@testingcatalog
46
从提示词到建筑设计:AI驱动住宅设计自动化

推文提出“从提示词到生产”的流程已成现实,并展望未来能实现“从提示词到房地产”,即由机器人从头建造完整建筑。虽然这仍属未来愿景,但 DraftedAI 已率先自动化了“从提示词到家居设计”这一环节。其工具允许用户免费生成理想房屋的详细渲染图并导出,用户既可混搭探索区的现有设计,也能从零开始,且所有细节均可定制。

产品更新图像生成
00:44
歸藏(guizang.ai)@op7418
31
厌倦了千篇一律的衬线字体和排版? 歸藏的 PPT Skill 新主题预告 【引用 @op7418】:http://x.com/i/article/2047484171258634240

歸藏(guizang.ai): http://x.com/i/article/2047484171258634240

图像生成教程/实践
5月9日
12:49
Hacker News 热门(buzzing.cc 中文翻译)
51
人们讨厌AI艺术

近期网络社区对AI生成艺术的反对情绪显著。许多艺术家和网友批评AI艺术缺乏灵魂与原创性,认为其本质是剽窃人类作品训练而成。在Hacker News等平台的相关讨论中,该话题获得了超过102点热度,反映出广泛的争议。反对者主要担忧AI艺术会挤压人类艺术家的生存空间,并导致创意同质化。这一现象凸显了技术进步与人文价值在艺术领域的深刻冲突。

图像生成现象/趋势
11:36
Berryxia.AI@berryxia
28
AI时代原来我的"嘴"才是核心竞争力!😂 靠"嘴口喷"代码,现在直接"靠嘴搞设计"! 太特么好了,AI时代我也算是吃上细糠了。
图像生成大佬观点
11:25
宝玉@dotey
71
GPT Image 2 Prompt:水墨风格 Slides/PPT

本文介绍一个用于生成水墨风格幻灯片画图提示词的模板。该模板结构清晰,包含标题、关键要点、视觉元素、布局偏好、文字层级和延续性说明,旨在指导AI(如Codex)生成具有统一美学风格的幻灯片图像。视觉元素强调宣纸背景、水墨山水等东方元素,整体风格追求静谧、克制、侘寂或当代东亚奢华。通过应用此模板,用户可以简化AI驱动的设计流程,快速获得视觉一致且富有美感的水墨风格PPT素材。文末提供了一个简短的应用示例。

OpenAI图像生成多模态教程/实践
10:55
宝玉@dotey
精选76
GPT Image 2 Prompt:中文科技新闻爆款封面生成器

这是一个用于生成中文科技新闻爆款封面图的详细提示词框架。它要求AI扮演顶级视觉设计师,根据输入的文章内容自动提取核心新闻、关键数字、产品及行业情绪等信息。设计需融合中国科技媒体头图、B站爆款缩略图等风格,强调强烈的视觉冲击与高信息密度,确保3秒内传递重点。构图包含顶部新闻区、中央超大标题区、主视觉产品区、数据卡片区和底部总结区,配色、字体、背景均需根据文章行业、品牌和情绪动态调整,最终输出专业的16:9横版媒体级封面图。

OpenAI图像生成教程/实践

推荐理由:对做科技自媒体的朋友,这个 prompt 直接把 GPT Image 2 从“能画图”变成了“会做封面”的生产力工具,复制粘贴就能用。
06:52
Luma@LumaLabsAI
19
你的展位是品牌在展会中最瞩目的时刻。 确保它足够出众。 定义品牌标识。 设定美学风格。 Luma Agents 据此构建所有展位视觉设计。 立即创建 → http://lumalabs.ai/app
产品更新图像生成
06:49
Chubby♨️@kimmonismus
57
这只是时间问题:索尼与万代南梦宫正围绕生成式AI启动合作试点,将这项技术定位为加速游戏开发的手段。 索尼表示AI已在面部动画、质量检测、支付处理、视觉保真度以及未来推荐工具方面提供助力。 DLSS和PSSR仅仅是个开始。
图像生成行业动态
01:26
向阳乔木@vista8
61
AI辅助快速制作PPT的实战方法

作者分享利用AI工具高效制作PPT的流程:首先与AI讨论并生成内容大纲,随后使用Youmind或GPT等工具根据大纲生成配图与底图模板。将生成的图像直接粘贴至Keynote中,最后手动补充或调整无需AI生成的页面。该方法结合了AI自动化生成与人工灵活调整,显著提升了演示文稿的制作效率。

图像生成教程/实践
5月8日
23:33
歸藏(guizang.ai)@op7418
72
抖音"法天象地"特效:从图片生成到视频优化的突破

抖音近期流行的“法天象地”户外照片特效多基于图片生成,但实际测试表明直接生成视频效果更佳。作者通过优化提示词实现了这一改进,关键采用了 GPT-Image-2.0 与 C-Down 3.0 技术组合,并将优化后的图片提示词附在视频内容后供参考。这一方法提升了特效的动态表现力与视觉冲击力。

图像生成教程/实践视频
23:15
Google Blog:AI(RSS)
45
看创意传奇人物如何用AI为小企业制作广告

谷歌推出"The Small Brief"项目,邀请四位广告业偶像——Susan、David、Victoria和Penny,运用AI工具为本地企业创作广告。他们使用VideoFX、ImageFX等生成式AI技术,在48小时内为旧金山湾区四家小企业完成广告制作。数据显示,AI生成的广告在关键效果指标上表现优于传统广告,其中一家企业的广告效果提升达30%。该项目展示了AI如何降低创意门槛,让小企业也能获得高质量的广告内容。

Google图像生成行业动态
17:26
-Zho-@ZHO_ZHO_ZHO
52
AI图像生成未达设计标准,保罗·兰德阐释设计本质

推文引用设计师保罗·兰德的观点,指出仅将视觉元素进行美观排列不等于好的布局,这是对平面设计师职能的误解。作者借此解释当前AI图像生成技术为何尚未达到真正的设计标准。兰德强调,设计超越表面的视觉组合,涉及更深层的构思与判断,而这正是当前AI所缺乏的核心能力。

图像生成大佬观点
15:16
IT之家(RSS)
63
新研究点破 AI 生图弱点:透视线和阴影最容易露馅

《科学》最新研究指出,AI图像生成器虽已修复畸形手指等早期缺陷,但在光照、阴影、反射和透视几何上仍存在明显破绽。研究者指出,鉴别重点已转向“物理规则是否合理”。AI生成的图片因色彩鲜艳、戏剧感强,更接近大众对现实的想象,故易于传播。论文推荐通过检查“消失点”来鉴别:现实中平行线应汇聚于同一点,若图像中线条无法合理相交,则空间关系不成立。此方法同样适用于分析反射与阴影的平行光透视规律。

图像生成安全/对齐教程/实践
12:21
Berryxia.AI@berryxia
24
用户@berryxia在星巴克活动期间,偶然创作出一个高效的GPT提示词,并在多个案例中验证了其出色的效果,对此感到惊喜。主推文作者在看到麦当劳的海报后,联想到此提示词可能带来的提升效果,并以幽默口吻询问反馈。核心在于分享一个由日常场景激发、经过实践验证的优秀AI工具使用技巧。

Berryxia.AI: 卧槽!GPT每天有惊喜啊! 星巴克领Trae 的咖啡羊毛,顺手搞了个提示词! 发现好用啊!! 搞了几个案例是真的nice哦~ 有喜欢想要的🙋

OpenAI图像生成教程/实践
11:44
向阳乔木@vista8
59
好像是丁师傅分享的网站? 趋势中的HTML模版都好有设计感,可以发给AI参考学习。 不然Claude 和 Codex的默认设计风格,很快就会成为新的AI味。 网址见评论
图像生成教程/实践
11:22
HuggingFace Daily Papers(社区热门论文)
69
SwiftI2V:通过条件分段生成实现高效高分辨率图像到视频生成

SwiftI2V是一个针对高分辨率图像到视频生成的高效框架,旨在解决2K分辨率下的效率与保真度难题。它采用两阶段设计:首先生成低分辨率运动参考以降低计算负担,随后进行强图像条件的2K合成以恢复输入细节。其核心创新是条件分段生成技术,通过分段合成控制每步令牌预算,并利用双向上下文交互提升片段连贯性与输入保真度。在VBench-I2V基准测试中,该框架在2K分辨率下性能与端到端基线相当,同时将总GPU时间大幅减少202倍,使得在单张数据中心或消费级GPU上实现实用的2K图像到视频生成成为可能。

图像生成视频论文/研究
11:22
HuggingFace Daily Papers(社区热门论文)
60
连续时间分布匹配用于少步扩散蒸馏

现有分布匹配蒸馏方法依赖离散时间锚点进行监督,易导致视觉伪影和平滑。本研究提出连续时间分布匹配方法,首次将该框架迁移至连续时间优化。其核心是通过动态连续时间表替代固定离散表,使匹配能在采样轨迹任意点执行;并引入连续时间对齐目标,利用学生速度场外推隐变量进行主动离轨匹配,以提升泛化能力并保留细节。在SD3-Medium等架构上的实验表明,该方法无需复杂辅助模块即可在少步生成中实现极具竞争力的视觉保真度。

图像生成论文/研究
10:22
HuggingFace Daily Papers(社区热门论文)
66
MARBLE:面向扩散模型强化学习的多维度奖励平衡框架

针对扩散模型基于人类偏好进行强化学习微调时多奖励难以协同优化的问题,研究团队提出MARBLE框架。该框架摒弃了传统加权求和方法,为每个奖励维护独立优势估计器,并通过求解二次规划问题,在梯度空间将各奖励策略梯度协调为单一更新方向,无需手动调整权重。结合摊销化计算与平滑技术,其单步计算成本降至接近单奖励基线水平。实验表明,MARBLE能同时提升所有奖励维度,显著改善最差对齐奖励的优化方向,且训练速度接近基线方法。

图像生成多模态安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
Implicit Preference Alignment for Human Image Animation

针对人体图像动画中高自由度、复杂的手部动作生成难题,研究者提出了隐式偏好对齐框架。该方法无需构建严格配对的偏好数据,通过最大化自生成高质量样本的似然并惩罚与预训练先验的偏差来实现模型对齐。框架还引入了手部感知局部优化机制,以显式引导手部区域的生成质量。实验表明,该方法能有效优化手部生成质量,同时大幅降低了构建偏好数据的门槛。相关代码已开源。

arXivGitHub图像生成视频
08:00
HuggingFace Daily Papers(社区热门论文)
46
SplatWeaver:一种为可泛化新视角合成动态分配高斯图元的框架

针对现有基于3D高斯泼溅的方法为每个像素或体素分配固定数量图元,导致资源分配不均的问题,本文提出SplatWeaver框架。该框架引入一组基数高斯专家和一个像素级路由方案,能以前馈方式自适应地为不同空间位置分配0到M个高斯图元。通过结合高频先验与路由正则化,引导路由机制向精细结构、复杂几何和纹理区域分配更多图元,同时抑制平滑区域的冗余。多场景实验表明,SplatWeaver能以更少的图元数量,持续生成比现有先进方法更逼真的新视角渲染结果。

图像生成开源生态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
BalCapRL:基于强化学习的平衡型多模态大语言模型图像描述框架

针对现有基于强化学习的图像描述方法在追求细节时易在核心维度产生权衡的问题,研究团队提出了BalCapRL平衡框架。该框架联合优化实用性正确性、参考覆盖度和语言质量,通过采用GDPO风格的奖励解耦归一化处理连续值奖励,并引入长度条件奖励掩码以施加更合适的长度惩罚。在多个基础模型上的实验表明,该方法能一致提升描述质量,不同模型的峰值提升分别达到DCScore +13.6、CaptionQA +9.0和CapArena +29.0。

arXiv图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
Delta-Adapter:基于单对图像监督的可扩展范例编辑

本文提出Delta-Adapter,一种仅需单对源-目标图像监督的范例图像编辑新方法。该方法利用预训练视觉编码器从范例对中提取编码视觉变换的“语义增量”,并通过基于Perceiver的适配器将其注入预训练编辑模型。由于模型从未直接看到目标图像,后者可作为预测目标,从而实现了单对监督训练,并能利用现有大规模编辑数据集。此外,引入的语义增量一致性损失确保了生成变化与真实语义增量对齐。实验表明,该方法在多种编辑任务上显著提升了编辑准确性与内容一致性,并能有效泛化至未见过的编辑类型。

图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
SCOPE:面向复杂图像生成的结构化分解与条件技能编排框架

针对复杂图像生成中语义承诺难以持续追踪的“概念断层”问题,本文提出了SCOPE框架。该框架通过维护一个动态演化的结构化规范来管理语义承诺,并围绕未解决或被违反的承诺,有条件地调用检索、推理和修复等技能。为评估承诺级别的意图实现效果,研究构建了人工标注基准Gen-Arena并提出了严格的“实体门控意图通过率”指标。实验表明,SCOPE在Gen-Arena上以0.60的EGIP显著超越所有基线模型,在WISE-V和MindBench基准上也表现出色,验证了持续承诺跟踪的有效性。

arXiv图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
先验对齐自编码器:为潜在扩散模型构建友好的潜在流形

本文研究了潜在扩散模型所需潜在流形的关键特性,提出了三个核心属性:连贯的空间结构、局部流形连续性和全局流形语义。基于此发现,研究者设计了先验对齐自编码器(PAE),它通过利用视觉基础模型提炼的先验和基于扰动的正则化,将这些属性转化为明确的训练目标,从而主动塑造对生成友好的潜在空间。在ImageNet 256x256数据集上的实验表明,PAE在训练效率和生成质量上均优于现有分词器,在相同设置下收敛速度比RAE快达13倍,并取得了1.03的最新最优gFID分数。

图像生成开源生态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
Flow-OPD:面向流匹配模型的在线策略蒸馏框架

针对流匹配文本到图像模型在多任务对齐中面临的奖励稀疏与梯度干扰问题,本研究提出首个统一后训练框架Flow-OPD。该框架采用两阶段策略:先通过单奖励微调培养领域专家教师模型,再利用基于流匹配的冷启动方案建立初始策略,并通过在线采样、任务路由标注和密集轨迹监督三步整合异构专业知识。引入的流形锚点正则化技术,借助任务无关教师提供全数据监督,有效缓解了纯强化学习对齐常见的美学质量下降。实验表明,Flow-OPD显著提升了多项性能指标,并保持了图像保真度与人类偏好对齐。

图像生成安全/对齐论文/研究
‹ 上一页
1…1819202122…30
下一页 ›