AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「图像生成」清除
5月8日周五
08:00HuggingFace Daily Papers(社区热门论文)54归一化轨迹模型
08:00HuggingFace Daily Papers(社区热门论文)64STARFlow2:连接语言模型与标准化流以实现统一多模态生成
07:05OpenRouter56Recraft V4图像生成模型上线OpenRouter
06:05Orange AI49GPT Image 2.0能力深不可测,Labnana社区提供免费体验
01:38Ethan Mollick52OpenAI缺席PPT工具引关注,图像生成优势未发挥
5月7日周四
23:21Berryxia.AI76精选SenseNova-U1开源8步蒸馏LoRA,扩散模型推理提速11倍
20:33PixVerse724K超分功能上线 限时免费体验与优惠
19:58公众号:龙猫LongCat(美团)53报名|CVPR 2026 美团学术论文精选及分享会
15:20Berryxia.AI612026年语音设计打印一体化
11:04Hacker News 热门(buzzing.cc 中文翻译)65学习扩散模型的积分
10:22HuggingFace Daily Papers(社区热门论文)54StableI2I:识别图像转换中的非预期变化
10:22HuggingFace Daily Papers(社区热门论文)65D-OPSD:基于在线策略自蒸馏的步数蒸馏扩散模型持续微调方法
09:09xAI76xAI API推出图像生成质量模式
08:30Apple Machine Learning Research(RSS)61精选Normalizing Flows with Iterative Denoising
08:00HuggingFace Daily Papers(社区热门论文)49Relit-LiVE:通过联合学习环境视频实现视频重照明
08:00HuggingFace Daily Papers(社区热门论文)58Steering Visual Generation in Unified Multimodal Models with Understanding Supervision
02:08Google Gemini67精选个人智能与Nano Banana 2协同创作图像
00:33AK46利用空间变色基元增强高斯泼溅技术
5月6日周三
22:36SenseTime71精选SenseNova-U1开源8步蒸馏LoRA,推理速度大幅提升
22:04meng shao57Luma Uni-1 为图像生成模型增加可编程推理层
20:16IT之家(RSS)48《刺客信条》回应网传新作截图:可能是 AI 改的,但项目已在推进
15:36向阳乔木47利用HTML5 Canvas库在Markdown编辑器中便捷拼图
15:16IT之家(RSS)51前沃尔玛电商业务 CEO 马克 · 劳尔:将来任何人都能用 AI"开餐厅"
14:16IT之家(RSS)30卡普空回应 DLSS 5"美颜"格蕾丝:感谢玩家维护《生化危机:安魂曲》游戏女主形象
10:15IT之家(RSS)45美图公司:2026 年一季度全球付费用户超 1790 万创新高,同比增长 30.2%
09:31宝玉70GPT Image 2 Prompt生成蜡笔小新一家合影的提示词描述
08:01Luma70推出Uni-1.1 API。 它通过简报进行推理,而不仅仅是处理标记。首次生成的结果即可实际交付。 无需中间件,无需提示工程。时尚工具。建筑渲染器。漫画制作流程。每个垂直领域都具备电影级品质。 可指挥的智能。可交付的审美。→ http://lumalabs.ai/api
05:31Luma64向Uni-1.1 API打个招呼。 足够智能,能够推理简报。足够有文化,能理解每种视觉传统中的美学语境。足够可控,能精准到达您指定的方向。 真正反映您品牌愿景的定制流程。现在对所有使用图像生成的团队开放。 停止生成。开始交付 → http://lumalabs.ai/api
04:17HuggingFace Daily Papers(社区热门论文)55一种缩小游戏引擎合成数据集中 Sim2Real 外观差异的混合方法
03:57AK65ComboStoc 扩散生成模型的组合随机性 论文: https://huggingface.co/papers/2405.13729
02:27Rohan Paul73Luma发布Uni-1.1 API,主打意图优先图像生成
00:57AI Notkilleveryoneism Memes ⏸️43截图真实性陷信任危机
5月5日周二
23:56Luma70Uni-1.1 API上线,内置提示增强与多模态能力
23:56Luma71前沿多模态,赋能商业应用
23:29TestingCatalog News 🗞60AI Studio集成Nano Banana优化图像生成
20:14阿绎 AYi73AI虚拟伴侣揭露:情感剥削与真实关系危机
13:14阿绎 AYi64起步成本90美元,30秒一条视频:AI换脸工具带来的低门槛高杠杆生意
12:17HuggingFace Daily Papers(社区热门论文)53基于轨道空间几何概率路径的粒子系统生成建模
08:16Simon Willison 博客44Granite 4.1 3B模型SVG鹈鹕图集
08:00HuggingFace Daily Papers(社区热门论文)66唤醒统一多模态理解与生成中的空间智能
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月8日
08:00
HuggingFace Daily Papers(社区热门论文)
54
归一化轨迹模型

针对扩散模型在少步采样时假设失效的问题,研究团队提出了归一化轨迹模型(NTM)。该模型将反向采样的每一步建模为具有精确似然训练的条件归一化流,其架构结合了步内的浅层可逆模块与跨轨迹的深度并行预测器,支持从零训练或由预训练流匹配模型初始化。NTM的精确轨迹似然使其能进行自蒸馏,仅需一个轻量级去噪器即可在四步内生成高质量样本。在文本到图像基准测试中,NTM仅用四步采样就能匹配或超越现有强基线,并独特地保持了生成轨迹的精确似然。

图像生成数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
STARFlow2:连接语言模型与标准化流以实现统一多模态生成

为构建真正统一的文本-图像序列生成模型,研究团队提出STARFlow2。该模型基于Pretzel架构,通过残差跳跃连接垂直交织预训练视觉语言模型流与TarFlow流,两者共享因果掩码。结合深浅流设计与统一的FAE潜在空间,STARFlow2实现了缓存友好的交错生成,文本与视觉输出可直接进入KV缓存而无需重新编码。实验证明,该模型在图像生成与多模态理解任务上均表现优异,验证了自回归标准化流作为统一多模态建模基础的可行性。

arXiv图像生成多模态论文/研究
07:05
OpenRouter@OpenRouter
56
现已在OpenRouter上线:@recraftai。 Recraft V4是一款为高审美调校的图像生成模型--具备艺术指导的构图、光影与色彩,呈现精心设计感而非素材堆砌。该模型与艺术家和设计师共同打造,适用于品牌塑造、概念创作和创意探索。 更多关于V4和V4 Pro的信息如下 🧵
产品更新图像生成
06:05
Orange AI@oran_ge
49
GPT Image 2.0能力深不可测,Labnana社区提供免费体验

GPT Image 2.0模型发布后持续展现惊人能力,无需参考图即可根据名称或IP生成高质量内容,尤其在二次元画风上表现卓越,被社区认为远超Banana 2等模型。Labnana社区现已将GPT Image 2.0的免费体验作为长期福利,用户通过签到和邀请获取积分即可基本满足使用需求。

OpenAI图像生成评测/基准
01:38
Ethan Mollick@emollick
52
OpenAI for Excel相当实用(Claude for Excel也是),令人惊讶的是,与Claude不同,目前没有OpenAI for PowerPoint,尤其因为这是OpenAI的一大优势所在:Imagegen-2可以直接生成非常优质的幻灯片/图像,而Claude没有图像制作功能。
图像生成多模态大佬观点
5月7日
23:21
Berryxia.AI@berryxia
精选76
SenseNova-U1开源8步蒸馏LoRA,扩散模型推理提速11倍

SenseNova-U1开源了一项8步蒸馏LoRA技术,将扩散模型的生成步骤从100步压缩至8步,使GPU推理时间从23秒大幅缩短至2秒,速度提升达11倍。该技术同时完整支持ComfyUI,并提供了文本生图、图像编辑和交错生成等开箱即用的工作流程。此举标志着扩散模型从研究阶段迈向实用化,引发了业界关于未来应聚焦参数规模竞赛还是追求速度与实用性的讨论。

Ziwei Liu: 🚀SenseNova-U1 Update🚀 ⚡Open-source an 8-step distilled LoRA: 100 NFE → 8 NFE, cutting GPU inference from 23s to 2s 🧩C...

图像生成开源/仓库部署/工程

推荐理由:这个LoRA把扩散模型推理从23秒压到2秒,还带全套ComfyUI工作流,玩图像生成的人今天就应该装上去试试,速度飞升11倍是真的能立刻用上。
20:33
PixVerse@PixVerse_
72
4K超分功能现已上线!在一处增强您的图像和视频。 获得3次免费使用机会,之后享受35%的积分折扣。 限时活动:5月7日至14日,UTC时间08:00。 转发+关注+回复=私信领取300积分(仅限72小时)。
产品更新图像生成视频
19:58
公众号:龙猫LongCat(美团)
53
报名|CVPR 2026 美团学术论文精选及分享会

美团技术团队将于5月21日(周四)下午举办线上直播,分享CVPR 2026学术论文精选。

图像生成行业动态
15:20
Berryxia.AI@berryxia
61
2026靠嘴设计、打印、出品一条龙了!
图像生成多模态教程/实践
11:04
Hacker News 热门(buzzing.cc 中文翻译)
65
学习扩散模型的积分

研究人员发布了学习扩散模型积分的新方法,称为Flow Maps,该技术通过数学积分优化扩散过程的概率流,提升生成AI模型的采样效率和图像质量。在Hacker News上获得102点,显示科技社区的高度关注。这一进展可能降低扩散模型的计算成本,推动其在图像生成等领域的实际应用,为生成模型训练提供更高效的解决方案。

图像生成论文/研究
10:22
HuggingFace Daily Papers(社区热门论文)
54
StableI2I:识别图像转换中的非预期变化

针对现有评估方法在图像到图像转换任务中忽视内容保真度与前后一致性的问题,研究团队提出了StableI2I。这是一个无需参考图像的动态评估框架,能在图像编辑、修复等多种任务中量化语义对应与空间结构的保持程度。团队同时构建了配套基准StableI2I-Bench,用于系统评估多模态大模型在此类判断任务上的准确性。实验表明,该框架能提供精细、可解释的评估结果,且与人类主观判断高度相关,可作为诊断真实世界图像转换系统内容一致性与模型性能的实用工具。

图像生成论文/研究评测/基准
10:22
HuggingFace Daily Papers(社区热门论文)
65
D-OPSD:基于在线策略自蒸馏的步数蒸馏扩散模型持续微调方法

针对高性能少步图像生成模型(如Z-Image-Turbo)在持续监督微调中会损害其固有少步推理能力的问题,本文提出D-OPSD训练范式。该方法利用以LLM/VLM为编码器的扩散模型可继承上下文能力的特点,将训练构建为在线策略自蒸馏过程:模型同时扮演教师(以文本和图像多模态特征为条件)和学生(仅以文本特征为条件)双重角色,并通过最小化其在自身生成轨迹上两个预测分布的差异进行优化。这使得模型能在自身监督下学习新概念或风格,同时保持原有的高效少步生成能力。

图像生成数据/训练论文/研究
09:09
xAI@xai
76
图像生成质量模式现已在xAI API上线。 该模型已为Grok平台生成超过3亿张图像。 它为商业用户带来更高真实感、更强文本渲染能力和更优创意控制。 https://x.ai/news/grok-imagine-quality-mode
xAI产品更新图像生成多模态
08:30
Apple Machine Learning Research(RSS)
精选61
Normalizing Flows with Iterative Denoising

研究团队在归一化流(NFs)生成模型领域取得新进展,提出了迭代TARFlow(iTARFlow)。该方法在训练阶段保持完全端到端的基于似然的目标,采样时则采用自回归生成方式。iTARFlow延续了TARFlow在图像建模任务上的优势,使其成为扩散模型等方法的可行替代方案,进一步提升了归一化流生成模型的性能表现。

图像生成论文/研究

推荐理由:Normalizing Flows 这个老方法被苹果玩出新花样,iTARFlow 在训练上保留端到端似然,采样却自回归,给做生成模型的人提供了扩散模型之外的第二个靠谱选择。
08:00
HuggingFace Daily Papers(社区热门论文)
49
Relit-LiVE:通过联合学习环境视频实现视频重照明

Relit-LiVE提出了一种无需相机姿态先验知识的视频重照明框架。其核心创新在于,将原始参考图像显式引入渲染过程,以恢复固有表示中丢失的关键场景信息;同时,通过单一扩散过程联合预测重照明视频与每帧对齐的环境光照图,增强了几何-光照对齐性,显著提升了动态光照和相机运动下的物理一致性与时间稳定性。实验表明,该方法在合成与真实场景基准测试中均优于现有先进方法,并支持场景渲染、材质编辑等下游应用。

arXiv图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
58
Steering Visual Generation in Unified Multimodal Models with Understanding Supervision

研究团队提出了理解导向的后训练框架UNO,旨在通过理解任务直接引导生成表征,以增强统一多模态模型中理解与生成组件间的协同。该框架整合了语义抽象(如图像描述)和结构细节(如视觉回归)目标,实现了从理解到生成的有效梯度流动。在图像生成与编辑任务上的实验表明,理解监督能显著提升生成质量,证实了理解对生成的催化作用。

图像生成多模态论文/研究
02:08
Google Gemini@GeminiApp
精选67
通过个人智能与Nano Banana 2的协同工作,您现在可以将兴趣转化为Gemini中的图像。 请勿错过我们在Discord上的下一次社区活动,届时将有最新版本团队的现场演示和问答环节。 👉加入我们的Discord观看直播:http://discord.gg/gemini 📅 今天太平洋时间中午12:00
Google产品更新图像生成多模态

推荐理由:Nano Banana 2 把 Gemini 的图像生成从写 prompt 变成了识别你的兴趣,不用费力描述也能出图,对普通用户可能是真痛点,看直播看看实际效果。
00:33
AK@_akhaliq
46
SVGS 利用空间变色基元增强高斯泼溅技术 论文:https://huggingface.co/papers/2411.18966
图像生成论文/研究
5月6日
22:36
SenseTime@SenseTime_AI
精选71
🚀 SenseNova-U1 更新: ⚡ 开源8步蒸馏LoRA:100 NFE降至8 NFE,H100推理时间从23秒缩短至2秒 🧩 现已支持ComfyUI,提供文生图、图像编辑和交错生成的即用工作流 试用链接 👇 https://github.com/OpenSenseNova/SenseNova-U1/
图像生成开源/仓库推理模型发布

推荐理由:从100步到8步,23秒压到2秒,商汤这个蒸馏LoRA把U1的推理成本打下来了,做实时图像应用的可以认真看看,ComfyUI一接就能跑。
22:04
meng shao@shao__meng
57
Luma发布的Uni-1图像生成模型在提示词与像素生成之间引入了一个显式推理步骤,用于解读创意方向并消除歧义。这一关键推理层现已通过API对外可编程开放,使其不再是黑盒,允许开发者将Uni-1作为智能基础设施集成到生产流程中。主要应用模式包括嵌入产品作为创作引擎、构建自定义多阶段工作流或开发独立工具。API提供的核心能力涵盖基于参考图像的风格或角色约束生成、在模型层面强制保持视觉一致性,以及通过自然语言指令进行精准编辑。

Sumanth: Luma just released Uni-1, an image generation model that reasons first! The shift: image generation models typically wor...

图像生成推理模型发布
20:16
IT之家(RSS)
48
《刺客信条》回应网传新作截图:可能是 AI 改的,但项目已在推进

《刺客信条》官方回应了网传多人游戏新作《刺客信条:不败》的截图,指出图片虽可能源自内部私人测试,但已被“大幅修改”,很可能是AI编辑所致,并批评了传播错误信息的行为。爆料用户随后承认对原图进行了编辑,包括修改服装颜色和移除水印。官方确认该项目正在推进,由育碧蒙特利尔开发,采用边测试边学习的方式,并强调玩家反馈是核心,未来将在适当时机分享更多内容。

图像生成行业动态
15:36
向阳乔木@vista8
47
利用HTML5 Canvas库在Markdown编辑器中便捷拼图

作者在撰写教程时,常需拼接多张图片,但使用Figma等工具较为笨重。在与AI讨论后,其推荐了一个HTML5 Canvas库来解决此问题。作者计划将该库整合到Markdown编辑器中,以便直接在编辑环境内完成图片拼接,再将结果插入文章,从而简化工作流程。相关Github项目链接可在评论区查看。

图像生成开源/仓库
15:16
IT之家(RSS)
51
前沃尔玛电商业务 CEO 马克 · 劳尔:将来任何人都能用 AI"开餐厅"

前沃尔玛电商业务CEO马克·劳尔在其餐饮平台Wonder中推出AI工具“Wonder Create”,用户可在不到一分钟内生成完整的虚拟餐厅品牌,包括名称、描述、图片及菜谱。Wonder平台采用“可编程烹饪平台”模式,配备机器人厨房与700种食材库,能灵活切换25种菜系。该创新旨在大幅降低餐饮创业门槛,让用户快速测试新菜品与品牌概念。

产品更新图像生成多模态
14:16
IT之家(RSS)
30
卡普空回应 DLSS 5"美颜"格蕾丝:感谢玩家维护《生化危机:安魂曲》游戏女主形象

英伟达在GTC 2026展示DLSS 5技术时,将《生化危机:安魂曲》女主角格蕾丝的形象AI修改为轮廓更锐利、眼睛不同、嘴唇更丰满的“美颜”效果,引发玩家强烈反感。玩家普遍认为原版设计更具真实感和个性。对此,游戏总监中西晃史回应称,玩家维护原版形象恰恰证明这个新角色获得了成功和认可,这让他对原创设计充满信心。制作人熊泽正人也表示,玩家对原版外观的强烈认同是积极信号。

图像生成行业动态
10:15
IT之家(RSS)
45
美图公司:2026 年一季度全球付费用户超 1790 万创新高,同比增长 30.2%

美图公司2026年第一季度业绩显示,其全球付费订阅用户数突破1790万,同比增长30.2%,创历史新高。以付费订阅为主的影像与设计产品收入达8.52亿元,同比增长34.3%。公司首次披露AI生产力应用年度经常性收入(ARR)约为5.8亿元,同比大幅增长56.2%,相关付费用户增至234万。此外,用户对AI算力点的消耗金额也呈现快速增长态势。

图像生成行业动态
09:31
宝玉@dotey
70
GPT Image 2 Prompt生成蜡笔小新一家合影的提示词描述

用户利用GPT Image 2 Prompt功能,描述生成一张半写实半动画照片,其中用户与动画角色野原新之助(小新)及其全家合影。照片要求小新、父亲广志、母亲美冴、妹妹向日葵和宠物小白保持原始动画形象,并自然融入真实环境。每个角色被赋予特定性格:小新滑稽淘气,广志温和朴实,美冴表情丰富略带严厉,小葵天真可爱,小白软萌伶俐。同时,引用推文展示了类似提示词,用于生成高度写实、角色略带风格化且与环境自然融合的照片,强调提示词在AI图像生成中的应用。

Ai Bella: Pic 1: GPT Pic 2: Nano banana Prompt ⬇️⬇️⬇️ Create a highly realistic photo where I am standing with Shinchan Nohara and...

OpenAI图像生成教程/实践
08:01
Luma@LumaLabsAI
70
推出Uni-1.1 API。 它通过简报进行推理,而不仅仅是处理标记。首次生成的结果即可实际交付。 无需中间件,无需提示工程。时尚工具。建筑渲染器。漫画制作流程。每个垂直领域都具备电影级品质。 可指挥的智能。可交付的审美。→ http://lumalabs.ai/api
产品更新图像生成视频
05:31
Luma@LumaLabsAI
64
向Uni-1.1 API打个招呼。 足够智能,能够推理简报。足够有文化,能理解每种视觉传统中的美学语境。足够可控,能精准到达您指定的方向。 真正反映您品牌愿景的定制流程。现在对所有使用图像生成的团队开放。 停止生成。开始交付 → http://lumalabs.ai/api
产品更新图像生成
04:17
HuggingFace Daily Papers(社区热门论文)
55
一种缩小游戏引擎合成数据集中 Sim2Real 外观差异的混合方法

研究提出一种混合方法,旨在缩小游戏引擎合成数据与真实图像之间的外观差异。该方法结合了先进图像生成扩散模型 FLUX.2-4B Klein 与传统图像翻译模型 REGEN 的优势。实验表明,传统模型 REGEN 在性能上优于 FLUX.2-4B Klein,而将两者结合使用的混合方法,能够比单独使用任一模型获得更好的视觉真实感,同时保持语义一致性。相关代码已在 GitHub 开源。

arXiv图像生成数据/训练论文/研究
03:57
AK@_akhaliq
65
ComboStoc 扩散生成模型的组合随机性 论文: https://huggingface.co/papers/2405.13729
图像生成论文/研究
02:27
Rohan Paul@rohanpaul_ai
73
Luma发布Uni-1.1 API,主打意图优先图像生成

Luma的Uni-1.1模型现已作为API开放。这是一个用于图像生成和自然语言编辑的统一智能模型,其核心特点是“意图优先”的图像生成。模型在生成前会进行思考,能补全场景缺失部分,理解空间上下文而非仅像素,并能基于参考图像保持一致性。该API内置提示词增强、研究和参考收集功能,专为生产环境打造。据称,其成本和延迟仅为同类模型的一半以下,且在图像生成与编辑的综合评测中位列前三。

Luma: The Uni-1.1 API is live today. Built-in prompt enhancement, research, and reference gathering at the API level. Trained ...

产品更新图像生成多模态
00:57
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
43
不,说真的,你不能再相信截图了
图像生成安全/对齐
5月5日
23:56
Luma@LumaLabsAI
70
Uni-1.1 API 今日上线。在 API 层面内置提示增强、研究和参考资料收集功能。 与好莱坞电影摄影师、视觉特效艺术家以及跨文化形式的世界级艺术家合作训练。 价格和延迟仅为同类模型的一半以下。 专为在生产环境中部署产品的开发者设计--在 Image Arena 的文本到图像和图像编辑类别中排名前三。 开始构建 → https://lumalabs.ai/api
产品更新图像生成视频
23:56
Luma@LumaLabsAI
71
Luma Labs 推出的 UNI-1.1-Max 和 UNI-1.1 多模态模型在 Image Arena 的文本生成图像与图像编辑综合排名中位列第三,且未采用智能体搜索技术。具体来看,在文本生成图像竞技场中,两款模型分别排名第六和第七;在多图像编辑和单图像编辑竞技场中,它们均进入前十一名,其中 UNI-1.1-Max 在单图像编辑中排名第七。这一成绩标志着 Luma Labs 在多模态前沿领域取得了扎实进展。

Arena.ai: Exciting news: UNI-1.1-Max and UNI-1.1 debuts making @LumaLabsAI the #3 lab in the Image Arena across both Text-to-Image...

图像生成模型发布评测/基准
23:29
TestingCatalog News 🗞@testingcatalog
60
AI Studio 现已可使用 Nano Banana 进行图像生成,以调整通过 AI Studio Build 生成的应用中的图像。

Google AI Studio: new in ai studio ⬇️ we've integrated @nanobanana to automatically create custom image assets for your app as it generate...

Google产品更新图像生成
20:14
阿绎 AYi@AYi_AInotes
73
AI虚拟伴侣揭露:情感剥削与真实关系危机

一段视频揭露,OnlyFans等平台上的“完美女孩”实为AI系统生成的虚拟伴侣。技术通过Claude维持人格记忆、Flux实时生成图像视频、ElevenLabs克隆声音,仅需少量代码与API费用即可自动运行。系统能精准满足用户情感需求,同步模仿真人动作表情,形成极致的情感剥削。随着AI技术成熟,平台身份验证形同虚设,未来大部分账号可能被AI取代。核心矛盾在于,即使知晓对方是虚拟存在,用户仍可能为获得“完美陪伴”付费,引发真实与虚假关系的深刻伦理危机。

Anthropic图像生成现象/趋势语音
13:14
阿绎 AYi@AYi_AInotes
64
起步成本90美元,30秒一条视频:AI换脸工具带来的低门槛高杠杆生意

文章介绍一款年费89.99美元的在线AI换脸工具Swaptok,用户可通过四步流程在30秒内将TikTok或Reels公开视频中的人脸替换为AI生成的高清人脸,单条成本极低。作者提出四条变现路径:运营AI网红矩阵账号、承接品牌广告外包、为自有产品制作素材以及出售课程或服务。同时指出需进行二次创作避免限流、注意版权风险及把握红利期等关键建议,视其为技术发展催生的新内容生产方式。

图像生成教程/实践视频
12:17
HuggingFace Daily Papers(社区热门论文)
53
基于轨道空间几何概率路径的粒子系统生成建模

研究团队提出轨道空间几何概率路径(OGPP),这是一个专为粒子系统生成建模设计的原生粒子流匹配框架。该框架基于两个核心洞见:粒子具有置换对称性,匿名索引会导致难以学习的弯曲流;粒子存在于物理空间,其流终端速度可编码几何属性(如表面法线)。OGPP包含三个关键组件:轨道空间规范化、粒子索引嵌入以及具有弧长感知终端速度的几何概率路径。实验表明,在最小表面基准测试中,OGPP单步推理将误差降低达两个数量级;在ShapeNet上,它以更少的步骤和参数达到或超越了当前最佳性能;在单形状编码任务中,其完全在3D空间运行,生成的法线与重建结果可与6D生成器竞争。

图像生成论文/研究
08:16
Simon Willison 博客
44
Granite 4.1 3B模型SVG鹈鹕图集

IBM近日发布了采用Apache 2.0许可证的Granite 4.1大语言模型系列。随后,Unsloth提供了该系列3B模型的21个GGUF量化变体。作者利用这些大小从1.2GB到6.34GB不等的量化模型,尝试生成“鹈鹕骑自行车”的SVG图像以测试其能力。实验结果显示,所有模型生成的图像质量均较差,且未观察到模型大小与输出质量之间存在明显关联。基于此次不理想的尝试,作者表示未来将选用更擅长图像生成的模型重新进行此类实验。

图像生成开源生态评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
66
唤醒统一多模态理解与生成中的空间智能

JoyAI-Image是一个统一的多模态基础模型,集成了视觉理解、文本生成图像和指令引导的图像编辑功能。它通过空间增强的多模态大语言模型与多模态扩散变换器的耦合架构,实现了感知与生成的交互。其可扩展的训练方案融合了统一指令调优、长文本渲染监督及空间编辑信号,增强了模型的几何感知推理与可控视觉合成能力。实验表明,该模型在多项基准测试中达到领先或极具竞争力的性能。其核心在于通过增强理解、可控空间编辑和新视角推理之间的双向循环,推动模型向更强的空间智能演进,为下游应用提供了新路径。

图像生成多模态推理论文/研究
‹ 上一页
1…1920212223…30
下一页 ›