AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「图像生成」清除
6月26日周五
00:19Artificial Analysis68微软 MAI-Image-2.5 在 Artificial Analysis Image Arena 排行榜位列文本到图像第2、图像编辑第3
6月25日周四
22:58IT之家(RSS)56Adobe 宣布收购 Topaz Labs 强化 AI 视频与图像布局,交易预计 2026 年下半年完成
21:37TechCrunch:AI(RSS)64Adobe 收购图像与视频增强工具开发商 Topaz Labs
19:30公众号:百度智能云(文心)48百度智能云联合五家伙伴,加速AIGC内容工业化生产
19:20公众号:生数科技(Vidu·视频)38生数科技与极豆科技达成战略合作,共建汽车行业AIGC解决方案
16:58IT之家(RSS)42消息称商汤科技正研发新图像模型:代号U1 Pro,内部称对标OpenAI
15:35Chubby♨️29Dreamina Octo的Vibe Create工作流制短片
14:54Alibaba Cloud43阿里云HappyHorse 1.1登陆Runware,支持多角色转换与故事板
14:54Alibaba Cloud50Happy Horse 1.1 迎来 Fal 加入生态系统
14:40公众号:京东JoyAI55JoyAI 上线「欢乐足球季」:上传照片一键生成足球主题动态视频
14:15Ethan Mollick315年前AI图像SOTA:Wombo生成
12:12HuggingFace Daily Papers(社区热门论文)41TryOnCrafter:通过可渲染4D试穿代理释放相机轨迹实现真实视频虚拟试穿
11:24Alibaba Cloud36HappyHorse 1.1 实现单件衣物多场景一致
09:19Orange AI45我还记得去年 lovart 的投资人问我们 你们做生图这个方向怎么跟 lovart 打 今天看文章才知道,lovart 的初始整个团队都走光了 世界变化真快
08:22AK21GLM 5.2 开发 krea-2-turbo Gradio 工作流
08:00HuggingFace Daily Papers(社区热门论文)49PolyFlow:面向艺术家风格网格生成的连续拓扑嵌入流匹配框架
08:00HuggingFace Daily Papers(社区热门论文)43SharpMoE: 面向扩散MoE的显著性引导精确路由
08:00HuggingFace Daily Papers(社区热门论文)48Qwen-Image-2.0-RL 技术报告
08:00HuggingFace Daily Papers(社区热门论文)65Qwen-Image-Agent:弥合真实图像生成中的上下文差距
08:00HuggingFace Daily Papers(社区热门论文)48LISA:基于似然分数对齐的视觉条件可控生成正则化方法
06:13🚨 AI News | TestingCatalog60Google Flow Agent 现可基于街景生成图片视频
00:39The Verge:AI(RSS)59Figma推出AI动态图形与着色器工具
00:35TechCrunch:AI(RSS)51Figma更新:新增代码层、动画和AI功能
6月24日周三
23:29Hacker News 热门(buzzing.cc 中文翻译)78Krea 2 技术报告
23:17Runway57Runway 推出单图广告本地化功能
23:12OpenRouter65OpenRouter 推出统一图像 API 聚合多模型
22:14PixVerse24PixVerse Originals S1《Change》发布
21:05fofr13怀念2022年Stable Diffusion氛围
19:44PixVerse23PixVerse AI视频用于游戏过场动画
19:31OpenRouter:Announcements(RSS)73精选OpenRouter推出统一图像API
17:46Orange AI38ListenHub 为新用户提供 50 张免费 GPT image 2 体验
15:09HuggingFace Daily Papers(社区热门论文)55FLAT: 前馈潜码三角形泼溅实现几何精确场景生成
13:12AYi70用户丢截图给 StepFun step-3.7-flash,2分多钟生成可用的文章头图生成器
11:12AYi34damn,以后做3D纹理不用再手画了,拍张照片直接能用🤯 做3D建模的看到这个估计要笑麻了, 随便拍个角度就能抠出完整纹理,且自动转无缝直接贴3D模型
10:49HuggingFace Daily Papers(社区热门论文)49DiffusionBench:扩散Transformer的整体评估基准
10:49HuggingFace Daily Papers(社区热门论文)52FLUX3D:扩散对齐稀疏表示的高保真3D高斯生成
08:00HuggingFace Daily Papers(社区热门论文)44MIMFlow:掩码图像建模与归一化流融合的端到端图像生成框架
08:00HuggingFace Daily Papers(社区热门论文)42COrigami:用于协同设计可折叠平面折纸的AI管道
07:07Hacker News 热门(buzzing.cc 中文翻译)48Lift4D:协调单视图3D估计与4D重建的真实场景框架
01:37Krea71精选Krea 2 技术报告正式发布
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月26日
00:19
Artificial Analysis@ArtificialAnlys
68
微软 MAI-Image-2.5 在 Artificial Analysis Image Arena 排行榜位列文本到图像第2、图像编辑第3

微软 MAI-Image-2.5 在 Artificial Analysis Image Arena 排行榜上位列文本到图像生成第2名、图像编辑第3名,仅次于 OpenAI 的图像模型。该模型支持文本到图像生成与图像编辑,最大输出分辨率约 1MP,支持灵活宽高比,上下文窗口 32K token。更快、更低成本的 MAI-Image-2.5-Flash 变体在文本到图像和图像编辑中分别排名第8和第6。API 定价:MAI-Image-2.5 为 $48/千图,Flash 版 $20/千图。模型已上线 Foundry API 和 MAI Playground,其中 MAI-Image-2.5 还可在 PowerPoint 和 OneDrive 中使用。

MicrosoftOpenAI图像生成多模态
6月25日
22:58
IT之家(RSS)
56
Adobe 宣布收购 Topaz Labs 强化 AI 视频与图像布局,交易预计 2026 年下半年完成

Adobe 宣布与 AI 图像及视频增强工具开发商 Topaz Labs 达成最终收购协议,交易预计 2026 年下半年完成,尚需监管批准。Topaz Labs 拥有超二十年技术积累,2025 年获艾美奖,旗下有 AI 视频放大模型 Astra、图像润饰模型 Wonder 及让大型 AI 模型在消费级 GPU 本地运行的 Neurostream。收购后其 AI 模型将整合至 Adobe Firefly 及 Photoshop、Lightroom、Premiere 等 Creative Cloud 产品,现有产品仍独立运营。CEO Eric Yang 将继续领导团队。

图像生成行业动态视频
21:37
TechCrunch:AI(RSS)
64
Adobe 收购图像与视频增强工具开发商 Topaz Labs

Adobe 本周四宣布收购图像与视频增强工具开发商 Topaz Labs。该公司成立已超过20年,去年凭其制作技术获艾美奖,近年推出 AI 视频升频模型 Astra 和图像修饰增强模型 Wonder,并开发了让大型视频模型在消费级 GPU 上运行的技术。Adobe 计划将 Topaz 的模型集成到 Firefly AI 应用及旗下编辑套件中,同时保留独立服务。交易预计2026年下半年完成。

图像生成行业动态视频
19:30
公众号:百度智能云(文心)
48
百度智能云联合五家伙伴,加速AIGC内容工业化生产

百度智能云携手酱油文化、VAST、炫佳科技、魔方元启、LIKEAI,将千帆、百舸等能力落地于AI漫剧、3D内容、短剧创作。酱油文化漫剧制作周期压缩90%,月产能超200部,单月营收达5000万量级,抖音破亿作品中五分之一出自其手。VAST的Tripo大模型基于百度百舸数秒生成生产级3D网格。炫佳科技Kino-AIGC模型通过网信办备案并登顶VBench,累计生成超10万分钟AI视频。魔方元启制作周期缩短50%-80%。LIKEAI实现7-10人班组单周单部短剧交付,代表作《哎呀,我的娘亲是女帝》上线24小时播放量超2亿。

图像生成行业动态视频
19:20
公众号:生数科技(Vidu·视频)
38
生数科技与极豆科技达成战略合作,共建汽车行业AIGC解决方案

6月24日,生数科技与极豆科技签署战略合作协议。双方将整合生数科技多模态大模型(Vidu等)与极豆科技汽车AI解决方案、AI中台及车规级研发能力,围绕座舱内容、车主服务等场景打造汽车行业AIGC解决方案。重点探索个性化欢迎、亲子互动、旅途影像等场景,通过模型接入与场景编排将内容生成从预置供给升级为实时动态生成。同时将AIGC延伸至通勤、补能、车辆服务等环节,探索API、SDK及私有化部署等交付方式。极豆科技已与30余家车企合作,累计量产装车超1400万辆。

图像生成多模态行业动态视频
16:58
IT之家(RSS)
42
消息称商汤科技正研发新图像模型:代号U1 Pro,内部称对标OpenAI

商汤科技正秘密研发一款面向“设计”场景的多模态大模型,内部代号U1 Pro,由首席科学家林达华牵头,属于日日新模型家族。该模型对标OpenAI的GPT-Image 2,能像“会思考的设计师”一样实现设计、生成、评审的长程循环,支持8K分辨率输出。预计今年7月启动内部邀请测试。知情人士称,在大量内部评测中,相同提示词下U1 Pro生成的图片效果与GPT-Image 2高度接近甚至更具优势。

图像生成行业动态
15:35
Chubby♨️@kimmonismus
29
这最初是一个用传统工具制作起来不现实的短片构思。 我最初的想法非常模糊,但在Dreamina Octo网页平台上尝试了新的Vibe Create工作流,最终输出效果非常好。以下是最终成片:
产品更新图像生成视频
14:54
Alibaba Cloud@alibaba_cloud
43
阿里云宣布HappyHorse 1.1已上线Runware平台,推出两项关键功能:多角色转换(Multi-character casting)--可将真实参考图像锁定到每个镜头;电影故事板(Cinematic storyboarding)--从单个提示词生成多镜头短片。相关指南已在Runware文档中发布。阿里云表示该平台围绕创作自由与想象力构建,旨在降低边界、赋能创作者实现大胆创意。

Runware: HappyHorse 1.1 guides are live on our docs: - Multi-character casting: lock real reference images into every cut https:/...

图像生成教程/实践
14:54
Alibaba Cloud@alibaba_cloud
50
Happy Horse 1.1 的又一个激动人心的里程碑! #Fal 加入了不断壮大的生态系统,为创作者带来先进的 #AIVideo 创作;解锁更丰富的叙事、原生音频和更强的创作控制。

fal: Happy Horse 1.1 is now live on fal! Generate video with synchronized native audio and multilingual lip-sync Text to Vide...

产品更新图像生成视频
14:40
公众号:京东JoyAI
55
JoyAI 上线「欢乐足球季」:上传照片一键生成足球主题动态视频

JoyAI APP 上线「欢乐足球季」主题活动,用户上传一张人像照片即可生成沉浸式赛场动态视频,支持近 20 款视频模板(看台抓拍、进球巅峰时刻、足球手势舞等),内置全景推进、特写定格等多类运镜逻辑,人物动作与表情自然拟合,赛场光影与人群动效同步渲染。同时上线近 50 款足球主题 AI 智能体,覆盖战术复盘、趣味评球、互动陪伴等方向。活动上线首周日均互动增长率超 158%。

产品更新图像生成视频
14:15
Ethan Mollick@emollick
31
这个计算图像生成器可用于制作AI交易卡(或NFT),仅需提示"potato"即可生成节日、黑暗奇幻和神秘风格。这是不到5年前的AI图像生成SOTA。

Ethan Mollick: This is a pretty terrific computational image generator for making AI-created trading cards (or, heaven forbid, NFTs) Th...

图像生成大佬观点
12:12
HuggingFace Daily Papers(社区热门论文)
41
TryOnCrafter:通过可渲染4D试穿代理释放相机轨迹实现真实视频虚拟试穿

TryOnCrafter是首个面向相机可控视频虚拟试穿(CaM-VVT)的统一DiT框架。它引入可渲染4D试穿代理,将高保真2D试穿先验蒸馏为基于3DGS的服装化身,再由SMPL-X序列驱动动画并度量对齐至重建背景点云,实现人体与环境的显式解耦。基于该代理作为几何锚点,Proxy-Anchored Video DiT生成严格遵循指定相机轨迹和物理形变的光照真实视频。该框架还支持人体重定位、子弹时间效果和360度轨道观看等应用。

图像生成视频论文/研究
11:24
Alibaba Cloud@alibaba_cloud
36
一件连衣裙。三个场合。零妥协的一致性。 借助 HappyHorse 1.1,将单一产品转化为多个生活方式叙事,同时保持主体身份、造型细节和跨场景的视觉连贯性。 适合希望在不重拍的情况下扩大创意生产的时尚品牌。 限时发布优惠:通过 API 享 40% 折扣 https://int.alibabacloud.com/m/1000414698/ #HappyHorse #阿里云 #ModelStudio #生成式AI
产品更新图像生成
09:19
Orange AI@oran_ge
45
我还记得去年 lovart 的投资人问我们 你们做生图这个方向怎么跟 lovart 打 今天看文章才知道,lovart 的初始整个团队都走光了 世界变化真快
图像生成行业动态
08:22
AK@_akhaliq
21
glm 5.2 在 hf-claude 中,正在为 krea-2-turbo 开发一个 gradio 工作流。
其他图像生成
08:00
HuggingFace Daily Papers(社区热门论文)
49
PolyFlow:面向艺术家风格网格生成的连续拓扑嵌入流匹配框架

自回归Transformer可生成高质量网格拓扑,但串行解码计算量比并行模型慢数个数量级;连续扩散与流匹配方法无法直接处理离散网格。PolyFlow提出紧凑拓扑嵌入器,将离散顶点位置和法线投影为连续逐顶点嵌入,通过时空距离阈值忠实恢复原始邻接信息。预训练并冻结该嵌入器后,任意网格可转换为统一连续顶点状态空间。基于此表示,PolyFlow采用Transformer流匹配框架,对提取的点云特征条件化,实现完全并行顶点状态去噪;推理时通过ODE求解器快速生成,并支持直接指定目标顶点数精确控制分辨率。在Toys4K基准上,PolyFlow的Chamfer距离和Hausdorff距离均超越现有自回归基线。

arXiv图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
43
SharpMoE: 面向扩散MoE的显著性引导精确路由

SharpMoE针对扩散混合专家模型的路由分配问题提出后训练框架。现有路由器因依赖噪声损坏的潜特征而无法准确区分显著token。SharpMoE利用干净潜特征作为无噪声引导信号,使路由器在高噪声阶段也能识别显著token,并引入轨迹路由损失约束多步去噪过程中的计算分配。实验表明,SharpMoE作为即插即用方案可增强预训练收敛的MoE模型,在视觉生成任务上达到SOTA表现。

图像生成数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
Qwen-Image-2.0-RL 技术报告

Qwen-Image-2.0-RL 后训练流程应用 RLHF 和 on-policy distillation(OPD)提升 Qwen-Image-2.0 扩散模型的视觉质量与指令跟随。通过微调视觉语言模型构建任务特定复合奖励模型,覆盖文生图的对齐、美学、肖像保真度,以及图像编辑的指令准确性与人脸身份保持。基于 GRPO 的 RL 框架引入混合 CFG 策略、组内奖励范围过滤和分类权重校准。最终通过轨迹级速度匹配的 OPD 合并多个教师策略。评测显示,Qwen-Image-2.0-RL 在 Qwen-Image-Bench 总分 57.84(+2.61),文生图 Elo 1193(+78),图像编辑 Elo 1349(+93)。

图像生成多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
65
Qwen-Image-Agent:弥合真实图像生成中的上下文差距

针对文本到图像模型处理隐含、未明确或依赖最新知识的真实请求时出现的“上下文差距”,Qwen-Image-Agent 提出统一智能体框架,以上下文为中心整合规划、推理、搜索、记忆与反馈。其 Context-Aware Planning 识别缺失上下文并规划获取路径,Context Grounding 通过推理、搜索、记忆和反馈收集上下文。新基准 IA-Bench 涵盖规划、推理、搜索、记忆四项能力。在 IA-Bench、Mindbench 和 WISE-Verified 上,Qwen-Image-Agent 超越强基线,取得最优性能。

智能体图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
LISA:基于似然分数对齐的视觉条件可控生成正则化方法

LISA是一种针对视觉条件可控生成的训练正则化方法。它将双分支范式(预训练主网络+侧网络)重新解释为基于分数的生成建模:主网络提供无条件先验分数,侧网络隐式贡献似然分数。LISA通过轻量解码器将侧网络指定层中间特征投影到分数隐空间,与构造的近似似然分数目标计算距离作为正则化损失,并与标准扩散损失联合优化。实验表明,LISA能一致加速训练收敛并提升合成质量,使侧网络特征更解耦,且几乎不增加训练成本、零额外推理成本。

arXiv图像生成视频论文/研究
06:13
🚨 AI News | TestingCatalog@testingcatalog
60
Google Flow Agent 现可基于街景生成图片视频

Google Flow Agent 新增 Google Maps Street View 实景锚定功能,支持根据用户提示中的地名或街道地址,为图片和视频生成提供真实世界细节。用户需启用 Agent 模式并在提示词中包含具体地点。目前该功能仅限美国街景位置可用。

Google Flow: Google Flow 🤝 @GoogleMaps Street View Your agent in Google Flow can now generate images and videos grounded in @GoogleM...

Google产品更新图像生成多模态
00:39
The Verge:AI(RSS)
59
Figma推出AI动态图形与着色器工具

Figma在年度Config大会上发布多项设计及编码更新。核心亮点:Code layers允许在设计画布内直接操作代码、克隆仓库并通过Agent生成新方向;Motion功能支持通过提示词生成动画和过渡效果,可应用预设样式或手动调整时间线;Shaders借助WebGPU实现抖动、像素化、多种模糊等着色器效果。Figma Weave工作流集成20余种工具,将复杂AI流程简化为画布上的简易操作。此外,Agent技能支持第三方连接器和文件附件上下文,生成式插件允许无代码创建可共享的自定义工具。

产品更新图像生成编码
00:35
TechCrunch:AI(RSS)
51
Figma更新:新增代码层、动画和AI功能

Figma本周三发布更新,直接在协作画布中加入代码层,支持团队克隆仓库并将代码流程提取为设计图层。新增对动画、转场和3D变换的支持,并允许用AI生成着色器效果和填充。用户可通过文本提示创建可重复使用的技能供AI智能体使用,还能连接Notion、Granola、Excel、GitHub等工具。Figma计划今年晚些时候深度整合去年收购的节点工具Weavy,支持直接在Figma内生成Weavy工作流。

产品更新图像生成编码
6月24日
23:29
Hacker News 热门(buzzing.cc 中文翻译)
78
Krea 2 技术报告

Krea 2 是一系列基础模型,兼顾审美多样性与创意控制。采用扩散 Transformer(DiT)架构,集成 iREPA、改进 VAE 和 Qwen3-VL,通过预训练、中期训练、SFT、偏好优化和 RL 多阶段流水线训练。构建提示词扩展器和风格参考系统,支持从文本和图像输入进行可控探索。模型权重与推理代码以宽松许可证开源。在 Artificial Analysis 文本到图像排行榜中位列前十,独立实验室模型中排名第二。

Hugging Face图像生成多模态开源生态
23:17
Runway@runwayml
57
Runway 新功能,现可本地化广告。 一张图片输入,任意语言输出。输入单一广告,即可获得适用于每个市场的版本。全部一键完成。
产品更新图像生成多模态
23:12
OpenRouter@OpenRouter
65
推出全新专用图像 API,包含类型化动态能力。 统一访问来自8家提供商的30+图像生成模型:Google、OpenAI、Black Forest Labs、Recraft、ByteDance、Sourceful、Microsoft 和 xAI。 此外,还提供针对图像 API 异构性的新方案👇
产品更新图像生成
22:14
PixVerse@PixVerse_
24
"万事皆变--除了我们真正想改变的东西。" Change - PixVerse Originals S1. Caroline Kiessling 完全在 PixVerse 上构建了这部静谧的视觉诗,不断打磨每一帧,直到情绪到位。 转发+关注+评论 = 150 Creds & 全片私信送达(仅限48小时)
图像生成行业动态视频
21:05
fofr@fofrAI
13
我有时会怀念那些Stable Diffusion 2022的氛围。
其他图像生成
19:44
PixVerse@PixVerse_
23
使用AI为你的游戏制作过渡过场动画?太棒了。整个场景充满夏日清新感。期待新项目完成 @patata1216

美咲: ぜんざいのアトリエ開発迷走中😅 海エリアはやっぱり釣りでしょう、とかなんとか言うことで、釣りミニゲームを組み込み。 AI開発らしく、Pixverseで作ったAI動画を差し込んで作ってみたよ。 やってみると、こういうバリエーション動画を作る...

图像生成教程/实践视频
19:31
OpenRouter:Announcements(RSS)
精选73
OpenRouter推出统一图像API

OpenRouter推出统一图像API,整合Google、OpenAI、Black Forest Labs、Recraft、ByteDance、Sourceful、Microsoft、xAI等30+模型。新API提供标准化请求格式,通过/api/v1/images/models端点返回每个模型的分辨率、宽高比、输出数量、输入参考图数量、种子等能力描述;通过/api/v1/images/models/{id}/endpoints端点获取具体服务商的定价与参数支持(如Seedream 4.5每张$0.04、FLUX.2 Pro每百万像素$0.03、GPT-5.4 Image 2按token计费)。OpenAI的GPT 5系列图像模型支持SSE流式预览,启用"stream": true即可边生成边返回预览。新图像模型将仅添加至专用API,建议现有用户切换。

智能体产品更新图像生成多模态

推荐理由:OpenRouter 把 30+ 图像模型收进一个 API,参数自动发现和流式预览让频繁切换模型的开发者省去不少适配麻烦,尤其对 Agent 工作流很友好。
17:46
Orange AI@oran_ge
38
ListenHub 为新用户提供 50 张免费 GPT image 2 体验

一位 AI 培训老师希望带学生体验 GPT image 2 的能力,询问 ListenHub 新用户免费 100 张的福利是否还在。作者回应已结束,目前仅赠送约 10 张。老师表示完整体验模型约需 50 张。作者随后将 ListenHub 新用户注册福利增加至 50 张,并将使用地址(http://ListenHub.ai)分享给有需要的人。

产品更新图像生成
15:09
HuggingFace Daily Papers(社区热门论文)
55
FLAT: 前馈潜码三角形泼溅实现几何精确场景生成

FLAT 从单张图像直接解码视频扩散潜码中的三角形泼溅表面基元,首次实现前馈传递下从压缩潜码到显式三角形面片的映射。针对平面基元方向敏感、梯度流动困难问题,引入射线中心旋转参数化回归三角形,并设计乘积窗函数改进可微分三角形渲染的梯度流。标准基准上 FLAT 在保持视觉质量的同时取得显著更高的几何精度。轻量级测试时优化可将三角形网格转换为不透明、支持实时渲染的游戏引擎就绪表示。在相同训练设置下系统对比了 3DGS、2DGS 与三角形泼溅的表示权衡。

arXiv图像生成论文/研究
13:12
AYi@AYi_AInotes
70
用户丢截图给 StepFun step-3.7-flash,2分多钟生成可用的文章头图生成器

用户将截图丢给 StepFun 的 step-3.7-flash 模型(运行在 Codex 中),2 分多钟生成可用的网页版文章头图生成器,支持修改文案和导出 PNG,总成本仅 $0.06。模型能自行理解参考图并实现完整功能逻辑,但视觉还原度仅六七分,手绘涂鸦风需手动调整。StepFun 同步推出 Startup Program,早期团队可获 API 额度、生态支持及资源对接。

图像生成多模态教程/实践
11:12
AYi@AYi_AInotes
34
damn,以后做3D纹理不用再手画了,拍张照片直接能用🤯 做3D建模的看到这个估计要笑麻了, 随便拍个角度就能抠出完整纹理,且自动转无缝直接贴3D模型
产品更新图像生成
10:49
HuggingFace Daily Papers(社区热门论文)
49
DiffusionBench:扩散Transformer的整体评估基准

当前扩散Transformer(DiT)研究集中于ImageNet类别条件生成单一评估设置,方法排名与文生图(T2I)任务间无强相关。NanoGen框架统一了DiT训练与评估:在ImageNet上匹配SOTA基线,仅需修改12行配置即可训练T2I模型,两种任务训练计算量相当。基于NanoGen训练21个潜在扩散模型后,三个指标上ImageNet与T2I排名间的Pearson相关系数为-0.377至-0.580,表明仅靠ImageNet FID改进未必反映T2I真实进步。为此整合ImageNet与T2I结果形成DiffusionBench,作为替代单一ImageNet评估的DiT整体基准。

图像生成论文/研究评测/基准
10:49
HuggingFace Daily Papers(社区热门论文)
52
FLUX3D:扩散对齐稀疏表示的高保真3D高斯生成

FLUX3D提出图像到3D高斯泼溅(3DGS)生成框架,解决两个结构性瓶颈:表示瓶颈(判别式2D特征构建稀疏体素潜在表示抑制重构线索)与跨模态对应瓶颈(标准扩散Transformer难对齐密集2D与稀疏3D token)。引入扩散对齐结构化潜在(DA-SLAT)与仅解码器架构提升3DGS保真度,并设计含稀疏结构多模态扩散Transformer(SMDiT)和模态感知旋转位置编码(MARoPE)的稀疏结构感知扩散框架,实现几何无关对齐。实验表明FLUX3D在外观保真度上显著超越现有SOTA。

图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
44
MIMFlow:掩码图像建模与归一化流融合的端到端图像生成框架

MIMFlow是一个统一端到端框架,联合优化潜语义、像素重建和生成流。它采用VAE编码器从掩码图像推断语义潜变量,使归一化流专注于建模简化的低频频谱流形,专用解码器处理高频合成,从而解决归一化流的容量瓶颈。在ImageNet 256×256上,MIMFlow-L达到71.3%线性探测准确率和FID 2.50。仅使用128 token(比标准模型少50%),性能较相似规模NF基线提升32.8%。代码已开源。

图像生成数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
42
COrigami:用于协同设计可折叠平面折纸的AI管道

COrigami是一个端到端AI驱动管道,从自然语言生成可折叠平面折纸的折痕图案。管道流程包括生成语义火柴人、计算基础填充、求解可折叠折痕图案、塑造平面折叠图案,并通过强化学习与自主审美评估循环对生成模型进行优化。该系统作为高效协作助手,为人类艺术家提供结构起点,展示了AI如何在满足多目标物理约束(如平面可折叠性方程)的前提下实现可靠的、基于数学的协同创造力。

图像生成论文/研究
07:07
Hacker News 热门(buzzing.cc 中文翻译)
48
Lift4D:协调单视图3D估计与4D重建的真实场景框架

Lift4D是一个测试时优化框架,从单目视频重建动态物体的完整几何、外观和变形,包括相机从未观察到的区域。它通过因果潜在条件化使单视图3D重建模型(图像到3D DiT)生成时间一致的逐帧预测,作为可变形3D高斯泼溅表示的初始化;随后结合遮挡感知优化与视图条件扩散先验,恢复可见表面细节并补全被遮挡及未观测部分。在合成和真实场景中,Lift4D在严重遮挡与非刚性运动下显著优于先前4D重建方法。

图像生成视频论文/研究
01:37
Krea@krea_ai
精选71
我们的技术报告已发布。 深入解析创建 Krea 2 所用的数据、架构及训练技巧。 https://www.krea.ai/blog/krea-2-technical-report

Krea: today, we release the open weights of Krea 2. welcome Krea 2 Raw and Krea 2 Turbo, an undistilled model from mid-trainin...

图像生成开源生态模型发布

推荐理由:Krea 2 开源了两个图像模型权重,一个未蒸馏适合微调,一个快速蒸馏版覆盖多样审美。对于做图像生成应用和模型融合的团队,这次开放权重比很多大厂都实在。
‹ 上一页
12345…30
下一页 ›