AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「图像生成」清除
6月8日周一
18:44🚨 AI News | TestingCatalog56Ideogram 4.0:上周最大开源发布之一
16:13歸藏(guizang.ai)53藏师傅社交媒体卡片Skill重磅升级
16:13歸藏(guizang.ai)55社交媒体卡片 Skill 新增 Live Photo 支持
13:34Deedy70AI电影《Hell Grind》制作分析:50万美元成本、14天完成,但质量平庸
08:00HuggingFace Daily Papers(社区热门论文)54FlowLet:基于小波流匹配的条件3D脑MRI合成
08:00HuggingFace Daily Papers(社区热门论文)64Z-Reward:通过推理内化分数分布超越标量奖励
08:00HuggingFace Daily Papers(社区热门论文)62ABot-Earth 0.5: 生成式3D地球模型
06:40karminski-牙医58Ideogram 4实测:9.3B开放权重原生2K
6月7日周日
23:37Chubby♨️64ChatGPT 超级应用改造即将分阶段推出
20:04The Verge:AI(RSS)64AI"内容创作者"越来越难被识别
12:00宝玉76精选对比一下 GPT-5.5 的设计效果和 Opus 4.8 的设计效果
08:00HuggingFace Daily Papers(社区热门论文)47WaveDiT:分布感知小波流匹配实现高效3D脑MRI合成
08:00HuggingFace Daily Papers(社区热门论文)57MaskAlign:Token子集表示对齐以实现高效扩散训练
04:46jason18LLM能否一次性生成高斯溅射?
03:17fofr53Omni投影映射:让建筑随音乐舞动
02:46fofr65Omni:从建筑图像生成投影映射
6月6日周六
22:29The Verge:AI(RSS)40Meta 在其 AI 应用中推出 AI 生成的点击诱饵新闻 feed
20:15HuggingFace Daily Papers(社区热门论文)53Phase Marginalization:解决视觉Transformer patch-grid相位不稳定性
17:52公众号:MiniMax(稀宇科技)56海螺AI×上影节活动日历:开放日6.14-6.15
10:16IT之家(RSS)46初探苹果 iOS 27 的 AI 亮点:升级视觉智能体验、扩展修图技能
05:42fofr67Reve 对相同提示词给出不同解读
05:42fofr63Omni 喷漆与湿黏土写字效果
04:12fofr44用Krea K2输出测试Omni图像转视频制作动漫开场
01:42OpenRouter71OpenRouter上线Riverflow 2.5图像模型
01:11OpenRouter60Riverflow 2.5:可控制评分标准的图像模型
01:10Replit ⠕68同事件精选Replit Canvas:AI设计UI并快速转应用同一事件,精选展示《Replit Canvas:智能体设计工具发布》
00:41Google Gemini81精选Gemini Live 支持实时创建编辑图像
6月5日周五
22:29Krea48Krea AI 招聘创意人才加入团队
20:56PixVerse46PixVerse Originals S1 发布:五人太空废墟剧
13:14IT之家(RSS)58xAI 开放预览版图转视频模型 grok-imagine-video-1.5-preview,单图生成最高 720p 电影感视频
12:47HuggingFace Daily Papers(社区热门论文)53复杂度平衡扩散分裂(CBS):基于函数逼近理论的时间容量分配框架
08:00HuggingFace Daily Papers(社区热门论文)54UniSHARP: 通用单目视图合成方法
07:06fofr68竖屏田园猫视频:窗台日光片段
04:34DogeDesigner31Grok高清化像素图胜ChatGPT
03:54Rohan Paul57Hyper 3D Rodin Gen-2.5 图像转 3D:4 秒生成百万多边形
00:48TechCrunch:AI(RSS)39WWDC 2026 前瞻:Siri 重大改版与 Apple Intelligence 更新
00:03歸藏(guizang.ai)42归藏PPT Skills 将更新第三套主题
6月4日周四
23:43HuggingFace Daily Papers(社区热门论文)65ZipSplat:更少高斯,更好渲染
23:16SenseTime69商汤SenseNova U1开源统一文本图像模型
22:53Krea73同事件精选Krea 2 Turbo:2秒生成高质量图像同一事件,精选展示《Krea 2图像模型现已登陆ComfyUI》
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月8日
18:44
🚨 AI News | TestingCatalog@testingcatalog
56
感谢 Ideogram 发送了这个 ❤️ Ideogram 4.0 是上周最大的发布之一!尤其对开源社区而言。 测试了一下 👀

Ideogram: Today we published a technical blog post about Ideogram 4.0 - our goal is to enable more innovation and creativity. It's...

图像生成开源生态模型发布
16:13
歸藏(guizang.ai)@op7418
53
藏师傅社交媒体卡片Skill重磅升级

藏师傅的社交媒体卡片 Skill 即将迎来重大升级,新增对小红书 Live Photo 的支持。该功能可帮助用户制作带文字排版的动态 Live Photo,使发布动态内容时仍能以图文形式呈现,无需制作完整视频。具体细节尚未公布,但用户可期待更便捷的社交媒体内容创作体验。

歸藏(guizang.ai): http://x.com/i/article/2059811469081141248

图像生成教程/实践
16:13
歸藏(guizang.ai)@op7418
55
藏师傅的社交媒体卡片 Skill 即将重磅升级,可制作小红书动态带文字排版的 Live Photo,方便以图文形式发布动态内容。随后实测发现公众号图文卡片同样支持 Live Photo,但需通过 iPhone 上传。

歸藏(guizang.ai): 藏师傅的社交媒体卡片 Skill,即将迎来一个非常重磅的升级。 可以帮大家解决小红书 Live Photo 的制作问题,同时会帮你制作动态的带文字排版的 Live Photo 这样你可以在发布一些必须的动态内容的时候,依然以图文的形式发布,...

图像生成教程/实践
13:34
Deedy@deedydas
70
AI电影《Hell Grind》制作分析:50万美元成本、14天完成,但质量平庸

95分钟AI电影《Hell Grind》由15人14天完成,成本50万美元(80%为算力)。相比中位数美国电影(约200人2年、1800万美元),实现660倍人时、50倍时间、36倍成本改善。影片从约100小时AI生成素材(使用字节跳动Seedance等模型)中按64:1比率剪辑。质量方面,角色一致性、摄像机角度和写实感基本解决,但剪辑过多、角色口音多变、AI合成声音明显,动作和编排生硬——整体平庸,主因是导演选择而非模型限制。作者认为这是AI电影最差、最慢、最贵的时刻,未来创作者将直接投放YouTube。

图像生成大佬观点视频
08:00
HuggingFace Daily Papers(社区热门论文)
54
FlowLet:基于小波流匹配的条件3D脑MRI合成

FlowLet是一种条件生成框架,在可逆3D小波域中利用流匹配合成年龄条件的3D脑MRI,避免潜在压缩伪影并降低计算开销。实验表明,仅需少量采样步即可生成高保真体积;用其数据训练脑年龄预测模型可改善欠代表性年龄组的表现,区域分析证实解剖结构得以保留。

arXiv图像生成数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
Z-Reward:通过推理内化分数分布超越标量奖励

Z-Reward 是一种教师-学生奖励建模框架,用于文生图后训练。教师为 27B VLM,采用 Group-wise Direct Score Optimization (GDSO) 结合策略梯度奖励与分数分布监督;学生通过 Reasoning-Internalized Score Distillation (RISD) 将教师推理条件分布压缩进 9B VLM,推理时无需显式推理链。在内部评测集上,27B 教师达 89.6% 人类偏好准确率,超越 SFT、RewardDance 和 GRPO;9B 学生达 88.6%,超越 O

图像生成推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
ABot-Earth 0.5: 生成式3D地球模型

ABot-Earth 0.5是一个生成式3D框架,利用3D高斯泼溅(3DGS)表示,从地理参考卫星图像合成大规模无缝3D环境。模型在真实城市重建数据集上训练,推理时仅依赖卫星图像,以每平方公里不到10分钟的速度生成逼真的几何与纹理。框架集成层次细节(LOD)结构,支持网页地图引擎上的实时交互可视化。该高保真模拟沙箱可缩小sim-to-real差距,服务于闭环无人机导航等具身AI应用,降低大规模3D重建的技术与财务门槛。

arXiv具身智能图像生成论文/研究
06:40
karminski-牙医@karminski3
58
Ideogram 4实测:9.3B开放权重原生2K

ideogram发布Ideogram 4文生图模型,开放权重,仅9.3B参数,支持原生2K分辨率生成。作者将其与通义Z-image-Turbo生成效果对比,认为两者风格相似。

图像生成开源生态评测/基准
6月7日
23:37
Chubby♨️@kimmonismus
64
OpenAI 的 ChatGPT "超级应用"改造可能在未来几周开始推出。 第一波可能不是一次大发布,而是分阶段重新设计,将用户推向 Codex、AI 智能体、图像生成和合作伙伴应用。 正如一位 OpenAI 员工告诉《金融时报》:"聊天已死",新目标是打造一个能在你的工作和个人生活中行动的单一 AI 助手。
智能体OpenAI产品更新图像生成
20:04
The Verge:AI(RSS)
64
AI"内容创作者"越来越难被识别

AI虚拟影响者最初较为容易识别——Lil Miquela、Imma、Shudu Gram等早期虚拟形象明显是数字制作。如今,AI生成的内容创作者与真人之间的界限日益模糊,用户越来越难以分辨。

图像生成多模态现象/趋势视频
12:00
宝玉@dotey
精选76
对比一下 GPT-5.5 的设计效果和 Opus 4.8 的设计效果

宝玉对比了GPT-5.5与Opus 4.8的设计能力,认为Opus 4.8效果远优于GPT-5.5。他使用了基于Cursor浏览器和元素标注的baoyu-design Skill,该Skill通过npx skills add JimLiu/baoyu-design安装,可在本地运行:描述屏幕需求即可生成精良HTML,点击预览中任意元素即可发出修改指令。官方推荐搭配Opus 4.8以获得最佳效果。工具GitHub仓库:https://github.com/JimLiu/baoyu-design。

宝玉: Cursor's new browser + element annotation turns it into a design studio. Meet Cursor Design 🎨 - Claude Design, running ...

MCP/工具图像生成教程/实践
关联讨论 1 条X:宝玉 (@dotey)
推荐理由:宝玉这个 skill 把 Claude Design 拉到本地,一个 prompt 就能出图对比,GPT-5.5 和 Opus 4.8 的审美差距肉眼可见,做设计的可以直接套。
08:00
HuggingFace Daily Papers(社区热门论文)
47
WaveDiT:分布感知小波流匹配实现高效3D脑MRI合成

WaveDiT是一种在3D Haar小波系数空间中的条件流匹配框架,结合分解时空注意力与基于高阶小波统计的带异方差不确定性建模。预测对数方差融入流目标和条件路径,适应解剖细节的输入相关方差结构。该方法在单个GPU上实现全分辨率3D合成。多中心评估显示,相比扩散、潜在和小波基线,生成与真实MRI分布对齐更优,下游脑年龄预测和区域解剖一致性均有提升。代码已开源。

arXivGitHub图像生成数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
57
MaskAlign:Token子集表示对齐以实现高效扩散训练

针对扩散模型训练中噪声输入与干净参考特征的时间步信息不匹配问题,论文从token级视角发现:完整token对齐中梯度范数大的token具有稳定空间偏好,导致模型过度依赖完整干净图像token集。为此提出MaskAlign,训练时对随机采样的token子集施加表示对齐,减少对完整token集的依赖,增强鲁棒性;并引入轻量级预掩码token混合块,在掩码前跨token共享信息以缓解信息损失。实验表明该方法有效提升扩散Transformer的训练效率和生成质量。

图像生成数据/训练论文/研究
04:46
jason@jxnlco
18
LLM 能否一次性生成高斯溅射?
其他图像生成
03:17
fofr@fofrAI
53
从一张建筑图片开始,用提示词在Omni中生成投影映射。主推文:让建筑随音乐舞动。

fofr: Start with an image of a building and prompt for a projection mapping with Omni.

图像生成教程/实践视频
02:46
fofr@fofrAI
65
从一张建筑图像开始,并使用 Omni 提示生成投影映射。
图像生成教程/实践视频
6月6日
22:29
The Verge:AI(RSS)
40
Meta 在其 AI 应用中推出 AI 生成的点击诱饵新闻 feed

Meta 在其独立的 Meta AI 应用中新增了“For You”栏目,自动填充由 AI 生成的点击诱饵风格文章。这些文章的主题、图片和文本均由 AI 生成,质量存疑。此前该应用主要提供公开的“Discover”信息流,展示 AI 生成的图片和用户对话,现已改为标准聊天机器人界面。

Meta产品更新图像生成
20:15
HuggingFace Daily Papers(社区热门论文)
53
Phase Marginalization:解决视觉Transformer patch-grid相位不稳定性

视觉Transformer在固定patch网格上存在相位依赖不稳定:改变patch划分会改变像素可用的token证据,尤其边界处。研究者将patch-grid相位形式化为干扰变量,提出Phase Marginalization后处理方法,评估结构化patch-grid相位、反对齐密集输出并在原始图像坐标系中聚合。核心变体Uniform Phase Marginalization with K=4无需训练,在分割、深度和局部匹配任务上优于标准K=1基线。在Cityscapes实验中,相比通用移位四前向测试时增强(TTA)获得+0.31 mIoU优势。缩放实验表明K=4是实用折中:K=8基本不变,K=16精度提升极小但延迟大增。结论将patch-grid相位定位为可测量干扰变量,Phase Marginalization为密集ViT预测提供了简单诊断和后处理基线。

arXiv图像生成论文/研究
17:52
公众号:MiniMax(稀宇科技)
56
海螺AI×上影节活动日历:开放日6.14-6.15

MiniMax旗下海螺AI作为第28届上影节独家AI影像战略合作伙伴,6.14-6.15举办开放日。活动包括:AI片场·海螺专属Booth(展示1+1组合作品及过程)、6.14多模态行业交流会、6.15专题圆桌(超级创作者呈现四种图景、《流浪地球》制片人与青年导演对谈)。具体时间地点详见图片。

图像生成多模态行业动态视频
10:16
IT之家(RSS)
46
初探苹果 iOS 27 的 AI 亮点:升级视觉智能体验、扩展修图技能

彭博社马克·古尔曼爆料,iOS 27 中 Apple Intelligence 多项升级。Visual Intelligence 新增读取营养成分标签、提取名片等信息。修图推出 Extend(AI 补全照片边界)、Reframe(调整空间照片角度)和 Enhance(优化画质色彩)。Safari 新增 Organize Tabs,按购物、旅行等主题自动分类标签页。Genmoji 根据用户照片库和常用短语主动生成个性化表情,该能力还将进入壁纸设置。健康项目 Mulberry 含血糖追踪和相机锻炼监测,预计不随 iOS 27 首发。

产品更新图像生成多模态
05:42
fofr@fofrAI
67
与 Reve 使用相同的提示词。我喜欢它截然不同的解读方式。

fofr: Ideogram v4 > a scan of a page from my high school A3 art pad, highly original niche pencil piece working on the aura of...

图像生成教程/实践
05:42
fofr@fofrAI
63
把它变成喷漆画。 Omni:把它变成湿黏土中写字的棍子。

fofr: Omni: > Make it a stick writing in wet clay

图像生成教程/实践
04:12
fofr@fofrAI
44
尝试将这张Krea K2的输出用于Omni图像转视频,试图制作一段动漫开场序列。
图像生成教程/实践视频
01:42
OpenRouter@OpenRouter
71
Live on OpenRouter: Riverflow 2.5 来自 @riverflow_ai 首个拥有独立评分标准的图像模型,你可以控制该标准来引导其思考与编辑,并可通过调节推理投入在速度与质量之间权衡。 免费至6月9日周二。Fast 与 Pro 见下方🧵
产品更新图像生成
01:11
OpenRouter@OpenRouter
60
在OpenRouter上线:来自@Sourceful的Riverflow 2.5。 首个具有独立评分标准的图像模型,你可控制该标准以引导其思维和编辑,并具备可控的推理努力,可在速度与质量之间进行权衡。 免费至6月9日(周二)。Fast和Pro见下方🧵。
图像生成模型发布
01:10
Replit ⠕@Replit
同事件精选68
你试过新的 Replit Canvas 了吗? - 用 AI 创建美观的 UI 设计 - 使用 GPT-Image 2 & Seedance 生成素材 - 几分钟内将你的设计转化为可发布的应用
OpenAI产品更新图像生成部署/工程
同一事件,精选展示《Replit Canvas:智能体设计工具发布》
推荐理由:Replit Canvas 把 GPT-Image 2 和 Seedance 直接嵌进 UI 设计流程,让不会画图的开发者也能几分钟出一个看得过去的 App 原型,对非设计师的独立开发者是实打实的效率提升。
00:41
Google Gemini@GeminiApp
精选81
你现可直接在 Gemini Live 中创建和编辑图像。 无论是测试房间装饰、解决数学问题,还是制作可分享的梗图,所有操作都实时完成。 只需打开 Gemini 应用,点击 Live 按钮,共享摄像头,告诉 Gemini 你想看到的。
Google产品更新图像生成多模态

推荐理由:Gemini Live 终于能用嘴改图了,实时对话+图像生成让装修试色、数学解题变成「聊着天就把活干了」,产品人和普通用户都该试试这个新交互。
6月5日
22:29
Krea@krea_ai
48
我们正在寻找创意人才加入我们不断壮大的团队。 下方申请👇
图像生成行业动态
20:56
PixVerse@PixVerse_
46
一艘废弃的豪华星级客轮。 五位 Z 世代拾荒者。一个刚苏醒的 AI。太空废墟探险--PixVerse Originals 第一季。霓虹废土哥特风。 @michaelheina(PixVerse 首日合作伙伴)使用 PixVerse V6 打造了一个五人团体。 匹配剪辑动作。每帧角色一致性锁定。 转发+关注+回复"Originals"= 150 Credits 及私信完整影片(仅限 72 小时)
产品更新图像生成视频
13:14
IT之家(RSS)
58
xAI 开放预览版图转视频模型 grok-imagine-video-1.5-preview,单图生成最高 720p 电影感视频

xAI 通过 API 开放预览版图像转视频模型 grok-imagine-video-1.5-preview,可将一张静态图像扩展为流畅的电影感视频片段。用户提供起始图片并用自然语言描述运动方式后,模型可控制镜头移动、画面节奏、环境氛围与物理效果。该模型最高支持 720p 视频生成,适合概念验证、分镜测试和短内容生产,并能通过逐段动画化将多镜头串联为更长场景。

xAI图像生成模型发布视频
12:47
HuggingFace Daily Papers(社区热门论文)
53
复杂度平衡扩散分裂(CBS):基于函数逼近理论的时间容量分配框架

标准连续时间生成模型需处理从各向同性噪声到复杂数据分布的不同信号状态,统一架构效率低下。本文提出复杂度平衡分裂(CBS)框架,基于函数逼近理论和de Boor均衡分布原理,将扩散时间线划分为等近似负担的片段,为生成动力学难建模区域分配更多表示容量。通过两种互补监测函数——基于流Dirichlet能量的空间测度和基于采样轨迹加速度的几何测度——估算局部复杂度,无需启发式分割或搜索。在SiT、JiT、UNet等架构及数据集上,CBS不增加每步推理成本,持续提升合成质量:在SiT-XL上使用CFG时,相比朴素时间划分,FID改善约35%。

图像生成开源/仓库数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
UniSHARP: 通用单目视图合成方法

UniSHARP扩展了SHARP真实感视图合成方法,实现从传统透视相机到鱼眼、全景等系统的通用单目渲染。核心思路是在统一全向潜空间中对齐图像,在射线基表示中沿射线和径向距离排列高斯原语,并联合解码UniK3D编码器提取的2D语义和3D空间特征。构建了覆盖多种成像系统并按视场角分层的benchmark,实验表明UniSHARP大幅优于替代方法。

图像生成多模态论文/研究
07:06
fofr@fofrAI
68
> 业余竖屏手机视频,9:16 比例。连续不中断的手持镜头,一只毛茸茸的虎斑猫坐在阳光明媚的窗台上,望向枝叶繁茂的花园。猫的尾巴缓慢抽动,耳朵微微朝向环境噪音转动。阳光照亮空气中的尘埃。声音设计:微风轻拂、远处鸟鸣、安静的机械呼噜声。无对话。
图像生成教程/实践视频
04:34
DogeDesigner@cb_doge
31
ChatGPT vs Grok 让两者将这个像素化的logo转化为高分辨率图像。 ChatGPT严重失败,而Grok提供了干净、清晰的高分辨率图像。 Grok是明显的赢家。
OpenAIxAI图像生成评测/基准
03:54
Rohan Paul@rohanpaul_ai
57
Hyper 3D Rodin Gen-2.5 图像转 3D:4 秒生成百万多边形

Rohan Paul 实测新推出的图像转 3D 模型 Rodin Gen-2.5,最大改进是控制力。提供五种生成模式,最快 4 秒生成百万多边形模型,支持最高 1000 万多边形输出。原生 3D PBR 材质,模型开箱即用。Hyper 3D 还支持并行批量生成、Break to Parts 部件分离和局部编辑,无需重新生成整个模型,覆盖 3D 创作全流程。

图像生成多模态模型发布
00:48
TechCrunch:AI(RSS)
39
WWDC 2026 前瞻:Siri 重大改版与 Apple Intelligence 更新

Apple WWDC 2026 即将举行,备受期待的 Siri 改版与 Apple Intelligence 更新将成为焦点。

图像生成行业动态语音
00:03
歸藏(guizang.ai)@op7418
42
归藏PPT Skills 将更新第三套主题

归藏宣布其 PPT Skills 项目将继续更新。得益于近期的赞助,计划开发第三套主题,且会把在小红书图文卡片部分积累的好经验用于新版中。

歸藏(guizang.ai): http://x.com/i/article/2053655813877870592

图像生成教程/实践
6月4日
23:43
HuggingFace Daily Papers(社区热门论文)
65
ZipSplat:更少高斯,更好渲染

ZipSplat是一种基于token的前馈3D高斯泼溅模型。它通过k-means聚类将多视图密集视觉token压缩为紧凑场景token,再经交叉/自注意力细化后由轻量MLP解码为位置不受限的高斯组。推理时进行聚类,单一训练模型无需重训即可沿质量-效率曲线运行。无需真值位姿或内参,在DL3DV和RealEstate10K上以约6倍少于像素对齐方法的高斯数超越最佳无位姿基线,PSNR分别高2.1dB和1.2dB,并零样本泛化至Mip-NeRF360和ScanNet++,超越所有可比基线。

arXiv图像生成论文/研究
23:16
SenseTime@SenseTime_AI
69
商汤SenseNova U1开源统一文本图像模型

商汤SenseTime发布SenseNova U1,一个原生理解和生成文本与图像的统一模型。该模型已开源,用户可自行运行。被@gurru_tech称赞“令人印象深刻”。提供在线演示平台SenseNova Studio、HuggingFace模型、GitHub代码及Discord社区。

Hugging Face图像生成多模态模型发布
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)
22:53
Krea@krea_ai
同事件精选73
推出 Krea 2 Turbo。 仅需2秒即可生成高质量图像;兼容风格参考、情绪板和 LoRA。 在 krea . ai 免费试用。
产品更新图像生成
同一事件,精选展示《Krea 2图像模型现已登陆ComfyUI》
推荐理由:2秒出图不算新概念,但Krea 2 Turbo把风格参考和LoRA都揉进实时生成里,做设计的可以试试能不能省掉Midjourney的等待时间。
‹ 上一页
1…7891011…30
下一页 ›