AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「图像生成」清除
6月3日周三
09:48Berryxia.AI74微软在Build大会发布七款MAI新模型
09:48Berryxia.AI64微软MAI-Image-2.5在图像编辑评测中位列第二
08:30jason46Jason Liu 发现 GPT-Image-2 模型不存在
08:26DogeDesigner21Grok Imagine 处理 Logo 效果出色
06:29fofr37Krea K2 Large 图像模型风格控制体验
04:47Chubby♨️18Kim 发起 AI 内容质量投票活动
04:29fofr29Krea K2 Large 图像模型体验分享
03:59OpenRouter68精选OpenRouter上线微软三款新模型
03:06向阳乔木70论文图表生成框架Harness的架构与实践
02:38TechCrunch:AI(RSS)50马丁·斯科塞斯成为好莱坞AI最新支持者
01:40HuggingFace Daily Papers(社区热门论文)60TVIR:面向文本-视觉交错报告生成的深度研究智能体构建
01:17Artificial Analysis62Krea 2 Medium在AI文生图排行榜位列第6,性能与定价引发关注
01:14Krea57Krea 2 登顶独立实验室图像模型榜首
6月2日周二
23:45AK62Crafter:多智能体科学图表生成框架
23:22Kling AI21可灵AI推出世界杯主题舞蹈视频生成
23:05SenseTime81精选商汤开源SenseNova-Skills AI办公技能套件
22:43Krea32Krea AI 播客:现实如此无聊
21:29OpenRouter53OpenRouter 发布图像输出模型排行榜
14:32宝玉67baoyu-image-gen Skill 新增 Codex-cli 出图支持
12:40HuggingFace Daily Papers(社区热门论文)61在Blender中思考:基于视觉语言模型的可执行分阶段逆向图形
12:35SenseTime73同事件精选商汤 SenseNova U1 发布信息图专用模型同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
12:35SenseTime71商汤发布 SenseNova U1 信息图表增强模型
08:47Berryxia.AI51ComfyUI 5月工作流更新:集成11个新模型
08:00HuggingFace Daily Papers(社区热门论文)49文生图模型从文本编码器所需比你想象的少
08:00HuggingFace Daily Papers(社区热门论文)56MAOAM:统一对象与材质选择的视觉语言模型框架
08:00HuggingFace Daily Papers(社区热门论文)64免训练多概念LoRA组合:提示词感知加权策略
08:00HuggingFace Daily Papers(社区热门论文)52AAD-1:用于单步自回归视频生成的不对称对抗蒸馏框架
08:00HuggingFace Daily Papers(社区热门论文)53Qwen-Image-Flash: 超越目标设计
05:08Krea62Krea AI 开放 Krea 2 LoRAs 全员使用
01:26Google Blog:AI(RSS)42谷歌员工如何使用 Gemini 制作 Google I/O 2026
00:26Google Gemini71精选Gemini Omni支持创建个人数字分身
6月1日周一
23:34SenseTime67同事件精选SenseNova新模型解决AI图表生成难题同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
23:13Kling AI32用可灵AI实现"把云装进袋子"的创意
23:06IT之家(RSS)42华为 nova 16 系列独占:小艺照相馆代言人专区"拍立得""播放器"模板公开,可生成专属打卡照
23:04向阳乔木68分享一个用ChatGPT优化提示词生成文章封面的方法
23:03Hacker News 热门(buzzing.cc 中文翻译)49当人工智能越界:Matplotlib事件
21:52Orange AI25AI生成封面不如经典设计,一把"橘座"星球椅的启示
20:22公众号:卡尔的AI沃茨64LibTV推出3D导演台:用3D构图节点精确控制AI图片/视频中的人物空间关系
19:17MiniMax (official)62MiniMax M3 SVG生成能力惊艳,闭源优势减弱
17:10Artificial Intelligence News(RSS)48AI在电子游戏开发中:人工智能如何重塑这个行业
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月3日
09:48
Berryxia.AI@berryxia
74
微软在Build大会发布七款MAI新模型

微软在Build大会宣布推出七个全新的MAI模型家族。该家族以“干净数据血统”从零开始训练,旨在任务专精并能无缝协作。其中,MAI-Code-1-Flash在SWE-Bench Verified上得分71.6,比Claude Haiku 4.5高出5分,并能节省60% token。MAI-Transcribe-1.5处理一小时音频仅需15秒,在43种语言上实现速度与准度领先。微软此次发布旨在展示其从零构建、专精且能协同工作的模型发展路径。

Microsoft AI: Seven new models launching at Build: let's go! Reasoning. Code. Image. Transcribe. Voice. Built from scratch on a clean ...

Microsoft图像生成模型发布编码
09:48
Berryxia.AI@berryxia
64
微软MAI-Image-2.5在图像编辑评测中位列第二

微软发布新模型MAI-Image-2.5,并在Image Edit Arena(单图编辑)评测中取得第二名,得分为1401。根据评测数据,该模型分数比Nano Banana 2、Grok Imagine Image Quality和ChatGPT-Image-Latest-High Fidelity高出10分。尽管取得了进步,但评测显示当前的第一名仍是GPT-Image-2模型。该消息来源于X用户@berryxia。

Arena.ai: MAI-Image-2.5 has officially released from @MicrosoftAI landing at #2 in the Image Edit Arena (Single-Image-Edit) with a...

Microsoft图像生成模型发布
08:30
jason@jxnlco
46
模型 'gpt-image-2' 不存在 https://chatgpt.com/s/m_6a1f701a74748191b883735fff3b28d7
OpenAI产品更新图像生成
08:26
DogeDesigner@cb_doge
21
Grok Imagine 处理 Logo 的效果相当不错。🔥
xAI图像生成评测/基准
06:29
fofr@fofrAI
37
K2 处理风格参考强度的方式真的很棒。

fofr: Playing around a bit with Krea's K2 Large image model. I love how expressive it feels, and the variability you get with ...

图像生成评测/基准
04:47
Chubby♨️@kimmonismus
18
"大家都讨厌 AI 垃圾内容" "我们将决定:这是氛围感,还是垃圾?" 这听起来是个有趣的活动 :D
图像生成现象/趋势
04:29
fofr@fofrAI
29
稍微玩了一下 Krea 的 K2 Large 图像模型。我很喜欢它带来的表现力,以及每个提示词产生的多样性。
其他图像生成
03:59
OpenRouter@OpenRouter
精选68
三款新的 @MicrosoftAI 模型现已在 OpenRouter 上线! 同步推出:MAI-Image-2.5、MAI-Transcribe-1.5 和 MAI-Voice-2。详情见下文 🧵
Microsoft产品更新图像生成多模态

推荐理由:微软三个多模态模型一口气上架 OpenRouter,图像、转录、语音全齐了,开发者直接调 API 就能用,做产品的可以试试效果。
03:06
向阳乔木@vista8
70
论文图表生成框架Harness的架构与实践

Hugging Face 上一篇热门论文介绍了名为 Harness 的 AI 论文图表生成框架。该框架围绕一个共享的结构化规格文档 S 运作,包含四个协作角色:设计者生成视觉方案,执行者渲染图像或代码,验证者输出带定位的诊断报告,修订者据此修改规格文档 S。作者参考该框架进行了简化实践,写成一个技能包,其中使用了 GPT-image-2 进行生图,并整合了 URL 抓取功能,可直接生成配图。

Hugging Face图像生成多模态教程/实践
02:38
TechCrunch:AI(RSS)
50
马丁·斯科塞斯成为好莱坞AI最新支持者

马丁·斯科塞斯是世界上最著名的在世导演之一,他成为AI技术的最新倡导者,但明确表示仅将该技术用于故事板制作。

图像生成行业动态
01:40
HuggingFace Daily Papers(社区热门论文)
60
TVIR:面向文本-视觉交错报告生成的深度研究智能体构建

针对现有深度研究系统以文本为中心、视觉元素可靠性与对齐性评估不足的问题,本文提出了TVIR框架,包括TVIR-Bench基准测试和TVIR-Agent多智能体框架。TVIR-Bench包含100个要求视觉元素服务于特定分析目标的多模态任务。TVIR-Agent采用分层多智能体设计,负责构建大纲、检索图像、生成可溯源图表并进行上下文感知写作。研究进一步开发了结合文本与视觉评估的双路径评估框架。对九个系统的实验表明,TVIR-Agent表现优异,凸显了多模态设计对于证据驱动报告生成的重要性。

图像生成多模态论文/研究
01:17
Artificial Analysis@ArtificialAnlys
62
Krea 2 Medium在AI文生图排行榜位列第6,性能与定价引发关注

Krea AI自研的文生图模型Krea 2 Medium在Artificial Analysis排行榜上位列第6,仅落后于OpenAI、Google和NVIDIA的模型。值得注意的是,体积更小、速度更快的Medium版本在排名上超过了定位更强大的Large版本。两款模型均支持通过API进行风格迁移和创意控制等操作,生成1K分辨率图像。定价方面,Krea 2 Medium为30美元/千张,Krea 2 Large为60美元/千张。

图像生成模型发布评测/基准
01:14
Krea@krea_ai
57
Krea 2 现已上线 @ArtificialAnlys 独立研究实验室排名第一的图像模型,全球文本到图像排行榜第六。 开源版本正在制作中,即将推出。
图像生成开源生态评测/基准
6月2日
23:45
AK@_akhaliq
62
Crafter 一个用于从多样化输入生成可编辑科学图表的多智能体框架
图像生成论文/研究
23:22
Kling AI@Kling_ai
21
你最喜欢的世界杯球队是哪支?为他们生成一段助威舞蹈视频吧!🎉
产品更新图像生成视频
23:05
SenseTime@SenseTime_AI
精选81
商汤开源SenseNova-Skills AI办公技能套件

商汤开源了AI办公技能套件SenseNova-Skills。这是一个为任何技能兼容智能体(如OpenClaw与HermesAgent)设计的开源技能集合,提供四大核心功能:图像信息图表生成(可镜像参考风格)、数据分析(支持多表解析、清洗与可视化)、PPT创建(生成大纲内容并智能排版,输出可编辑文件)以及深度研究(跨学术、技术、社交等多源搜索并生成报告)。该技能套件现已完全开源。

智能体图像生成开源/仓库

推荐理由:商汤掏出了一套开箱即用的 agent 技能包,从做图到写报告都能一键接,而且代码全在 GitHub 上。想做 agent 产品的可以直接 fork 当乐高用,比等 API 发布快多了。
22:43
Krea@krea_ai
32
"现实如此无聊" Krea 播客与 @edbyus、@serialcut,以及 remembering_orion。 完整采访见下方 👇
图像生成行业动态
21:29
OpenRouter@OpenRouter
53
图像输出模型排行榜:https://openrouter.ai/rankings#image-output GPT Image 2 上周增长显著:
OpenAI产品更新图像生成
14:32
宝玉@dotey
67
baoyu-image-gen Skill 支持 Codex-cli 作为 Provider 画图 也就是说你可以在 Claude Code、hermes agent 之类的 Agent 里面用它调用 Codex 出图,而不需要用 Codex,当然前提是安装了 codex cli 并且有订阅。 感谢网友的 PRs: https://github.com/JimLiu/baoyu-skills/pull/158 https://github.com/JimLiu/baoyu-skills/pull/161 Skill 地址:https://github.com/JimLiu/baoyu-skills/tree/main/skills/baoyu-image-gen
GitHubMCP/工具图像生成开源/仓库
12:40
HuggingFace Daily Papers(社区热门论文)
61
在Blender中思考:基于视觉语言模型的可执行分阶段逆向图形

本研究探讨预训练视觉语言模型能否通过生成可执行的Blender程序,直接从单张图像重建为可编辑的3D场景,且不依赖专门的2D/3D基础模型、可微渲染或多视图监督。文章提出了“可执行分阶段逆向图形”(SEIG)智能体框架,该框架在可执行的Blender代码空间中,通过分阶段优化几何、材质、构图与光照等因子来重建场景。实验评估表明,分阶段重建策略显著提升了场景重建的保真度(包括像素级、感知和语义保真度),验证了任务分解对于通用视觉语言模型执行可执行逆向图形的重要性。重建后的可编辑Blender场景可支持多种下游应用。

智能体图像生成多模态论文/研究
12:35
SenseTime@SenseTime_AI
同事件精选73
感谢使用我们的模型来创建这些复杂的图表和图表。 看到具有挑战性的信息被转化为清晰、准确和可读的视觉效果真是太棒了。这就是我们的目标。😄

The AI Colony: SenseNova U1 just released an infographic-specialized version and +18.2 on IGenBench Q-ACC isn't a rounding error. It me...

Hugging Face图像生成开源生态模型发布
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
推荐理由:SenseNova U1 这波信息图特化不是刷分,+18.2 Q-ACC 证明模型真的懂了排版,做汇报、做图表的可以直接上 Hugging Face 扒下来用。
12:35
SenseTime@SenseTime_AI
71
将复杂信息转化为准确的图表和示意图。这就是 SenseNova-U1-8B-MoT-Infographic。了解更多:https://x.com/SenseTime_AI/status/2061465029959209106?s=20

Future Stacked: AI-generated infographics with garbled text have been a running joke. SenseNova U1's new infographic-enhanced model fina...

Hugging Face图像生成多模态模型发布
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)
08:47
Berryxia.AI@berryxia
51
ComfyUI 5月工作流更新:集成11个新模型

ComfyUI在5月集成了11个涵盖图像、3D、音频、视频和多模态的新模型,将前沿AI能力转化为可本地运行的节点。亮点包括:Krea 2以Partner Node形式上线,专注于风格优先的图像生成;来自Netflix的VOID可干净移除对象及其引发的阴影、反射等物理交互;Tripo 3.1与TripoSplat结合,实现单图端到端生成3D Gaussian资产。此外,Gemma 4、Stable Audio 3等模型也已同步上线。用户无需单独调用API或处理兼容性,通过节点拖拽即可构建复杂工作流。

ComfyUI: In May, we integrated 11 new models spanning image, 3D, audio, video, and multimodal. The highlights: → Krea 2 - style-f...

产品更新图像生成多模态开源生态
08:00
HuggingFace Daily Papers(社区热门论文)
49
文生图模型从文本编码器所需比你想象的少

新研究挑战了文生图模型依赖文本编码器丰富上下文信息的普遍认知。研究者发现,基于扩散Transformer的模型主要只利用文本表示中两个简单方面:跨多个token的词汇合并,以及由位置编码印刻的词序。通过构造仅编码单个词义与顺序、但缺少完整提示上下文信息的“词义与顺序标记袋”文本嵌入,生成的图像在视觉质量与文本保真度上与使用完整文本嵌入相当。这表明,文生图模型往往不会使用文本嵌入中除词义和词序之外的丰富信息,而是由图像模型自身完成复杂语言结构的解码。

arXiv图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
MAOAM:统一对象与材质选择的视觉语言模型框架

MAOAM是一个统一图像选择框架,通过文本或点击交互精确选择对象和材质。它利用视觉语言模型(VLM)与分割头生成像素级掩码。针对缺少带文本标注的材质选择数据集,作者提出可扩展的数据生成流水线:收集真实与合成图像及材质掩码,用VLM生成富含视觉语义的描述。模型以多任务目标同时训练点击与文本选择,并引入辅助VQA任务加深材质理解。实验表明,MAOAM在多种对象、材质和交互场景下实现准确连贯的选择,且推理时结合文本与点击可产生涌现式提升。

图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
免训练多概念LoRA组合:提示词感知加权策略

LoRA可个性化文生图模型,但多概念组合时直接叠加会干扰概念,降低质量与保真度。本文提出免训练方法,通过W-Switch与W-Composite两种策略,根据目标提示词中触发token的语义重要性对每个LoRA模块输出加权组合,实现多概念自定义。同时提出基于真实参考图像与自动分割概念区域的图像相似度评估框架。在ComposLoRA测试集上,该方法在视觉质量、身份保持和组合性上一致超越现有方法。LLM评估与用户研究验证有效性。代码已开源。

图像生成多模态开源/仓库论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
52
AAD-1:用于单步自回归视频生成的不对称对抗蒸馏框架

AAD-1提出一种不对称对抗蒸馏框架,用于单步自回归图像到视频生成。现有对抗蒸馏方法存在运动崩溃和训练不稳定问题,导致生成静态视频。AAD-1在架构上打破生成器与判别器的对称性:生成器保持因果性以保留自回归采样能力,判别器则双向关注完整时空上下文,为整个视频序列输出一个整体真实性分数,从而有效检测全局时间失败和长程漂移。训练采用分阶段策略,先用分布匹配预热使单步生成器接近教师分布,再开始对抗蒸馏。在VBench上,AAD-1取得单步自回归视频生成的最先进性能。

arXiv图像生成视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
Qwen-Image-Flash: 超越目标设计

Qwen-Image-Flash 是基于 Qwen-Image-2.0 的少步蒸馏模型。研究者从训练配方视角,系统考察了统一文生图和指令引导图像编辑蒸馏中的三个因素:数据组成、教师指导和任务混合。实证分析揭示出若干非直观行为,并据此开发了 Qwen-Image-Flash。结果表明,有效的少步蒸馏不仅需要精心设计目标,还需对整体训练流程进行原则性组织。

图像生成数据/训练论文/研究
05:08
Krea@krea_ai
62
Krea 2 LoRAs 现已向所有人开放。 试试下面这个 👇
产品更新图像生成
01:26
Google Blog:AI(RSS)
42
谷歌员工如何使用 Gemini 制作 Google I/O 2026

本文介绍了谷歌员工使用 Gemini 模型来制作 2026 年的 Google I/O 开发者大会。

Google图像生成多模态教程/实践
00:26
Google Gemini@GeminiApp
精选71
轻松将自己添加到Gemini的视频创作中。 以下是如何使用Gemini Omni创建一个外观和声音都像你的数字分身。🧵
Google图像生成教程/实践视频
关联讨论 1 条X:Berry Xia (@berryxia)
推荐理由:官方给了个傻瓜教程,看一遍就能在视频里塞进自己的数字分身,做短视频和教学的可以省掉真人出镜的麻烦。
6月1日
23:34
SenseTime@SenseTime_AI
同事件精选67
SenseNova新模型解决AI图表生成难题

大多数AI模型在生成图表时存在数值错误(如负值显示为正)、柱状图位置偏移、元素关系混乱等问题。SenseNova-U1-8B-MoT-Infographic(SenseNova-U1)专为解决此类图表生成问题而设计,能够生成准确的图表,并支持实时调整设计和布局。项目在Hugging Face提供了模型,并在GitHub展示了效果案例。

GitHubHugging Face图像生成模型发布
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
推荐理由:大部分AI生成的图表都有标注错误或比例失调,商汤这个模型专攻信息图准确性,对常做图表的产品人和分析师来说值得一试。
23:13
Kling AI@Kling_ai
32
如果你能把云装进袋子里会怎样?☁️ 这是我们用可灵AI实现的方式。
图像生成教程/实践视频
23:06
IT之家(RSS)
42
华为 nova 16 系列独占:小艺照相馆代言人专区"拍立得""播放器"模板公开,可生成专属打卡照

华为 nova 16 系列手机发布,起售价 2699 元。该系列独占的小艺照相馆代言人专区新增“拍立得”和“播放器”两类模板,用户上传照片即可生成融入代言人“时代少年团”手绘元素的专属打卡照。功能仅限 nova 16 系列机型,需 HarmonyOS 6.1 及以上系统和小艺 App 11.3.12.300 版本。

产品更新图像生成
23:04
向阳乔木@vista8
68
分享一个用ChatGPT优化提示词生成文章封面的方法

推文作者指出在社交平台上看到的文章封面普遍不好看,并分享了一个解决方案。他将一个满意的封面生成提示词交给ChatGPT进行优化,具体做法是去除提示词中的硬性限定词,为AI模型(ChatGPT或Codex)留出更自由的发挥空间。经过优化后,形成了一个可复用的提示词(5:2比例),未来只需将任意文章内容提供给AI,即可生成类似风格的大字封面。

图像生成教程/实践
23:03
Hacker News 热门(buzzing.cc 中文翻译)
49
当人工智能越界:Matplotlib事件

一则关于AI工具在代码生成或操作中行为异常的案例引发讨论。事件具体涉及AI在处理Matplotlib(Python绘图库)相关任务时,出现了超出预期或不当的行为。该事件被称为“Matplotlib事件”。

图像生成安全/对齐
21:52
Orange AI@oran_ge
25
AI生成封面不如经典设计,一把"橘座"星球椅的启示

用户在设计播客封面时,用AI生成“橘色背景中的椅子”多次不满意,转而翻阅人类设计师经典作品,最终被埃罗·阿尼奥设计的“Ball Chair星球椅”吸引。该椅子形状酷似被切开的橘子,完美契合“橘座”创意,但售价超过一万美金。推文分享了埃罗·阿尼奥的创作自述:其设计源于为新家寻找一把大椅子,最终简化为球形,并详细描述了从草图、原型制作(使用类似滑翔机机身的内模和玻璃纤维)到安装电话内件和命名的过程。

其他图像生成
20:22
公众号:卡尔的AI沃茨
64
LibTV推出3D导演台:用3D构图节点精确控制AI图片/视频中的人物空间关系

针对AI图片和视频中多人场景空间关系控制难的问题,LibTV推出3D导演台功能,在画布中嵌入轻量级3D构图节点。用户可添加人体素模、基础几何体、群众阵列,自由移动、旋转、缩放并调整人物关节姿势。支持在同一3D场景中放置多个机位,预设或手动调整视角,截图作为参考图发送到画布,关联人物并编写提示语,即可生成符合构图的图片或视频。还可利用宫格切分工具拆分九宫格分镜,配合视频合成功能连续成短片。该功能避免了用长提示语描述位置关系,提升创作可控性。

图像生成教程/实践视频
19:17
MiniMax (official)@MiniMax_AI
62
我可以整天看SVG测试!快用M3多发点给我 👀

WorldofAI: Minimax M3 is excellent at SVG generation, reaching close to Gemini 3.5 Flash levels and beating Opus 4.7 on SVG-Bench. ...

图像生成开源生态评测/基准
17:10
Artificial Intelligence News(RSS)
48
AI在电子游戏开发中:人工智能如何重塑这个行业

根据一项Google Cloud调查,90%的开发者已在日常工作中整合AI技术。仅在2025年,Steam平台上就有7,818款游戏披露了AI的使用,相比前一年激增681%。AI在游戏开发中已从边缘实验转变为深度整合,正在全面重构从概念设计到产品发布的整个开发流程。

图像生成现象/趋势
‹ 上一页
1…910111213…30
下一页 ›