AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 100 条
全部一手资讯X论文
标签「图像生成」清除
7月1日周三
01:29Apple:Newsroom(RSS)66精选Apple Creator Studio 更新:更智能、更快速、更互联
00:08Google DeepMind:Blog(RSS)70精选Google DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni Flash
6月26日周五
02:57Midjourney:Updates(RSS)62精选Midjourney V8.1 草稿模式新增随机风格功能
6月25日周四
19:30公众号:百度智能云(文心)48百度智能云联合五家伙伴,加速AIGC内容工业化生产
19:20公众号:生数科技(Vidu·视频)38生数科技与极豆科技达成战略合作,共建汽车行业AIGC解决方案
14:40公众号:京东JoyAI55JoyAI 上线「欢乐足球季」:上传照片一键生成足球主题动态视频
6月24日周三
19:31OpenRouter:Announcements(RSS)73精选OpenRouter推出统一图像API
6月21日周日
13:00公众号:腾讯元宝64精选腾讯元宝父亲节活动:上传照片生成与年轻爸爸的合影
6月19日周五
10:10公众号:腾讯元宝48腾讯元宝端午图像编辑:粽叶头套指令说明
6月18日周四
12:00公众号:龙猫LongCat(美团)59美团智能创作团队海报生成技术体系:PosterCraft/PosterOmni/PosterReward
6月17日周三
06:13Midjourney:Updates(RSS)66同事件精选Midjourney V8.1 推出 Draft mode 草稿模式与新功能预览同一事件,精选展示《Midjourney V8.1 已成为默认模型》
06:13Midjourney:Updates(RSS)35Midjourney 将于明天直播揭晓首个秘密硬件项目
6月11日周四
12:10Midjourney:Updates(RSS)64精选Midjourney V8.1 已成为默认模型
6月9日周二
19:30公众号:可灵AI(快手·视频)55可灵AI×候鸟300发起AI主义新浪潮AIGC影像大赛
03:14Apple:Newsroom(RSS)63同事件精选Apple Intelligence 将强大 AI 能力融入日常体验同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》
6月6日周六
17:52公众号:MiniMax(稀宇科技)56海螺AI×上影节活动日历:开放日6.14-6.15
6月4日周四
11:00公众号:火山引擎48中国美术学院×火山引擎:高质量数据集赋能普通人专业作画
6月2日周二
01:26Google Blog:AI(RSS)42谷歌员工如何使用 Gemini 制作 Google I/O 2026
5月29日周五
16:46公众号:京东JoyAI43JoyInside上新:小龙AI魔法益智打印机开启预售
5月28日周四
17:47公众号:通义实验室(千问)54通义实验室发布Qwen-Image-Bench:56项细粒度创作评测基准
16:44公众号:可灵AI(快手·视频)54可灵AI携20部4K作品亮相AI on the Lot
5月25日周一
21:55公众号:百度智能云(文心)22自如设计师AI实验:百度智能云文心让"半天等一张图"变成"几秒生成一个家"
18:13公众号:生数科技(Vidu·视频)42Vidu 推出 AI 直播礼物特效定制服务
5月22日周五
14:02公众号:龙猫LongCat(美团)54从高拟真到真可用,LongCat-Video-Avatar 1.5 正式开源
00:07美团 LongCat:HuggingFace 新模型73精选LongCat-Video-Avatar-1.5:升级版音频驱动数字人视频生成框架
5月20日周三
01:48Google DeepMind:Blog(RSS)51使用 Project Genie 和 Street View 模拟真实世界场景
5月19日周二
14:28公众号:可灵AI(快手·视频)24可灵AI与候鸟300发起"候鸟记忆复活计划"
5月15日周五
14:37蚂蚁 inclusionAI:GitHub 新仓库57ARGenSeg:基于自回归图像生成模型的全新图像分割方法
5月8日周五
23:15Google Blog:AI(RSS)45看创意传奇人物如何用AI为小企业制作广告
5月7日周四
19:58公众号:龙猫LongCat(美团)53报名|CVPR 2026 美团学术论文精选及分享会
08:30Apple Machine Learning Research(RSS)61精选Normalizing Flows with Iterative Denoising
5月1日周五
05:01Midjourney:Updates(RSS)56精选V8.1 更新
4月29日周三
11:25公众号:阶跃星辰(Step)53阶跃 Step Image Edit 2 上线!小身材、大能力、快响应
4月28日周二
19:35公众号:生数科技(Vidu·视频)24降本50%,效率提升10倍,Vidu发布一键生成AI解说剧产品,重塑解说剧生产链路
08:00Apple Machine Learning Research(RSS)49条件扩散模型中组合泛化的局部机制
03:02Midjourney:Updates(RSS)50High-res rating
4月24日周五
14:52公众号:火山引擎30火山方舟上线影眸Hyper3D Gen-2与数美Hitem3D 2.0
4月23日周四
23:05公众号:可灵AI(快手·视频)49可灵AI 4K影像创作大赛今日开启!
23:05公众号:可灵AI(快手·视频)53可灵AI实现4K画质与团队会员跨空间管理双重升级
4月22日周三
23:16Gary Marcus:The Road to AI We Can Trust(RSS)ChatGPT 的"强大新图像引擎"
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月1日
01:29
Apple:Newsroom(RSS)
精选66
Apple Creator Studio 更新:更智能、更快速、更互联

Apple Creator Studio 推出多项 AI 增强更新。Final Cut Pro 新增 on-device AI 驱动的 Generate Captions(自动转录音频生成字幕)和 Edit Detection(自动检测剪辑点)。Mac 版加入 Auto Mask(自动识别皮肤、天空等主体)、增强的 Match Color 和 Advanced Trimming。支持将帧发送至 Pixelmator Pro 编辑,并在 Keynote、Pages、Numbers 中直接调用 Pixelmator Pro 修改图片。Logic Pro 新增 Grammy 制作人制作的 Producer Project 及 Chord ID 改进。订阅价 $12.99/月或 $129/年,新用户免费试用一个月,教育用户 $2.99/月。

产品更新图像生成语音

推荐理由:Final Cut Pro 的自动字幕和遮罩是实打实的工作流提升,Pixelmator Pro 的深度整合也让设计更顺畅,虽然没有颠覆性突破,但创意工作者今天就能用上。
00:08
Google DeepMind:Blog(RSS)
精选70
Google DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni Flash

Google DeepMind 推出 Nano Banana 2 Lite(gemini-3.1-flash-lite-image),为 Nano Banana 系列速度最快、成本最低的图像模型,文本到图像输出仅需 4 秒,每 1K 分辨率图像成本 $0.034,已上线 Google AI Studio、Gemini API 及消费者产品(AI Mode in Search、Gemini app 等)。同时推出 Gemini Omni Flash(gemini-omni-flash-preview),支持高画质视频生成与对话式编辑,视频输出定价 $0.10/秒,面向开发者开放 API。

Google图像生成多模态模型发布
关联讨论 3 条X:Google DeepMind (@GoogleDeepMind)X:Logan Kilpatrick (@OfficialLoganK)X:Google AI (@GoogleAI)
推荐理由:Nano Banana 2 Lite 把图像生成拉到 4 秒延迟和 0.034 美元单价,很适合高频草稿流,Omni Flash 首次对开发者开放视频生成和对话编辑,两个模型串起来的快速迭代工作流是这次最实用的更新。
6月26日
02:57
Midjourney:Updates(RSS)
精选62
Midjourney V8.1 草稿模式新增随机风格功能

Midjourney V8.1 的草稿模式(draft mode)添加了随机风格功能。用户在提示词中加入 --sref random 即可一键生成 24 张不同风格的图片。开启草稿模式可通过点击提示栏的 ⚡ 图标或添加 --draft 参数。

产品更新图像生成

推荐理由:Midjourney 在 V8.1 草稿模式加了随机风格,一键出 24 种草图,对找灵感的创作者算顺手小升级,但改变不了核心创作流程,只适合深度用户尝鲜。
6月25日
19:30
公众号:百度智能云(文心)
48
百度智能云联合五家伙伴,加速AIGC内容工业化生产

百度智能云携手酱油文化、VAST、炫佳科技、魔方元启、LIKEAI,将千帆、百舸等能力落地于AI漫剧、3D内容、短剧创作。酱油文化漫剧制作周期压缩90%,月产能超200部,单月营收达5000万量级,抖音破亿作品中五分之一出自其手。VAST的Tripo大模型基于百度百舸数秒生成生产级3D网格。炫佳科技Kino-AIGC模型通过网信办备案并登顶VBench,累计生成超10万分钟AI视频。魔方元启制作周期缩短50%-80%。LIKEAI实现7-10人班组单周单部短剧交付,代表作《哎呀,我的娘亲是女帝》上线24小时播放量超2亿。

图像生成行业动态视频
19:20
公众号:生数科技(Vidu·视频)
38
生数科技与极豆科技达成战略合作,共建汽车行业AIGC解决方案

6月24日,生数科技与极豆科技签署战略合作协议。双方将整合生数科技多模态大模型(Vidu等)与极豆科技汽车AI解决方案、AI中台及车规级研发能力,围绕座舱内容、车主服务等场景打造汽车行业AIGC解决方案。重点探索个性化欢迎、亲子互动、旅途影像等场景,通过模型接入与场景编排将内容生成从预置供给升级为实时动态生成。同时将AIGC延伸至通勤、补能、车辆服务等环节,探索API、SDK及私有化部署等交付方式。极豆科技已与30余家车企合作,累计量产装车超1400万辆。

图像生成多模态行业动态视频
14:40
公众号:京东JoyAI
55
JoyAI 上线「欢乐足球季」:上传照片一键生成足球主题动态视频

JoyAI APP 上线「欢乐足球季」主题活动,用户上传一张人像照片即可生成沉浸式赛场动态视频,支持近 20 款视频模板(看台抓拍、进球巅峰时刻、足球手势舞等),内置全景推进、特写定格等多类运镜逻辑,人物动作与表情自然拟合,赛场光影与人群动效同步渲染。同时上线近 50 款足球主题 AI 智能体,覆盖战术复盘、趣味评球、互动陪伴等方向。活动上线首周日均互动增长率超 158%。

产品更新图像生成视频
6月24日
19:31
OpenRouter:Announcements(RSS)
精选73
OpenRouter推出统一图像API

OpenRouter推出统一图像API,整合Google、OpenAI、Black Forest Labs、Recraft、ByteDance、Sourceful、Microsoft、xAI等30+模型。新API提供标准化请求格式,通过/api/v1/images/models端点返回每个模型的分辨率、宽高比、输出数量、输入参考图数量、种子等能力描述;通过/api/v1/images/models/{id}/endpoints端点获取具体服务商的定价与参数支持(如Seedream 4.5每张$0.04、FLUX.2 Pro每百万像素$0.03、GPT-5.4 Image 2按token计费)。OpenAI的GPT 5系列图像模型支持SSE流式预览,启用"stream": true即可边生成边返回预览。新图像模型将仅添加至专用API,建议现有用户切换。

智能体产品更新图像生成多模态
关联讨论 1 条X:OpenRouter (@OpenRouter)
推荐理由:OpenRouter 把 30+ 图像模型收进一个 API,参数自动发现和流式预览让频繁切换模型的开发者省去不少适配麻烦,尤其对 Agent 工作流很友好。
6月21日
13:00
公众号:腾讯元宝
精选64
腾讯元宝父亲节活动:上传照片生成与年轻爸爸的合影

腾讯元宝推出父亲节主题活动,用户可选择爸爸年轻时照片与自己的照片,输入提示词(如“帮我生成一张和爸爸的合影,将图2的我融合到图1爸爸的照片中,我想穿越回__年前,和他一起_____;保留爸爸照片的背景、动作及五官;人物姿态自然协调,整体光线与色调保持一致”),元宝即可生成合影。活动旨在让用户“回到过去”看到爸爸的青春模样。

图像生成教程/实践

推荐理由:元宝的父亲节营销,但合影生成指令写得具体可复现,比普通AI写真教程更接地气,父亲节想整活的可以直接抄作业。
6月19日
10:10
公众号:腾讯元宝
48
腾讯元宝端午图像编辑:粽叶头套指令说明

用户发布多组详细提示词,要求保留原图主体及背景,仅对宠物、人物、表情包、企鹅等对象添加真实风格的绿色粽叶头套或指套。指令强调粽叶需具备叶脉、折痕、色差、翘边和自然阴影,用红白细绳或草绳固定并在下巴处松松打结,整体效果类似手机随手拍的真实照片,避免卡通感、头盔感和过度规整。每段提示词均独立指定保留原图和比例,不改变原表情或姿势。

图像生成教程/实践
6月18日
12:00
公众号:龙猫LongCat(美团)
59
美团智能创作团队海报生成技术体系:PosterCraft/PosterOmni/PosterReward

美团智能创作团队构建了覆盖“生成—编辑—评判”全链路的海报生成技术体系。PosterCraft(ICLR 2026)通过四阶段级联优化实现端到端高美感海报生成,文字渲染准确率接近顶级闭源商业系统;PosterOmni(CVPR 2026)以单一统一模型覆盖扩图、补全、比例调整、风格迁移等六类设计任务;PosterReward(CVPR 2026)是首个专门面向海报质量的奖励模型,在专项评测基准上达86%准确率。三者相互协同,已全部开源至MeiGen-AI仓库,并在美团外卖套餐图生成、品牌IP袋鼠团团等业务中落地。

图像生成开源生态教程/实践评测/基准
6月17日
06:13
Midjourney:Updates(RSS)
同事件精选66
Midjourney V8.1 推出 Draft mode 草稿模式与新功能预览

Midjourney V8.1 的 Draft mode 草稿模式每次生成24张低分辨率低质量图片。用户可对任意图片点击 "Vary",将其渲染为全质量、全分辨率版本。草稿任务消耗的快速小时数减半。

产品更新图像生成
同一事件,精选展示《Midjourney V8.1 已成为默认模型》
推荐理由:这是我最近看到最实用的 Midjourney 更新,草稿模式半价生成 24 张低质量图,快速筛选后再渲染,直接降低试错成本。
06:13
Midjourney:Updates(RSS)
35
Midjourney 将于明天直播揭晓首个秘密硬件项目

Midjourney 将在明天(美国太平洋时间下午6点)通过 Discord 和 X 平台直播,首次公开其秘密硬件项目。该项目被描述为“雄心勃勃、物理尺寸巨大且出人意料”。具体细节尚未公布。

产品更新图像生成端侧
6月11日
12:10
Midjourney:Updates(RSS)
精选64
Midjourney V8.1 已成为默认模型

Midjourney 已将默认模型从 V7 升级为 V8.1。V8.1 在智能性、连贯性、对详细提示的遵循度以及文本渲染效果上均有提升,HD 模式也已支持。

图像生成模型发布
关联讨论 1 条X:Midjourney (@midjourney)
推荐理由:虽然V8.1不是大版本,但设为默认后所有用户自动升级,尤其是文本和复杂提示词的理解增强,做设计的朋友值得重新测试一下关键词。
6月9日
19:30
公众号:可灵AI(快手·视频)
55
可灵AI×候鸟300发起AI主义新浪潮AIGC影像大赛

可灵AI与候鸟300联合发起AIGC影像大赛。线下大赛6月16-26日在阿那亚海边举办,评审包括李少红、陈明昊、焦雄屏等影视与AI专家及美院教授,设10万奖金+超200万灵感值,结果6月27日晚揭晓。线上大赛6月22日前投稿可角逐“最受关注大奖”,获奖者受邀参加6月27日颁奖。参赛要求:视频≥50%由可灵AI生成,官网投稿填表并带话题分享。

图像生成行业动态视频
03:14
Apple:Newsroom(RSS)
同事件精选63
Apple Intelligence 将强大 AI 能力融入日常体验

Apple 发布下一代 Apple Intelligence,将 AI 能力集成到 iPhone、iPad 和 Mac 中,带来更个性化和有帮助的日常体验。

产品更新图像生成多模态
同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》
推荐理由:苹果这次把 AI 深度植入常用 app,从空间重构图到自动修密码,方向很务实,但秋季才上线,目前只有开发者能尝鲜。
6月6日
17:52
公众号:MiniMax(稀宇科技)
56
海螺AI×上影节活动日历:开放日6.14-6.15

MiniMax旗下海螺AI作为第28届上影节独家AI影像战略合作伙伴,6.14-6.15举办开放日。活动包括:AI片场·海螺专属Booth(展示1+1组合作品及过程)、6.14多模态行业交流会、6.15专题圆桌(超级创作者呈现四种图景、《流浪地球》制片人与青年导演对谈)。具体时间地点详见图片。

图像生成多模态行业动态视频
6月4日
11:00
公众号:火山引擎
48
中国美术学院×火山引擎:高质量数据集赋能普通人专业作画

中国美术学院与火山引擎联合开发「中国画创作平台」,通过6个月数据治理,将约3000张国画梳理为7维度结构化标签数据集,一次性标注通过率约95%。采用模型后训练技术,将国画鉴赏逻辑、创作理论注入豆包大模型和Seedream图像创作模型,封装为低门槛智能体。用户通过基础生成、修改调整、氛围添加三步操作,几分钟即可完成国画创作。智能体支持文生图、图生图,可集成至小程序、交互大屏,应用于教学、文创开发等场景。

产品更新图像生成多模态
6月2日
01:26
Google Blog:AI(RSS)
42
谷歌员工如何使用 Gemini 制作 Google I/O 2026

本文介绍了谷歌员工使用 Gemini 模型来制作 2026 年的 Google I/O 开发者大会。

Google图像生成多模态教程/实践
5月29日
16:46
公众号:京东JoyAI
43
JoyInside上新:小龙AI魔法益智打印机开启预售

京东JoyInside与ZORICAM联合推出小龙AI魔法益智打印机,集故事机、聊天机器人、打印机、学习机于一身。产品搭载京东自研JoyAI大模型,首创面向儿童的“情景式对话+打印”交互:唤醒“小龙”后通过语音指令即可生成画作并打印成专属贴纸,还能在对话中理解语境主动提出打印建议。硬件支持WiFi连接,续航超48小时。

产品更新图像生成语音
5月28日
17:47
公众号:通义实验室(千问)
54
通义实验室发布Qwen-Image-Bench:56项细粒度创作评测基准

通义实验室推出文生图评测基准Qwen-Image-Bench,由专业艺术家团队开发,将创作能力解构为5大核心支柱、17大场景及56项可量化维度。配套开源自动化评估模型Q-Judger,与资深人类艺术家评估相关性达Spearsman 0.92。评测使用1000条中英文分层Prompt,每条覆盖至少4项考点。结果显示,当前T2I模型在文字准确性、信息可视化、跨语言生成等子领域差距明显,世界知识与逻辑推理能力是跻身第一梯队的分水岭。完整数据集与Q-Judger已开源。

arXivHugging Face图像生成多模态
16:44
公众号:可灵AI(快手·视频)
54
可灵AI携20部4K作品亮相AI on the Lot

第四届AI on the Lot峰会于5月27日至29日在亚马逊影业基地举办。可灵AI在29日社区日展映20部4K作品,全部由欧洲创作者组织Prompt Club的20位成员创作,探索AI电影边界。同台亮相的还有赛博朋克AI电影《The Patchwright》北美首映、艾美奖编剧Bernie Su的实时互动影片、90分钟AI长片《Hell Grind》及可灵AI参与制作的《The Fracture》。展映于5月29日下午1点在The Culver Theater举行。

图像生成行业动态视频
5月25日
21:55
公众号:百度智能云(文心)
22
自如设计师AI实验:百度智能云文心让"半天等一张图"变成"几秒生成一个家"

自如设计师借助百度智能云文心的AI能力,将室内设计效果图的生成时间从原本的半天大幅缩短至几秒。这一实验展示了生成式AI在居住空间设计中的实际落地效果,显著提升设计师的工作效率和客户沟通体验。

图像生成行业动态
18:13
公众号:生数科技(Vidu·视频)
42
Vidu 推出 AI 直播礼物特效定制服务

Vidu 推出 AI 直播礼物特效定制服务,支持千人千面的礼物特效实时生成,实现秒级互动体验。

产品更新图像生成视频
5月22日
14:02
公众号:龙猫LongCat(美团)
54
从高拟真到真可用,LongCat-Video-Avatar 1.5 正式开源

美团技术团队正式开源 LongCat-Video-Avatar 1.5,该版本从高拟真走向真可用,将视频头像生成从室内彩排演练推向千人千面的真实应用场景。

图像生成模型发布视频
00:07
美团 LongCat:HuggingFace 新模型
精选73
LongCat-Video-Avatar-1.5:升级版音频驱动数字人视频生成框架

美团LongCat团队发布了LongCat-Video-Avatar-1.5,一个专注于音频驱动数字人视频生成的开源框架。其核心升级在于采用Whisper-Large音频编码器,显著优化了唇部动态的流畅度与自然度。该版本实现了精准的唇形同步、全身时序稳定性以及长视频中的身份一致性,并能泛化应用于动漫、动物及多人交互等复杂场景。通过基于DMD2的步蒸馏技术,模型仅需8步即可高效推理。团队还构建了一个涵盖多场景、多语言的人工评估基准,通过大规模主观评分与专家分析,验证了其在多项关键维度上的优异性能。

Hugging Face图像生成多模态开源/仓库
关联讨论 1 条IT之家(RSS)
推荐理由:美团把数字人模型升级到1.5版,换了Whisper做音频编码,唇形同步比之前自然不少,而且开源了训练代码,做电商直播和虚拟博主的朋友可以直接拿过来跟商业方案掰手腕。
5月20日
01:48
Google DeepMind:Blog(RSS)
51
使用 Project Genie 和 Street View 模拟真实世界场景

谷歌宣布向全球的 Google AI Ultra 订阅者开放新的访问权限,并推出一项基于 Street View 数据驱动的全新功能。该功能能够模拟真实世界的地点与场景,标志着 AI 在结合地理信息与沉浸式体验方面迈出新步伐,为用户带来更具现实感的交互与探索可能性。

DeepMindGoogle产品更新具身智能
5月19日
14:28
公众号:可灵AI(快手·视频)
24
可灵AI与候鸟300发起"候鸟记忆复活计划"

可灵AI与候鸟300合作推出#候鸟记忆复活计划,邀请曾参与候鸟300的艺术家用旧照片、影像、手稿或故事作为素材,通过可灵AI续写创作。活动即日起至5月31日,带话题发布视频并填写问卷即视为参与。将综合创意独特性和技术表现力筛选10支优秀作品,各奖励12,000灵感值。

图像生成行业动态视频
5月15日
14:37
蚂蚁 inclusionAI:GitHub 新仓库
57
ARGenSeg:基于自回归图像生成模型的全新图像分割方法

研究团队在NeurIPS 2025上提出ARGenSeg,将图像分割转化为自回归生成过程,逐像素预测分割掩码。该方法利用大规模预训练自回归图像生成模型(如GPT风格视觉模型)的表征与序列建模能力,无需专门架构设计或大量标注数据。实验证明,其在多个标准数据集上性能具有竞争力,展现了生成式基础模型处理判别式视觉任务的潜力。

GitHub图像生成论文/研究
5月8日
23:15
Google Blog:AI(RSS)
45
看创意传奇人物如何用AI为小企业制作广告

谷歌推出"The Small Brief"项目,邀请四位广告业偶像——Susan、David、Victoria和Penny,运用AI工具为本地企业创作广告。他们使用VideoFX、ImageFX等生成式AI技术,在48小时内为旧金山湾区四家小企业完成广告制作。数据显示,AI生成的广告在关键效果指标上表现优于传统广告,其中一家企业的广告效果提升达30%。该项目展示了AI如何降低创意门槛,让小企业也能获得高质量的广告内容。

Google图像生成行业动态
5月7日
19:58
公众号:龙猫LongCat(美团)
53
报名|CVPR 2026 美团学术论文精选及分享会

美团技术团队将于5月21日(周四)下午举办线上直播,分享CVPR 2026学术论文精选。

图像生成行业动态
08:30
Apple Machine Learning Research(RSS)
精选61
Normalizing Flows with Iterative Denoising

研究团队在归一化流(NFs)生成模型领域取得新进展,提出了迭代TARFlow(iTARFlow)。该方法在训练阶段保持完全端到端的基于似然的目标,采样时则采用自回归生成方式。iTARFlow延续了TARFlow在图像建模任务上的优势,使其成为扩散模型等方法的可行替代方案,进一步提升了归一化流生成模型的性能表现。

图像生成论文/研究

推荐理由:Normalizing Flows 这个老方法被苹果玩出新花样,iTARFlow 在训练上保留端到端似然,采样却自回归,给做生成模型的人提供了扩散模型之外的第二个靠谱选择。
5月1日
05:01
Midjourney:Updates(RSS)
精选56
V8.1 更新

Midjourney V8.1 版本现已登陆 Discord 平台及其官方网站。本次更新重点提升了图像的清晰度与整体画质,这一改进在风格参考(SREF)和情绪板(Moodboards)功能中效果最为显著,同时所有类型的图像生成质量均有所增强,为用户带来更精细的视觉体验。

图像生成模型发布

推荐理由:Midjourney V8.1 只是个小版本迭代,主要提升锐度和图像质量,用惯了 V8 的可以不急着换,但玩 SREF 和 Moodboard 的值得试一下,细节确实有提升。
4月29日
11:25
公众号:阶跃星辰(Step)
53
阶跃 Step Image Edit 2 上线!小身材、大能力、快响应
图像生成模型发布
4月28日
19:35
公众号:生数科技(Vidu·视频)
24
降本50%,效率提升10倍,Vidu发布一键生成AI解说剧产品,重塑解说剧生产链路

Vidu发布一键生成AI解说剧产品,实现降本50%、效率提升10倍,重新塑造解说剧生产链路。该产品无需人工剪辑与配音,可自动完成解说剧的全部生成流程,推动内容创作进入全AI化阶段。

产品更新图像生成视频
08:00
Apple Machine Learning Research(RSS)
49
条件扩散模型中组合泛化的局部机制

条件扩散模型展现出组合泛化能力,能生成超出训练分布的条件组合样本,但其机制尚不明确。研究聚焦于长度泛化,即生成比训练所见更多数量物体的图像。在受控的CLEVR场景中发现,模型仅在某些情况下能实现长度泛化,表明其并非总能掌握底层组合结构。通过分析扩散过程的局部动态,研究揭示了泛化成功与失败案例中条件交互模式的系统性差异,为理解生成式模型的组合推理边界提供了新视角。

图像生成论文/研究
03:02
Midjourney:Updates(RSS)
50
High-res rating

Midjourney团队正为v8.1/8.2版本筹备重大美学更新,并公开征集用户协助进行图像排序以改进模型。此次工作的核心在于,团队将首次在完整的2K分辨率下进行图像排序活动,旨在为模型获取最优的高清像素数据,以提升图像生成质量。

产品更新图像生成
4月24日
14:52
公众号:火山引擎
30
火山方舟上线影眸Hyper3D Gen-2与数美Hitem3D 2.0

火山方舟平台新增影眸Hyper3D Gen-2与数美Hitem3D 2.0两款3D模型。

产品更新图像生成
4月23日
23:05
公众号:可灵AI(快手·视频)
49
可灵AI 4K影像创作大赛今日开启!
图像生成行业动态视频
23:05
公众号:可灵AI(快手·视频)
53
可灵AI实现4K画质与团队会员跨空间管理双重升级

快手旗下可灵AI近日完成双重升级:视频生成支持4K画质输出,并新增团队会员跨空间管理功能。

产品更新图像生成视频
4月22日
23:16
Gary Marcus:The Road to AI We Can Trust(RSS)
ChatGPT 的"强大新图像引擎"

正文内容仅包含"Regurgitating ≠ understanding"(反刍不等于理解),缺乏撰写摘要所需的完整信息,如具体发布细节、功能变化或性能指标。请提供完整文章内容以便提取关键信息并撰写符合要求的摘要。

OpenAI图像生成大佬观点
‹ 上一页
123
下一页 ›