AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 100 条
全部一手资讯X论文
标签「图像生成」清除
11月20日周四
08:23Midjourney:Updates(RSS)Web 端更新
03:04Midjourney:Updates(RSS)Midjourney 推出用户个人资料功能
11月7日周五
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang Diffusion:加速视频与图像生成
10月24日周五
02:48Google DeepMind:Blog(RSS)Gemini 图像编辑功能迎来重大升级
10月17日周五
02:36Midjourney:Updates(RSS)Midjourney 风格排名与 TV 功能更新
9月30日周二
19:36蚂蚁 inclusionAI:GitHub 新仓库51inclusionAI/Ming-UniVision
8月26日周二
08:00OpenRouter:Announcements(RSS)49OpenRouter 上线首个图像模型 Gemini 2.5 Flash Image Preview
08:00OpenRouter:Announcements(RSS)46OpenRouter 上线首个图像模型 Gemini 2.5 Flash Image Preview
08:00OpenRouter:Announcements(RSS)42首个图像模型在 OpenRouter 上线
5月20日周二
17:45Google DeepMind:Blog(RSS)精选以全新生成式媒体模型与工具激发创意
5月16日周五
00:00Runway:News(网页)Runway 推出 Gen-4 Image API
2月6日周四
00:00Mistral AI:News(网页)62全新 le Chat:你的生活与工作 AI 助手
12月9日周一
08:00xAI:News(网页)精选Grok 正式发布图像生成功能
11月18日周一
00:00Mistral AI:News(网页)61Mistral AI 为 le Chat 推出重大更新(Beta)
6月10日周五
06:10Lilian Weng:Lil'Log(RSS)41通用视觉语言模型
4月7日周四
02:15Sam Altman:Blog(RSS)DALL•E 2
7月11日周日
08:00Lilian Weng:Lil'Log(RSS)49什么是扩散模型?
8月12日周日
08:00Lilian Weng:Lil'Log(RSS)41从自编码器到Beta-VAE:生成模型的演进之路
10月29日周日
08:00Lilian Weng:Lil'Log(RSS)23物体检测入门 第一部分:梯度向量、HOG 和 SS
8月20日周日
08:00Lilian Weng:Lil'Log(RSS)46从 GAN 到 WGAN
没有更多了
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
11月20日
08:23
Midjourney:Updates(RSS)
Web 端更新

随 Profiles 功能今日上线,"Hide"过滤器更名为"Trash"。被移至 Trash 的创作内容将不再显示于 Create 页面,功能命名更贴合实际用途。

产品更新图像生成
03:04
Midjourney:Updates(RSS)
Midjourney 推出用户个人资料功能

Midjourney 正式推出用户个人资料功能,用户可创建专属主页向社区展示作品,支持自定义用户名、头像、横幅、简介及社交媒体链接。

产品更新图像生成
11月7日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang Diffusion:加速视频与图像生成

SGLang 推出 Diffusion 推理引擎,将高性能 LLM 服务架构扩展至视频与图像生成领域。该系统支持 Wan、Hunyuan、Qwen-Image、Flux 等主流开源扩散模型,在 H100/H200 GPU 上实现 1.2-5.9 倍加速。通过 ComposedPipelineBase 架构抽象与统一序列并行技术,提供 OpenAI 兼容 API、CLI 及 Python 接口,并与 FastVideo 合作覆盖从训练到部署的全流程。

图像生成开源/仓库视频部署/工程
10月24日
02:48
Google DeepMind:Blog(RSS)
Gemini 图像编辑功能迎来重大升级

Gemini 应用原生图像编辑功能迎来重大升级,用户现可通过更新后的工具以全新方式变换图像,获得更强大的创意编辑能力。

Google产品更新图像生成多模态
10月17日
02:36
Midjourney:Updates(RSS)
Midjourney 风格排名与 TV 功能更新

Midjourney 启动第二轮高分辨率风格排名活动,改为单图排名模式以学习细节特征、改进风格系统。同期正在新增 TV 功能。

产品更新图像生成
9月30日
19:36
蚂蚁 inclusionAI:GitHub 新仓库
51
inclusionAI/Ming-UniVision

inclusionAI 发布了 Ming-UniVision 的代码。该项目提出了一种创新的连续统一分词器,旨在联合处理图像理解与生成任务。该技术试图将视觉识别和图像合成整合进一个统一的框架内,通过连续化的表示来桥接两类不同性质的视觉任务,有望提升多模态模型的效率和协同能力。此次代码开源意味着相关方法将可供社区研究、复现与应用。

图像生成多模态模型发布
8月26日
08:00
OpenRouter:Announcements(RSS)
49
OpenRouter 上线首个图像模型 Gemini 2.5 Flash Image Preview

OpenRouter 现已上线 Gemini 2.5 Flash Image Preview,这是该平台首个图像生成模型,支持 SOTA 图像生成、角色一致性以及多图像输出。

Google产品更新图像生成多模态
08:00
OpenRouter:Announcements(RSS)
46
OpenRouter 上线首个图像模型 Gemini 2.5 Flash Image Preview

OpenRouter 现已提供 Gemini 2.5 Flash Image Preview,这是平台上的首个图像模型。该模型具备 SOTA 图像生成能力,支持角色一致性(character consistency)和多图像输出(multi-image outputs)。

产品更新图像生成
08:00
OpenRouter:Announcements(RSS)
42
首个图像模型在 OpenRouter 上线

Gemini 2.5 Flash Image Preview 模型已在 OpenRouter 平台正式发布。该模型是首个在该平台上线的图像生成模型,具备当前最优的图像生成能力。其核心特性包括出色的角色一致性和支持多图像输出功能,为开发者与用户提供了新的图像生成工具选项。

产品更新图像生成部署/工程
5月20日
17:45
Google DeepMind:Blog(RSS)
精选
以全新生成式媒体模型与工具激发创意

发布新一代生成式媒体模型 Veo 3 与 Imagen 4,以及专为电影制作打造的工具 Flow,支持更高质量的视频与图像生成及专业影视创作流程。

DeepMind图像生成模型发布视频

推荐理由:Google发布Veo 3与Imagen 4生成模型及电影制作工具Flow
5月16日
00:00
Runway:News(网页)
Runway 推出 Gen-4 Image API

Runway 开放 Gen-4 Image API,集成 References 功能,定价 $0.08/张。支持虚拟试衣、游戏资产生成、室内设计等场景,开发者可通过 bounding boxes 精确控制构图,将多模态生成能力接入自有应用。

产品更新图像生成多模态
2月6日
00:00
Mistral AI:News(网页)
62
全新 le Chat:你的生活与工作 AI 助手

Mistral AI 推出全新 le Chat AI 助手,基于其高性能模型提供快速响应(最高约 1000 词/秒)。该助手提供 Pro($14.99/月起)和 Team 版本,并开启企业版私有预览,支持 SaaS、本地及 VPC 部署。功能包括图像生成、代码执行分析及高质量文档处理,并即将推出数据连接器和多步骤智能体。

产品更新图像生成多模态推理
12月9日
08:00
xAI:News(网页)
精选
Grok 正式发布图像生成功能

Grok 推出图像生成功能,支持通过自然语言指令直接创建图片。该功能已向 X 平台用户开放,标志着这款 AI 助手从文本交互向多模态能力扩展,用户可在对话中直接生成并编辑视觉内容。

xAI产品更新图像生成

推荐理由:xAI发布Grok图像生成功能,拓展多模态应用场景
11月18日
00:00
Mistral AI:News(网页)
61
Mistral AI 为 le Chat 推出重大更新(Beta)

Mistral AI 对其免费 AI 工作助手 le Chat 进行了重大更新(Beta)。新增功能包括:支持带引用的网络搜索;用于协作创作的 Canvas 界面;由新多模态模型 Pixtral Large 驱动的文档与图像理解功能;由 Black Forest Labs Flux Pro 支持的图像生成能力;以及更快的响应速度(由推测编辑技术驱动)。此次更新也展示了 le Chat 在提供前沿模型访问、网络搜索、Canvas 等多项核心功能方面的免费优势。所有新功能将陆续向用户开放。

产品更新图像生成多模态
6月10日
06:10
Lilian Weng:Lil'Log(RSS)
41
通用视觉语言模型

处理图像生成文本(如图像描述和视觉问答)的技术已有多年研究。传统方法通常依赖目标检测网络作为视觉编码器来捕捉视觉特征,再通过文本解码器生成文字。该内容聚焦于一种特定的技术路径,即扩展预训练的通用语言模型,使其具备处理视觉信号的能力,从而完成视觉语言任务。

图像生成多模态教程/实践
4月7日
02:15
Sam Altman:Blog(RSS)
DALL•E 2

OpenAI 发布 DALL•E 2 研究版本,支持通过自然语言指令生成和编辑图像。作者认为这标志着计算机界面新趋势——自然语言交互,并指出与 Copilot 不同,DALL•E 2 能独立完成完整作品,可能率先冲击创意工作而非体力劳动,预示 AI 对劳动力市场的潜在影响。团队计划今年夏天正式产品化,当前采用渐进式部署策略以评估风险。

OpenAI图像生成多模态模型发布
7月11日
08:00
Lilian Weng:Lil'Log(RSS)
49
什么是扩散模型?

扩散模型是一种新型生成模型,具备灵活学习任意复杂数据分布的能力,并可对分布进行解析评估。近期研究表明,扩散模型能够生成高质量图像,其性能已与最先进的GAN相竞争。该文章自发布以来持续更新,陆续加入了无分类器引导、GLIDE、unCLIP、Imagen、潜在扩散模型、渐进蒸馏、一致性模型等新方法与模型架构内容。

OpenAI图像生成教程/实践
8月12日
08:00
Lilian Weng:Lil'Log(RSS)
41
从自编码器到Beta-VAE:生成模型的演进之路

本文系统梳理了自编码器系列模型的演进历程。自编码器通过瓶颈神经网络结构学习高维数据的压缩表示,其副产品是可用于降维、特征提取等任务的潜在编码。文章重点介绍了变分自编码器(VAE)及其关键变体Beta-VAE,它们通过引入概率框架和解缠约束,显著提升了生成能力。此外,还涵盖了去噪、稀疏等经典改进模型,并补充了后续发展如VQ-VAE与TD-VAE的相关内容。

OpenAI图像生成教程/实践数据/训练
10月29日
08:00
Lilian Weng:Lil'Log(RSS)
23
物体检测入门 第一部分:梯度向量、HOG 和 SS

物体检测入门系列第一部分发布,聚焦基础概念,介绍梯度向量、HOG(方向梯度直方图)算法和选择性搜索用于图像分割。文章针对无计算机视觉经验的读者,以通俗方式解释传统物体检测技术,不涉及深度神经网络。内容涵盖梯度向量计算、HOG 算法原理及选择性搜索的图像分割应用,旨在激发学习兴趣。深度学习模型将在后续 Part 2 和 Part 3 中详细探讨。

图像生成教程/实践
8月20日
08:00
Lilian Weng:Lil'Log(RSS)
46
从 GAN 到 WGAN

生成对抗网络(GAN)在模拟图像、语言和音乐等现实世界内容的生成任务中成果显著,但其训练过程常因不稳定和难以收敛而受阻。Wasserstein GAN(WGAN)针对这一问题,引入 Wasserstein 距离作为平滑度量,用于优化概率分布间的距离测量,从而提升训练稳定性并促进模型收敛。该研究深入解析了 GAN 的数学原理,并展示了 WGAN 如何通过改进度量方式克服 GAN 的固有训练缺陷。

图像生成教程/实践
‹ 上一页
123
下一页 ›