Photoroom团队通过消融研究,总结了文本到图像模型训练的关键发现:混合高质量与多样化数据、在训练中后期引入强数据增强,以及调整无分类器引导的丢弃率,能有效优化模型性能。这些结论为Stable Diffusion等模型的训练提供了实用指导。
Photoroom团队通过消融研究,总结了文本到图像模型训练的关键发现:混合高质量与多样化数据、在训练中后期引入强数据增强,以及调整无分类器引导的丢弃率,能有效优化模型性能。这些结论为Stable Diffusion等模型的训练提供了实用指导。
美团-longcat发布LongCat-Image-Edit-Turbo图像编辑模型,秉持开源与开放科学理念推进人工智能技术的普及。该项目专注于图像编辑领域,旨在提供高效的图像处理能力。目前公开信息主要阐述项目愿景与使命,具体技术参数、性能指标及版本更新细节有待进一步披露。
Last October, we introduced Representation Autoencoders (RAE), showing that training diffusion on frozen semantic repres...
新增 6:11、4:5、5:4、21:9 四种宽高比选项;未使用 cref/oref 时自动去除 --cw/--ow 参数;自动清理 moodboard 任务中不支持的 weird 参数。
SGLang-Diffusion 最新版本(lmsysorg/sglang:dev-pr-17247)性能较初始版本提升2.5倍,在NVIDIA GPU上较其他方案快5倍。新增Day-0支持Flux.2、Qwen-Image系列、Z-Image-Turbo等多款模型,完整支持LoRA格式与HTTP API,并推出ComfyUI集成插件。技术层面引入Layerwise Offload机制实现计算与权重加载重叠,支持SP/TP混合并行及SageAttention系列后端,兼容AMD、4090、5090及MUSA硬件。
智谱联合华为开源多模态生成模型GLM-Image,为首款基于国产昇腾芯片与MindSpore框架全流程训练的SOTA模型。采用9B自回归与7B扩散解码器混合架构,在CVTG-2K复杂视觉文字生成和LongText-Bench长文本渲染榜单均位列开源第一,支持1024×1024至2048×2048多分辨率生成。API调用成本0.1元/张,代码已开源至GitHub、Hugging Face及魔搭社区。
Niji V7 图像模型正式上线。该版本专为亚洲及动漫场景优化,改进了动漫连贯性、提示词理解能力、文字渲染效果及 sref 性能。
Qwen-Image-2512 发布,图像细节与真实感显著提升。Qwen Studio 平台提供聊天、图像视频理解/生成、文档处理、网页搜索、工具调用及 artifacts 等全功能支持。
Qwen Studio 集成聊天机器人、图像与视频理解、图像生成、文档处理、联网搜索、工具调用及 artifacts 等全栈 AI 功能。
Qwen Studio 集成聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索、工具调用及 Artifacts 等全栈能力,提供一站式多模态 AI 服务。
小红书AIGC团队在NeurIPS2025上提出全新布局可控生成框架InstanceAssemble,专用于复杂场景下的Layout-to-Image任务。该框架通过从布局条件中引导图像生成,实现了对多对象位置、大小及空间关系的精确控制,解决了现有模型在密集布局下对象漏生、重叠等难题。
!!️ Representations matter for generation! But turns out our understanding of how representations help generation was wr...
美团发布 LongCat-Image-Edit 图像编辑项目,致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 技术应用门槛,通过开放协作促进全球开发者共同参与技术创新,推动先进图像编辑能力的广泛可及。
美团发布 LongCat-Image-Dev 开源项目,致力于通过开源和开放科学推进人工智能技术的普及与民主化。该项目作为 LongCat 系列的图像开发版本,旨在降低 AI 技术门槛,促进全球开发者协作创新,体现了美团在人工智能领域拥抱开源生态的战略布局。
美团-longcat 推出 LongCat-Image 开源项目,致力于通过开源协作与开放科学研究推进人工智能技术的进步与民主化。该项目旨在降低 AI 技术门槛,打破技术壁垒,让先进的 AI 能力更加普惠可及,体现了通过开放生态促进 AI 技术普及的战略愿景。
Hugging Face 的 Diffusers 库正式集成 Black Forest Labs 开发的 FLUX-2 文生图模型。该模型拥有 120 亿参数,采用多模态扩散 Transformer 架构,在图像质量、提示遵循和分辨率方面表现优异,支持生成 1024x1024 像素图像。此次集成让开发者能通过 Diffusers API 便捷使用这一先进模型。
Google 在 Gemini 应用中上线 AI 图像验证工具,用户上传图片即可查询是否由 Google AI 生成或编辑。该功能通过检测 SynthID 数字水印实现,该技术已应用于超 200 亿个 AI 生成内容。未来验证范围将扩展至视频和音频,并支持 C2PA 内容凭证标准。本周起,Nano Banana Pro(Gemini 3 Pro Image)在 Gemini、Vertex AI 和 Google Ads 中生成的图像将嵌入 C2PA 元数据,未来还将支持验证 Google 生态系统外的模型生成内容。
Google DeepMind 发布 Nano Banana Pro 图像生成模型,基于 Gemini 3 Pro 构建,支持多语言可读文本直接渲染,可结合 Google Search 实时信息生成信息图表。该模型支持 14 张图像融合,保持 5 个人物形象一致性,输出 4K 分辨率。现已集成至 Gemini 应用、Google Ads、Google AI Studio 等产品,所有生成内容均嵌入 SynthID 水印以确保透明度。
关联讨论 2 条Google DeepMind:Blog(RSS)Ethan Mollick:One Useful Thing(RSS)随 Profiles 功能今日上线,"Hide"过滤器更名为"Trash"。被移至 Trash 的创作内容将不再显示于 Create 页面,功能命名更贴合实际用途。
Midjourney 正式推出用户个人资料功能,用户可创建专属主页向社区展示作品,支持自定义用户名、头像、横幅、简介及社交媒体链接。
SGLang 推出 Diffusion 推理引擎,将高性能 LLM 服务架构扩展至视频与图像生成领域。该系统支持 Wan、Hunyuan、Qwen-Image、Flux 等主流开源扩散模型,在 H100/H200 GPU 上实现 1.2-5.9 倍加速。通过 ComposedPipelineBase 架构抽象与统一序列并行技术,提供 OpenAI 兼容 API、CLI 及 Python 接口,并与 FastVideo 合作覆盖从训练到部署的全流程。
Gemini 应用原生图像编辑功能迎来重大升级,用户现可通过更新后的工具以全新方式变换图像,获得更强大的创意编辑能力。
Midjourney 启动第二轮高分辨率风格排名活动,改为单图排名模式以学习细节特征、改进风格系统。同期正在新增 TV 功能。
inclusionAI 发布了 Ming-UniVision 的代码。该项目提出了一种创新的连续统一分词器,旨在联合处理图像理解与生成任务。该技术试图将视觉识别和图像合成整合进一个统一的框架内,通过连续化的表示来桥接两类不同性质的视觉任务,有望提升多模态模型的效率和协同能力。此次代码开源意味着相关方法将可供社区研究、复现与应用。
OpenRouter 现已上线 Gemini 2.5 Flash Image Preview,这是该平台首个图像生成模型,支持 SOTA 图像生成、角色一致性以及多图像输出。
OpenRouter 现已提供 Gemini 2.5 Flash Image Preview,这是平台上的首个图像模型。该模型具备 SOTA 图像生成能力,支持角色一致性(character consistency)和多图像输出(multi-image outputs)。
Gemini 2.5 Flash Image Preview 模型已在 OpenRouter 平台正式发布。该模型是首个在该平台上线的图像生成模型,具备当前最优的图像生成能力。其核心特性包括出色的角色一致性和支持多图像输出功能,为开发者与用户提供了新的图像生成工具选项。
Introducing BlenderFusion: Reassemble your visual elements-objects, camera, and background-to compose a new visual narra...
The code and instruction-tuning data for MetaQuery are now open-sourced! Code: https://github.com/facebookresearch/metaq...
Join us for a full-day tutorial on Scalable Generative Models in Computer Vision at @CVPR in Nashville, on Wednesday, Ju...
as expected, this matches findings in unified multimodal understanding and generation models by @sainingxie: frozen VLM ...
发布新一代生成式媒体模型 Veo 3 与 Imagen 4,以及专为电影制作打造的工具 Flow,支持更高质量的视频与图像生成及专业影视创作流程。
Runway 开放 Gen-4 Image API,集成 References 功能,定价 $0.08/张。支持虚拟试衣、游戏资产生成、室内设计等场景,开发者可通过 bounding boxes 精确控制构图,将多模态生成能力接入自有应用。
Mistral AI 推出全新 le Chat AI 助手,基于其高性能模型提供快速响应(最高约 1000 词/秒)。该助手提供 Pro($14.99/月起)和 Team 版本,并开启企业版私有预览,支持 SaaS、本地及 VPC 部署。功能包括图像生成、代码执行分析及高质量文档处理,并即将推出数据连接器和多步骤智能体。
Grok 推出图像生成功能,支持通过自然语言指令直接创建图片。该功能已向 X 平台用户开放,标志着这款 AI 助手从文本交互向多模态能力扩展,用户可在对话中直接生成并编辑视觉内容。
Mistral AI 对其免费 AI 工作助手 le Chat 进行了重大更新(Beta)。新增功能包括:支持带引用的网络搜索;用于协作创作的 Canvas 界面;由新多模态模型 Pixtral Large 驱动的文档与图像理解功能;由 Black Forest Labs Flux Pro 支持的图像生成能力;以及更快的响应速度(由推测编辑技术驱动)。此次更新也展示了 le Chat 在提供前沿模型访问、网络搜索、Canvas 等多项核心功能方面的免费优势。所有新功能将陆续向用户开放。
处理图像生成文本(如图像描述和视觉问答)的技术已有多年研究。传统方法通常依赖目标检测网络作为视觉编码器来捕捉视觉特征,再通过文本解码器生成文字。该内容聚焦于一种特定的技术路径,即扩展预训练的通用语言模型,使其具备处理视觉信号的能力,从而完成视觉语言任务。
OpenAI 发布 DALL•E 2 研究版本,支持通过自然语言指令生成和编辑图像。作者认为这标志着计算机界面新趋势——自然语言交互,并指出与 Copilot 不同,DALL•E 2 能独立完成完整作品,可能率先冲击创意工作而非体力劳动,预示 AI 对劳动力市场的潜在影响。团队计划今年夏天正式产品化,当前采用渐进式部署策略以评估风险。