昆仑万维在2026中关村论坛上展示两大全球顶尖模型 SkyReels V4 和 Mureka V9,获得多方高度赞誉。
V8 Alpha Relax 模式已向 Standard/Pro/Mega 订阅者开放,支持所有生成命令,但不可同时使用 --hd 与 --q 4 参数。官方提示该模式可能存在资源耗尽风险。
Midjourney 开放 V8 模型 Alpha 版本测试,用户可访问 alpha.midjourney.com 体验早期版本并提交反馈。V8 在提示词遵循能力上较此前版本有明显提升。
3月13日,Vidu 联合浦光星奕举办「AI新视界 漫剧新潮流——首届AIGC内容产业大会」,邀请AI技术、影视制作、短剧平台和内容机构等领域嘉宾,共同探讨下一代内容产业机会。议题覆盖AIGC内容生产、AI短剧/AI漫剧、视频大模型应用及内容产业新商业模式。
小红书 Super Intelligence 团队在 FireRed-Image-Edit 1.0 发布不到一个月后推出 v1.1 版本,主要提升包括 OOTD(穿搭)元素融合、人像一致性大幅改进以及更强的社区友好特性。
Hugging Face发布Modular Diffusers库,将扩散模型流程解构为独立模块(如调度器、VAE、UNet)。用户可像组合积木一样自由替换和组合组件,显著提升了模型实验的灵活性与可复现性,简化了自定义流程的创建。该库已开源,旨在支持快速创新。
Photoroom团队在Hugging Face上发布博客,宣布成功在24小时内完成一个文本到图像模型的训练。这一突破将此类模型的典型训练周期从数周大幅缩短至仅一天。实现的关键在于采用了名为PRX的高效训练方法,该方法优化了计算资源分配与数据处理流程。此举显著降低了模型训练的时间与成本门槛,为快速迭代和部署高质量的图像生成AI模型提供了新的可能性。
Kimi 推出 Kimi Doodle,纪念 Pink Floyd 经典专辑《月之暗面》发行 53 周年。用户可访问 kimi.com 或使用最新版 Kimi App 体验。配乐由 AI 生成,非专辑原音。
Rooms 功能今日正式从网站移除。这一实验性尝试因试图同时解决过多问题而表现不佳,暴露了当前基础设施的不足,但为团队提供了关于社区需求的宝贵认知。
V8 图像评分活动进入第三轮。本轮重点从识别"差的"样本转向学习"好的"标准,与上一轮形成对比,邀请用户前往投票链接参与。
Midjourney 开启 V8 第二轮评级活动,重点针对生成文本的提示词测试模型能力。用户可访问 midjourney.com/rank-v8 参与图片评级,活动持续1天。
Midjourney 本周将再举办两场 V8 Rating Party,随后正式发布 V8 模型。用户可前往 midjourney.com/rank-v8 参与 Round 1 图片评分,当前反馈已直接用于模型优化。
Midjourney V8 进入最后优化阶段,团队邀请用户访问 midjourney.com/rank-v8 参与图片评分。通过两两对比选择更美图片,帮助改进模型质量。
小红书基础模型 FireRed-Image-Edit 在 GitHub 上正式亮相,该模型专注于图像编辑任务,并达到新的最佳性能(新 SOTA)。
百灵全模态大模型Ming-flash-omni-2.0正式发布。该模型基于MoE架构,在视觉、语音、图像等全模态能力上实现代际跃迁,其核心突破在于一个统一模型同时具备了强大的通用泛化能力和特定模态的专家级表现。具体特色包括:视觉百科能精准识别万物并关联知识;语音生成可控制情绪、方言,提供百种音色,并能统一生成语音、音效与背景音乐;图像创作可实现氛围重构、场景合成与智能擦除。技术层面通过亿级数据细粒度感知、知识对齐及超低帧率音频表征等创新实现性能飞跃。模型已在多个平台开源。
关联讨论 1 条蚂蚁百灵:Developer Blog(网页)Qwen-Image-2.0 发布,主打专业信息图表与照片级真实感图像生成。Qwen Studio 平台同步集成聊天、多模态理解、文档处理、网页搜索及工具调用等综合能力。
Photoroom团队通过消融研究,总结了文本到图像模型训练的关键发现:混合高质量与多样化数据、在训练中后期引入强数据增强,以及调整无分类器引导的丢弃率,能有效优化模型性能。这些结论为Stable Diffusion等模型的训练提供了实用指导。
美团-longcat发布LongCat-Image-Edit-Turbo图像编辑模型,秉持开源与开放科学理念推进人工智能技术的普及。该项目专注于图像编辑领域,旨在提供高效的图像处理能力。目前公开信息主要阐述项目愿景与使命,具体技术参数、性能指标及版本更新细节有待进一步披露。
新增 6:11、4:5、5:4、21:9 四种宽高比选项;未使用 cref/oref 时自动去除 --cw/--ow 参数;自动清理 moodboard 任务中不支持的 weird 参数。
SGLang-Diffusion 最新版本(lmsysorg/sglang:dev-pr-17247)性能较初始版本提升2.5倍,在NVIDIA GPU上较其他方案快5倍。新增Day-0支持Flux.2、Qwen-Image系列、Z-Image-Turbo等多款模型,完整支持LoRA格式与HTTP API,并推出ComfyUI集成插件。技术层面引入Layerwise Offload机制实现计算与权重加载重叠,支持SP/TP混合并行及SageAttention系列后端,兼容AMD、4090、5090及MUSA硬件。
智谱联合华为开源多模态生成模型GLM-Image,为首款基于国产昇腾芯片与MindSpore框架全流程训练的SOTA模型。采用9B自回归与7B扩散解码器混合架构,在CVTG-2K复杂视觉文字生成和LongText-Bench长文本渲染榜单均位列开源第一,支持1024×1024至2048×2048多分辨率生成。API调用成本0.1元/张,代码已开源至GitHub、Hugging Face及魔搭社区。
Niji V7 图像模型正式上线。该版本专为亚洲及动漫场景优化,改进了动漫连贯性、提示词理解能力、文字渲染效果及 sref 性能。
Qwen-Image-2512 发布,图像细节与真实感显著提升。Qwen Studio 平台提供聊天、图像视频理解/生成、文档处理、网页搜索、工具调用及 artifacts 等全功能支持。
Qwen Studio 集成聊天机器人、图像与视频理解、图像生成、文档处理、联网搜索、工具调用及 artifacts 等全栈 AI 功能。
Qwen Studio 集成聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索、工具调用及 Artifacts 等全栈能力,提供一站式多模态 AI 服务。
小红书AIGC团队在NeurIPS2025上提出全新布局可控生成框架InstanceAssemble,专用于复杂场景下的Layout-to-Image任务。该框架通过从布局条件中引导图像生成,实现了对多对象位置、大小及空间关系的精确控制,解决了现有模型在密集布局下对象漏生、重叠等难题。
美团发布 LongCat-Image-Edit 图像编辑项目,致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 技术应用门槛,通过开放协作促进全球开发者共同参与技术创新,推动先进图像编辑能力的广泛可及。
美团发布 LongCat-Image-Dev 开源项目,致力于通过开源和开放科学推进人工智能技术的普及与民主化。该项目作为 LongCat 系列的图像开发版本,旨在降低 AI 技术门槛,促进全球开发者协作创新,体现了美团在人工智能领域拥抱开源生态的战略布局。
美团-longcat 推出 LongCat-Image 开源项目,致力于通过开源协作与开放科学研究推进人工智能技术的进步与民主化。该项目旨在降低 AI 技术门槛,打破技术壁垒,让先进的 AI 能力更加普惠可及,体现了通过开放生态促进 AI 技术普及的战略愿景。
Hugging Face 的 Diffusers 库正式集成 Black Forest Labs 开发的 FLUX-2 文生图模型。该模型拥有 120 亿参数,采用多模态扩散 Transformer 架构,在图像质量、提示遵循和分辨率方面表现优异,支持生成 1024x1024 像素图像。此次集成让开发者能通过 Diffusers API 便捷使用这一先进模型。
Google 在 Gemini 应用中上线 AI 图像验证工具,用户上传图片即可查询是否由 Google AI 生成或编辑。该功能通过检测 SynthID 数字水印实现,该技术已应用于超 200 亿个 AI 生成内容。未来验证范围将扩展至视频和音频,并支持 C2PA 内容凭证标准。本周起,Nano Banana Pro(Gemini 3 Pro Image)在 Gemini、Vertex AI 和 Google Ads 中生成的图像将嵌入 C2PA 元数据,未来还将支持验证 Google 生态系统外的模型生成内容。
Google DeepMind 发布 Nano Banana Pro 图像生成模型,基于 Gemini 3 Pro 构建,支持多语言可读文本直接渲染,可结合 Google Search 实时信息生成信息图表。该模型支持 14 张图像融合,保持 5 个人物形象一致性,输出 4K 分辨率。现已集成至 Gemini 应用、Google Ads、Google AI Studio 等产品,所有生成内容均嵌入 SynthID 水印以确保透明度。
关联讨论 2 条Google DeepMind:Blog(RSS)Ethan Mollick:One Useful Thing(RSS)