研究团队提出 EditCrafter 方法,实现无需微调的高分辨率图像编辑,突破传统扩散模型仅支持 512×512 或 1024×1024 训练分辨率的限制。该方法通过分块反演技术保留原始图像特征,并引入 ND-CFG++(噪声阻尼流形约束无分类器引导)机制,有效解决分块编辑导致的结构失真与重复问题,可在任意长宽比的高分辨率图像上直接生成高质量编辑结果。
针对现有SVG生成方法采用字节级分词破坏几何结构、导致坐标幻觉和序列冗余的问题,本文提出HiVG层次化分词框架。该方法将SVG字符串分解为结构化原子token,并压缩命令-参数组为几何约束的段token,同时引入Hierarchical Mean-Noise初始化策略注入数值先验,结合课程训练逐步提升程序复杂度。实验表明,HiVG在文本到SVG和图像到SVG任务中显著提升了生成保真度、空间一致性和序列效率。
推文提供生成手绘风教育信息图的两种AI方案。方案一基于baoyu-skills的baoyu-article-illustrator或baoyu-cover-image skill,调用hand-drawn-edu风格直接生成。方案二为详细提示词模板,定义奶油纸质感背景、马卡龙配色、手绘抖动线条等视觉规范,强调图形优先原则,支持自动适配流程、对比、循环等布局结构,并规范了文字层次与装饰细节。
MoZoo是一个生成式动力学求解器,能绕过传统精炼流程,从粗糙网格直接合成高保真的动物视频。其核心是角色感知旋转位置编码RAR-RoPE,通过基于角色的索引重映射同步运动对齐;同时引入非对称解耦注意力机制,强制单向信息流以防止特征干扰并提升效率。为解决训练数据稀缺问题,提出了MoZoo-Data合成到真实的流水线,并构建了包含120对网格-视频的评测基准MoZooBench。实验表明,MoZoo在多样动物骨架与布局上实现了高保真的毛发模拟,并保持了优异的时间与结构一致性。
阿里发布 WAN-2.7-Image 图像生成与修图大模型,重点优化了人物生成美观度与文本渲染精准度。该模型支持文生图及图像编辑功能,博主对其文本到图像生成能力进行了初步测试。作为阿里万相系列最新版本,WAN-2.7-Image 在视觉质量和语义理解方面展现出改进,为创作者提供更精准的图像生成工具。
昆仑万维在2026中关村论坛上展示两大全球顶尖模型 SkyReels V4 和 Mureka V9,获得多方高度赞誉。
Realiz3D是一个轻量级扩散模型训练框架,旨在解决3D生成中因使用合成数据微调预训练模型而导致的控制信号与合成外观不当关联问题,从而避免真实性下降。该方法通过引入协变量和小型残差适配器,将视觉领域(真实或合成)与其他控制信号(如几何、材质和视角)解耦,使模型在应用精确控制时仍能保持照片级真实感。基于对扩散模型不同层和去噪步骤作用的洞察,框架提出了新的训练与推理策略,增强了控制向真实领域的可迁移性。实验表明,在文本到多视图生成和3D输入纹理化等任务中,Realiz3D能同时保证3D一致性与高真实感,有效克服了领域差距带来的挑战。
V8 Alpha Relax 模式已向 Standard/Pro/Mega 订阅者开放,支持所有生成命令,但不可同时使用 --hd 与 --q 4 参数。官方提示该模式可能存在资源耗尽风险。
I asked Nano Banana to draw me 4 important years in history with their inventions. Interesting output Prompt: 2x2 grid, ...
Our new image generator MAI-Image-2 is out! Available now on MAI Playground for everything from lifelike realism to deta...
Midjourney 开放 V8 模型 Alpha 版本测试,用户可访问 alpha.midjourney.com 体验早期版本并提交反馈。V8 在提示词遵循能力上较此前版本有明显提升。
3月13日,Vidu 联合浦光星奕举办「AI新视界 漫剧新潮流——首届AIGC内容产业大会」,邀请AI技术、影视制作、短剧平台和内容机构等领域嘉宾,共同探讨下一代内容产业机会。议题覆盖AIGC内容生产、AI短剧/AI漫剧、视频大模型应用及内容产业新商业模式。
小红书 Super Intelligence 团队在 FireRed-Image-Edit 1.0 发布不到一个月后推出 v1.1 版本,主要提升包括 OOTD(穿搭)元素融合、人像一致性大幅改进以及更强的社区友好特性。
Hugging Face发布Modular Diffusers库,将扩散模型流程解构为独立模块(如调度器、VAE、UNet)。用户可像组合积木一样自由替换和组合组件,显著提升了模型实验的灵活性与可复现性,简化了自定义流程的创建。该库已开源,旨在支持快速创新。
Photoroom团队在Hugging Face上发布博客,宣布成功在24小时内完成一个文本到图像模型的训练。这一突破将此类模型的典型训练周期从数周大幅缩短至仅一天。实现的关键在于采用了名为PRX的高效训练方法,该方法优化了计算资源分配与数据处理流程。此举显著降低了模型训练的时间与成本门槛,为快速迭代和部署高质量的图像生成AI模型提供了新的可能性。
Kimi 推出 Kimi Doodle,纪念 Pink Floyd 经典专辑《月之暗面》发行 53 周年。用户可访问 kimi.com 或使用最新版 Kimi App 体验。配乐由 AI 生成,非专辑原音。
Rooms 功能今日正式从网站移除。这一实验性尝试因试图同时解决过多问题而表现不佳,暴露了当前基础设施的不足,但为团队提供了关于社区需求的宝贵认知。
V8 图像评分活动进入第三轮。本轮重点从识别"差的"样本转向学习"好的"标准,与上一轮形成对比,邀请用户前往投票链接参与。
Midjourney 开启 V8 第二轮评级活动,重点针对生成文本的提示词测试模型能力。用户可访问 midjourney.com/rank-v8 参与图片评级,活动持续1天。
Midjourney 本周将再举办两场 V8 Rating Party,随后正式发布 V8 模型。用户可前往 midjourney.com/rank-v8 参与 Round 1 图片评分,当前反馈已直接用于模型优化。
Midjourney V8 进入最后优化阶段,团队邀请用户访问 midjourney.com/rank-v8 参与图片评分。通过两两对比选择更美图片,帮助改进模型质量。
小红书基础模型 FireRed-Image-Edit 在 GitHub 上正式亮相,该模型专注于图像编辑任务,并达到新的最佳性能(新 SOTA)。
百灵全模态大模型Ming-flash-omni-2.0正式发布。该模型基于MoE架构,在视觉、语音、图像等全模态能力上实现代际跃迁,其核心突破在于一个统一模型同时具备了强大的通用泛化能力和特定模态的专家级表现。具体特色包括:视觉百科能精准识别万物并关联知识;语音生成可控制情绪、方言,提供百种音色,并能统一生成语音、音效与背景音乐;图像创作可实现氛围重构、场景合成与智能擦除。技术层面通过亿级数据细粒度感知、知识对齐及超低帧率音频表征等创新实现性能飞跃。模型已在多个平台开源。
关联讨论 1 条蚂蚁百灵:Developer Blog(网页)Qwen-Image-2.0 发布,主打专业信息图表与照片级真实感图像生成。Qwen Studio 平台同步集成聊天、多模态理解、文档处理、网页搜索及工具调用等综合能力。