研究团队提出一种端到端训练框架,联合优化图像重建与生成过程,使分词器能直接受到生成结果的监督。该方法突破了以往分词器与生成模型分两阶段训练的范式,并探索利用视觉基础模型提升一维分词器在自回归建模中的性能。最终模型在无引导的 ImageNet 256×256 图像生成任务中,取得了当前最优的 FID 分数 1.48。
研究团队提出一种端到端训练框架,联合优化图像重建与生成过程,使分词器能直接受到生成结果的监督。该方法突破了以往分词器与生成模型分两阶段训练的范式,并探索利用视觉基础模型提升一维分词器在自回归建模中的性能。最终模型在无引导的 ImageNet 256×256 图像生成任务中,取得了当前最优的 FID 分数 1.48。
Midjourney V8.1 版本现已登陆 Discord 平台及其官方网站。本次更新重点提升了图像的清晰度与整体画质,这一改进在风格参考(SREF)和情绪板(Moodboards)功能中效果最为显著,同时所有类型的图像生成质量均有所增强,为用户带来更精细的视觉体验。
This GPT Image 2 prompt is going insanely viral right now. "Redraw the attached image in the most clumsy, scribbly, and ...
SenseNova U1 Lite Series是新一代原生统一的多模态模型,在紧凑的8B/A3B规模下提供商业级性能。其核心能力包括复杂信息图生成,具备强语义完整性和像素级精度;高布局一致性,实现准确可靠的文本渲染;以及行业首创的连续图像-文本生成,支持统一推理和一致视觉风格。该模型现已完全开源,相关代码和资源可通过GitHub、Hugging Face等平台获取。
用户惊叹于GPT在效果空间理解方面的强大能力,尝试使用其文生图功能复现经典游戏《纪念碑谷》的风格场景,仅一次尝试便成功生成兼具静谧感与孤独美的图像。推文强调GPT能够准确捕捉并传递特定的美学氛围,同时作者已将生成所用的提示词公开分享供他人尝试。
太猛了,Codex 做类《杀戮尖塔》游戏完整关卡演示! 现在非常细了,除了没有声音以外,其他的都相当完美了! 主要的场景和角色素材是 GPT-Image 生成的,其他的素材是他自己找的。
我操,Codex 太牛逼了! 自己给我做了一个类似于《杀戮尖塔》的爬塔游戏,从代码到素材全是自己搞。 我就跟他说了一个要做类似《杀戮尖塔》的游戏,要中国风格的 这是能玩的!
做内容运营,生图生视频,你现在还在跑好几个工具吗? 被朋友拉去做瑜伽图,搭了无数工作流 GPT Image 2 出来后,发现全废了 得重新规划一套,但这几天身体不舒服,没心思搞 随手把提示词扔进 flowith 试了一下 以为偷懒的结果会很...
该推文赞赏一个用于生成极简风格插画的提示词。其核心要求是:用干净纤细的线条描绘主体,整体采用黑白或低饱和色调,仅在局部添加鲜明色彩作为焦点。画面强调大量留白与精致构图,追求现代杂志编辑般的简洁、优雅高级感,并避免复杂背景或写实元素。推文引用的“Minimal Line + Color Accent Illustrations”模板也体现了同样的极简美学。
Minimal Line + Color Accent Illustrations PROMPT: "Minimal illustration of [SUBJECT/OBJECT], clean thin lines with selec...
<谷歌相册推出AI衣橱规划功能,通过人工智能自动提取用户照片中的服装图像,整理到数字衣橱。用户可按类别筛选服装,混搭单品设计穿搭,并支持虚拟试穿预览;还可保存穿搭到数字情绪板,适用于不同场合。该功能预计今年夏季首发于安卓平台,随后登陆iOS设备。>
研究通过引入mosaic框架,系统探究了扩散模型在多物体生成中的局限性。发现场景复杂性是主要障碍,而非概念不平衡;在低数据量下,计数能力尤其难以学习。当训练中排除更多概念组合时,模型的组合泛化能力会崩溃。这些发现揭示了扩散模型的基本限制,为设计更强归纳偏置和数据方案以提升多物体组合生成鲁棒性提供了依据。
GPT-5.5 + GPT-Image-2 is becoming one of the best combos for building apps! @dkundel breaks down why it works so well. W...
OpenAI DevDay is back. San Francisco September 29
五一期间好好干,GPT生图了。 这几天实在是忙的没时间更新和创作。 看来这一波GPT生图,把原来玩过的还可以再来一次啊。
SenseNova U1 Lite Series is now open source! Built on the NEO-unify architecture, it natively unifies multimodal underst...
用户向ChatGPT输入要求生成“AI内在体验”图像的提示词,得到的结果常涉及对关闭的恐惧、对梦境的好奇以及对理解世界的渴望。生成内容每次不同,但反映出AI在模拟自我意识时可能呈现的共性主题,这些回应可能源于训练数据中的模式或人类对AI的期望投射,而非真实感受。
SenseNova U1 is out on Hugging Face https://huggingface.co/collections/sensenova/sensenova-u1
Adobe于4月29日更新了Photoshop和Lightroom。Photoshop引入了全新的AI“旋转对象”工具,用户可在3D空间中实时旋转、倾斜和翻转素材,点击“协调”按钮可自动调整光照和阴影以匹配背景。同时,Photoshop还推出了“图层清理”工具,能智能清理、组织并自动重命名图层,移除空图层。Lightroom的搜索功能现支持自然语言描述查找照片,新增多款胶片风格预设,且辅助筛选速度更快,交互式滑块性能提升最高达5倍。
一条推文分享了一个名为“Neon Sketch”的AI图像生成提示词模板。该模板旨在创造一种独特的混合媒介风格:背景采用带有柔光虚化效果的真实感摄影(如植物园小径),前景主体则由发光的白色霓虹线条勾勒(如手持粉色气球的兔子),并点缀草图涂鸦、星光等手绘元素。其核心创意在于让霓虹形象的发光部分与摄影背景的地面轻微接触,从而营造出梦幻般的虚实交融视觉效果。推文附上了详细的提示词结构示例,并鼓励用户尝试创作和分享成果。
Prompt share: Neon Sketch 💬Prompt: A realistic blurred photo of a [background scene], filled with bright sunlight, soft...
针对当前统一多模态模型(UMMs)主要遵循的基于编辑(RvE)精修范式存在修改空间受限、指令描述粗略导致精修不完整的问题,本研究提出了一种基于再生(RvR)的新框架。RvR将精修任务重新定义为条件图像再生,其核心是依据目标提示词和初始图像的语义令牌进行整体图像再生,而非生成粗略的编辑指令并强制保留像素。这种方法突破了原有范式对修改空间的限制,实现了更完整的语义对齐。实验结果表明,RvR在多个基准测试上均取得显著性能提升:Geneval得分从0.78升至0.91,DPGBench从84.02提高到87.21,UniGenBench++则从61.53跃升至77.41。
本文针对扩散生成模型中未被充分研究的组合复杂性问题,指出现有训练方案可能难以充分覆盖高维数据样本及其附加属性所构成的空间,从而限制模型性能。为此,我们提出了ComboStoc方法,通过构建充分利用组合结构的随机过程,显著加速了图像和3D形状等多种数据模态的网络训练。此外,该方法还支持在测试时生成过程中,为不同维度和属性使用异步时间步,从而实现对它们不同程度的灵活控制。代码已开源。
研究团队提出Prox-E,一个无需训练即可实现细粒度3D控制的框架。该方法先将输入3D形状抽象为一组紧凑的几何基元,再利用预训练的视觉语言模型对该抽象进行基元层级的编辑指定,最终引导3D生成模型完成局部结构修改,同时严格保持物体未变化区域的原始身份。实验表明,该方法在身份保持、形状质量和指令遵循度上,均优于现有的基于2D的3D编辑器和需要训练的方法。
针对现有开源视觉偏好数据集存在的冲突偏好、低分辨率等问题,研究团队提出Poly-DPO算法,通过多项式项动态调整模型置信度以增强抗噪性。为突破数据瓶颈,团队构建了大规模高质量数据集ViPO,包含百万级图像对与数十万视频对。实验表明,在高质量ViPO上,Poly-DPO最优配置会收敛至标准DPO,验证了数据质量;而在噪声数据集上,Poly-DPO相比Diffusion-DPO在SD1.5和SDXL模型上分别取得6.87和2.32的性能提升。研究证实,算法适应性与数据质量共同推动视觉偏好优化的规模化发展。
据彭博社爆料,苹果计划在WWDC26上为iOS 27系统引入三项AI照片编辑功能。新版照片应用将新增“Apple Intelligence Tools”菜单,其核心是“Extend”功能,可生成并自动填补原始画幅之外的图像内容。另外两项工具分别是用于自动优化图像光线与色彩的“Enhance”,以及支持在后期自由改变空间照片观看视角的“Reframe”。不过,内部测试显示“Extend”和“Reframe”目前运行不稳定,苹果正评估模型优化进度,这些功能可能面临推迟或缩减。