全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「图像生成」清除

6月1日周一

17:10Artificial Intelligence News（RSS）48AI在电子游戏开发中：人工智能如何重塑这个行业

15:04IT之家（RSS）46英伟达发布 DLSS 4.5 光线重建技术：支持全部 RTX 显卡，8 月推出

12:32Alibaba Cloud44通义千问与万相为无声梦想发声

11:04PixVerse43PixVerse C1文本生成VFX：极致控制与电影级画质

10:50Orange AI45用AI工具两周打造定制化游戏

08:28Hacker News 热门（buzzing.cc 中文翻译）64Meta 推出 Instagram、Facebook 和 WhatsApp 的订阅服务

04:55Artificial Analysis74HiDream发布O1-Image系列文生图模型

02:16Hacker News 热门（buzzing.cc 中文翻译）72精选本地设备 AI 图像生成模型 1-Bit Bonsai Image 4B 发布

5月31日周日

15:47PixVerse59PixVerse现已登陆OpenClaw平台

14:38HuggingFace Daily Papers（社区热门论文）55解耦残差去噪扩散模型实现统一高效图像到图像翻译

13:24IT之家（RSS）50Steam 页面确认：《使命召唤：现代战争 4》存在生成式 AI 制作的内容

09:45小互73AI配图Skill获GitHub周榜第二

06:53🚨 AI News | TestingCatalog62微软将发布新图像与语音模型

04:53🚨 AI News | TestingCatalog16三款AI图像模型生成效果对比

01:43Simon Willison 博客67Markdown SVG 渲染器

5月30日周六

21:16The Verge：AI（RSS）73精选AI 骗子正在创建虚假的黑人形象来销售 Shein 劣质商品

19:45Google AI Developers71精选Nano Banana Pro与Nano Banana 2正式发布

17:34AYi43以术入道，用远程工具连接你的AI实习生

16:16Chubby♨️56AI生成95分钟动作片戛纳首映

12:11向阳乔木52Codex自动生成Suno歌曲MV与歌词字幕

08:00HuggingFace Daily Papers（社区热门论文）44SDR：基于集合距离的胸部X光报告生成奖励方法

06:42ginobefun78精选这个 skill 看着不错，可将文字、URL 或文章直接生成公众号首图、小红书图文卡、教程步骤卡等视觉物料，支持 28 种布局和 10 种主题。

04:55Luma61Luma Agents 自动生成宣传图，输入内容即可

04:10Runway72精选Runway API持续扩展模型与端点支持

01:14Fei-Fei Li83精选GPIC：大规模视觉生成基准数据集发布

00:45PixVerse19PixVerse可将任意瞬间转化为酷炫变换

5月29日周五

22:40Runway52Runway助力个人创作者一个月内完成《The Rogue》

18:15The Verge：AI（RSS）52Adobe的对话式AI智能体是一个平庸的设计实习生

16:46公众号：京东JoyAI43JoyInside上新：小龙AI魔法益智打印机开启预售

15:39SenseTime28AI视频工具重塑内容创作格局

14:34Berryxia.AI54用户实测：1美元解锁的海报生成智能体效果如何

14:30HuggingFace Daily Papers（社区热门论文）74精选彩色噪声扩散采样

11:29HuggingFace Daily Papers（社区热门论文）67GenClaw：代码驱动的智能体图像生成

08:00HuggingFace Daily Papers（社区热门论文）66PaintBench：精确视觉编辑的确定性评估

08:00HuggingFace Daily Papers（社区热门论文）52扩散模型中通过分数控制减少幻觉

08:00HuggingFace Daily Papers（社区热门论文）42αDepth：单次软边界分解实现立体转换

08:00HuggingFace Daily Papers（社区热门论文）56RayDer：基于真实世界视频的可扩展自监督新视角合成

08:00HuggingFace Daily Papers（社区热门论文）56Function2Scene：基于功能描述的3D室内布局生成

08:00HuggingFace Daily Papers（社区热门论文）62GGT-100K：面向通用真实世界图像复原的生成式基准真值

07:21IT之家（RSS）58WWDC26 预热：苹果下周将展示 14 篇 AI 论文，关联 iOS 27 版图乐园等

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月1日

17:10

Artificial Intelligence News（RSS）

48

AI在电子游戏开发中：人工智能如何重塑这个行业

根据一项Google Cloud调查，90%的开发者已在日常工作中整合AI技术。仅在2025年，Steam平台上就有7,818款游戏披露了AI的使用，相比前一年激增681%。AI在游戏开发中已从边缘实验转变为深度整合，正在全面重构从概念设计到产品发布的整个开发流程。

图像生成现象/趋势

15:04

IT之家（RSS）

46

英伟达发布 DLSS 4.5 光线重建技术：支持全部 RTX 显卡，8 月推出

英伟达发布 DLSS 4.5 光线重建技术，将于今年 8 月正式推出，适用于所有 GeForce RTX GPU，目前已有 27 款游戏支持。该技术通过神经渲染取代传统手工降噪器，集成降噪与超分辨率功能以提升光线追踪画质。新模型计算能力提升 35%，处理参数数量增加 20%，具备更强的空间感知能力和像素采样数据利用效率，并搭配专属开发者遮罩工具以优化画面质量。

产品更新图像生成

12:32

Alibaba Cloud@alibaba_cloud

44

绽放的无声梦想：用AI守护日常奇迹。儿童节快乐！🎉 作为首个面向残疾儿童的AI原生项目，通义千问与万相将非语言儿童的无声涂鸦转化为动画，确保无声的梦想被听见。观看👇

图像生成行业动态

11:04

PixVerse@PixVerse_

43

PixVerse C1在文本生成视觉特效（text-to-VFX）方面展示了强大的能力，提供了前所未有的控制力和电影级画质。用户通过一个复杂的提示词（涉及火山喷发、风暴、镜头运动和爆炸效果）生成了专业级VFX片段，其镜头动态、粒子效果和光照被视为真实的专业VFX制作水平。该模型被认为在控制力和质量上达到了一个全新的层次。

Pierrick Chevallier | IA: It's actually crazy how few people are talking about how powerful Pixverse C1 is for text-to-VFX.We're on a completely d...

图像生成教程/实践视频

10:50

Orange AI@oran_ge

45

一位开发者使用AI工作流平台ColaOS，在两周时间内为女儿制作了一款哈利波特主题的专属游戏。整个流程涵盖了故事生成、剧本创作、分镜设计、人物与场景图像生成、转场视频、音效及鼠标特效等完整环节。游戏设计了5种结局，包含收集物品解锁成就及开启下一故事彩蛋的机制。

Percival: 女儿想要哈利波特的魔法世界,我用 ColaOS 在两周内给她造了一个专属游戏从故事→剧本→分镜→人物/场景剧照→转场视频→音效→鼠标特效,一共设计了 5 种结局。收集物品解锁成就,最终打开下一个故事的彩蛋。但看到她认真玩进去的那一刻--...

其他图像生成多模态视频

08:28

Hacker News 热门（buzzing.cc 中文翻译）

64

Meta 推出 Instagram、Facebook 和 WhatsApp 的订阅服务

Meta 推出针对 Instagram、Facebook 和 WhatsApp 的付费订阅服务，并表示未来将扩展更多订阅产品，其中包含 AI 相关计划。

Meta 图像生成多模态行业动态

04:55

Artificial Analysis@ArtificialAnlys

74

HiDream发布O1-Image系列文生图模型

HiDream发布O1-Image系列文生图模型，包含8B参数的HiDream-O1-Image、其蒸馏版本HiDream-O1-Image-Dev，以及基于Dev微调并集成提示增强管线的HiDream-O1-Image-Dev-2604。在Artificial Analysis Text to Image Arena榜单上，Dev-2604版本在所有开源权重模型中排名第一，生成质量接近Seedream 4.0和FLUX.2 [max]等闭源模型。在图像编辑任务中，HiDream-O1-Image是排名第二高的开源模型，仅次于腾讯的HunyuanImage 3.0 Instruct。所有模型的权重及完整推理管线均以MIT许可证开源。HiDream-O1-Image与HiDream-O1-Image-Dev也通过Fal等第三方API提供，价格分别为$10/1k images和$5/1k images。

Hugging Face 图像生成开源生态模型发布

02:16

Hacker News 热门（buzzing.cc 中文翻译）

精选72

本地设备 AI 图像生成模型 1-Bit Bonsai Image 4B 发布

1-Bit Bonsai Image 4B 是一款新的 AI 图像生成模型，其主要特点是面向本地设备进行优化，可以在用户的本地硬件上运行。这是一款专注于端侧部署的图像生成解决方案。

图像生成开源/仓库模型发布端侧

推荐理由：端侧图像生成终于进入可用阶段，把 4B 模型压到 iPhone 能跑而且性能保留 95%，做本地 AI 应用的产品人应该认真看一眼。

5月31日

15:47

PixVerse@PixVerse_

59

PixVerse现已在🦞OpenClaw中可用。可直接在OpenClaw内使用文本生成视频和图像生成功能。特别感谢@vincent_koc和@openclaw团队的合作。 https://docs.openclaw.ai/providers/pixverse

产品更新图像生成视频

14:38

HuggingFace Daily Papers（社区热门论文）

55

解耦残差去噪扩散模型实现统一高效图像到图像翻译

DRDD 模型将扩散过程解耦为两个独立阶段：先进行随机噪声扩散以实现领域协调和流形提升，再通过确定性残差扩散在固定噪声域内学习核心语义映射。该设计保留了扩散过程对特征分布的隐式对齐能力，显著简化了跨任务统一映射的学习。噪声扩散阶段仅在未配对的目标域图像上训练，极大提升了数据效率。理论与实验表明，DRDD 与主流扩散模型兼容，即使在配对数据有限时也能实现稳健的统一翻译。代码已在 GitHub 开源。

图像生成开源/仓库数据/训练论文/研究

13:24

IT之家（RSS）

50

Steam 页面确认：《使命召唤：现代战争 4》存在生成式 AI 制作的内容

Steam商店页面确认，《使命召唤：现代战争4》将包含生成式AI制作的内容，该声明与前作《黑色行动7》一致。此前《黑色行动7》因大量AI美术素材备受玩家批评，因此本次再度使用AI引发部分粉丝失望。不过，游戏整体获得正面评价，开发商Infinity Ward优化了人物移动和多人地图设计。游戏还将登陆任天堂Switch 2平台。

图像生成行业动态

09:45

小互@xiaohu

73

用户开发的"中文小黑怪诞"正文配图生成 Skill，在 GitHub 周榜上位列第二。该项目原本是为自己 Notion 文档生成配图而开发，特点是 16：9 比例、白底手绘风格，并带少量红、橙、蓝三色批注。用户发现该项目意外上榜后，表达了对排名的惊喜与再接再厉的心情。

Ian (伊恩): 我的天!我的 Skill 在 GitHub 本周排第二啦! 刚刷到藏师傅项目冲到第一,我点进去一看,笑死,我这个也在榜上,排第二就是这个中文小黑怪诞正文配图生成 Skill: http://github.com/helloianneo/i...

GitHub 图像生成开源/仓库

06:53

🚨 AI News | TestingCatalog@testingcatalog

62

BUILD 🔥：微软正为 6 月 2 日的发布会准备新的图像和语音模型。 > MAI Voice 2，一个支持 15 种新闻语言和更广泛情感光谱的多语言模型（请在文章中查看语音样本） > MAI Transcribe 1.5，一个用于语音转文本用例的新模型。 > MAI Image 2.5，已于上周公布，现已在 LM Arena 上以预览版形式提供。与 MAI Image 2 相比，它支持文件上传，并可用于图像编辑。

Microsoft 图像生成多模态模型发布

04:53

🚨 AI News | TestingCatalog@testingcatalog

16

你最喜欢哪张图片？其中一张来自未发布的模型，一张来自 Nano Banana Pro，一张来自 GPT Image 2。提示词如下。模型将于今天晚些时候揭晓。

OpenAI 图像生成行业动态

01:43

Simon Willison 博客

67

Markdown SVG 渲染器

这是一款定制化的 Markdown 渲染工具，可对围栏代码中的 SVG 块进行特殊处理，既能渲染图像，也提供切换到代码视图的标签页。用户可直接粘贴 Markdown 内容，或提供一个 CORS 支持的 Markdown 文件或 Gist 的 URL。示例中加载了一个关于 Claude Opus 4.8 的 LLM 相关日志的 Markdown 文件。

图像生成开源/仓库

5月30日

21:16

The Verge：AI（RSS）

精选73

AI 骗子正在创建虚假的黑人形象来销售 Shein 劣质商品

有卖家利用 AI 生成虚假的黑人形象，在 TikTok、Facebook 和 Instagram 上扮演手工制品创作者进行销售。例如一个名为 Aliyah 的 AI 生成形象，以带泪诉说的方式售卖所谓手工皮带扣，但该形象及其产品均为虚构。此类 AI 虚拟网红被用于推广通过代发货模式销售的批量生产品。

图像生成多模态现象/趋势

推荐理由：AI生成的虚拟黑人卖家在TikTok上哭着卖假货，The Verge这篇调查把AI黑产里最脏的那面扒给你看，做社交电商的尤其该点开读。

19:45

Google AI Developers@googleaidevs

精选71

ICYMI：Nano Banana Pro 【gemini-3-pro-image】和 Nano Banana 2 【gemini-3.1-flash-image】现已正式发布，可通过 Gemini API 投入生产使用。查看这些优秀的社区示例，了解两个模型的实际能力 🧵

Google 图像生成模型发布

推荐理由：Gemini 图像模型 GA 了，生成式视觉正式进入 Google 时间，做设计工具和内容生成的开发者可以直接接入测试，看看能不能成为下一个 Midjourney。

17:34

AYi@AYi_AInotes

43

以术入道，用远程工具连接你的AI实习生

推文通过《黑袍纠察队》AI视频案例，点明AI意义在于呈现“希望发生的”剧情。核心讨论了AI工具的两条发展路径：以Claude Code为代表的“AI智能体型”（自主运行）与以Cursor为代表的“实习生型”（需人类监督判断）。作者认为后者是“以术入道”培养判断力的过程，但受限于必须人在场。为此推荐使用免费的UU远程配合Cursor，实现手机远程控制电脑，消除物理距离限制，从而随时随地磨练使用者自身，成为优秀的提问者。

AYi: 今天,把一件关于 AI 很底层的事,彻底想透了。使用 AI 的最佳方式是以道御术,但前提是你得先以术入道。就像黄仁勋说的--真正会用 AI 的人,都是极高认知的提问者,带着自己的认知去提问,让 AI 帮你叩开未知的边界,而不是让它替你思...

图像生成现象/趋势视频

16:16

Chubby♨️@kimmonismus

56

一部95分钟的AI生成动作片刚刚在戛纳电影市场放映。它仅用两周时间、约50万美元预算制作完成，大部分预算用于算力，证明AI电影制作正从演示片段转向完整长片。这很特别。他们设法制作了电影长度的作品（通常生成的片段非常短），同时保持了极低的预算。

图像生成现象/趋势视频

12:11

向阳乔木@vista8

52

Codex 制作的 Suno MTV，任意一首Suno歌曲自动转成带LRC歌词同步显示的 MV。图片由Codex根据歌词内容自动生成，还挺符合意境。

图像生成多模态教程/实践

08:00

HuggingFace Daily Papers（社区热门论文）

44

SDR：基于集合距离的胸部X光报告生成奖励方法

针对标准精确匹配奖励不适用胸部X光报告生成的问题，提出SDR方法。将报告分割为句子，用冻结的句子Transformer嵌入为无序集合，以生成与参考嵌入间的集合到集合距离作为连续、置换不变的奖励。在Qwen3-VL-2B/4B和Gemma3-4B上通过GRPO后训练，BERTScore、RadGraph F1和CheXbert F1分别相对提升6.80%、7.82%和4.45%。同一距离用于测试时best-of-N选择，在Mistral-Small、Gemini-2.5 Flash-Lite和GPT-4o-mini上BERTScore平均相对提升16.4%。作为流式信号，可在生成中修剪低分候选，减少超过50%的生成token且保持质量。代码已公开。

arXiv 图像生成数据/训练论文/研究

06:42

ginobefun@hongming731

精选78

claude-design-card 是一款专为中文内容创作者设计的 Skill。它能将文字、URL 或文章直接转化为可发布的视觉卡片，如公众号首图、小红书图文卡、教程步骤卡等，支持 28 种布局与 10 种主题。其核心价值在于自动化了"写完文章"后最繁琐的流程：自动提炼重点、选择版式、生成 HTML 并截图成 PNG，替代了以往手动使用 Figma 或 Canva 等工具的步骤。该工具开源，适合经常撰写相关内容的创作者尝试。

撸毛吃猪脚饭: 昨天那个 md2wechat-skill 很多人收藏今天再分享一个很适合中文创作者的 Skill:claude-design-card。它可以把一段文字、一个 URL、一篇文章,直接生成能发出去的视觉卡片,比如公众号首图、小红书图文卡、...

GitHub 图像生成开源/仓库

推荐理由：这个 Skill 把内容创作者最烦的「写文→排卡片→出图」流程直接打通了，28 种布局一键生成，做公众号和小红书的可以立刻收藏，关键不是好看是真省时间。

04:55

Luma@LumaLabsAI

61

博客文章完成了思考。现在让宣传来发挥作用。输入内容。定义钩子。Luma Agents 从那里构建每一张宣传图。投入使用 → http://lumalabs.ai/app

产品更新图像生成视频

04:10

Runway@runwayml

精选72

我们持续为 Runway API 添加新模型和端点，以便您能将最佳生成能力直接集成到应用、产品和平台中。通过 Runway API，您可以在一个地方获得所需的所有模型，包括 Seedance 2.0、GPT Image 2、HappyHorse 1.0、Nano Banana Pro、Magnific Precision Upscaler V2 等更多内容。请通过下方链接开始使用。

产品更新图像生成

推荐理由：Runway API 这次集中上新，Seedance 2.0 加入虽然方便了开发者，但没有模型能力的质变，更像是生态补全。

01:14

Fei-Fei Li@drfeifei

精选83

我对这个适用于大规模生成模型新时代的视觉生成基准数据集感到非常兴奋！🤩

Keshigeyan Chandrasegaran: 1/ Introducing GPIC: a Giant Permissive Image Corpus and benchmark for visual generation! 🚀100M VLM-captioned image-tex...

Hugging Face 图像生成数据/训练论文/研究

推荐理由：李飞飞都来站台，这个数据集不简单。完全允许商业用途是关键，对做视觉生成的团队来说，终于有了一个不用再为版权头疼的超级训练库。

00:45

PixVerse@PixVerse_

19

PixVerse可以将任何瞬间变成酷炫的变换 #pixverse #viral #fyp

产品更新图像生成视频

5月29日

22:40

Runway@runwayml

52

深入幕后，了解《The Rogue》如何由一个人在一个月内使用 Runway 制作完成。《The Rogue》是 Project Luxo 的一部分：这是一个探索 AI 生成视频如何跨越恐怖谷的新项目。

图像生成教程/实践视频

18:15

The Verge：AI（RSS）

52

Adobe的对话式AI智能体是一个平庸的设计实习生

Adobe正在beta测试的Firefly AI Assistant是一个对话式AI智能体，定位为设计工作流的中间人，旨在帮助用户处理繁琐任务同时保留创作控制权。然而，初步体验表明其功能表现平庸，未能令人印象深刻。

智能体图像生成评测/基准

16:46

公众号：京东JoyAI

43

JoyInside上新：小龙AI魔法益智打印机开启预售

京东JoyInside与ZORICAM联合推出小龙AI魔法益智打印机，集故事机、聊天机器人、打印机、学习机于一身。产品搭载京东自研JoyAI大模型，首创面向儿童的“情景式对话+打印”交互：唤醒“小龙”后通过语音指令即可生成画作并打印成专属贴纸，还能在对话中理解语境主动提出打印建议。硬件支持WiFi连接，续航超48小时。

产品更新图像生成语音

15:39

SenseTime@SenseTime_AI

28

AI视频工具正在重塑内容行业。商汤AIGC副总裁、#Seko总经理王梓彬表示，业余创作者仅需一到两周就能制作AI短片--这正引发一波新的创作浪潮。听听他的分享，并亲自体验我们的AI视频创作智能体Seko。🎬

图像生成行业动态视频

14:34

Berryxia.AI@berryxia

54

一位用户分享了使用Bloome平台上的海报设计智能体生成KFC轻食海报的体验，称其过程"非常丝滑"，且对提示词要求不高。该智能体由@berryxia开发，源于其此前分享的高效提示词，旨在简化海报生成流程。该智能体目前需支付1美元解锁，据称在限时期间（约一周）可生成约100张图片。

Berryxia.AI: 兄弟们,今天我不装了。摊牌了~ 之前一直有朋友说你这套提示词生成的海报这么好看,而且非常丝滑。捣鼓了一套万能产品、人文、科技、展会等等都可以快速出图的提示词。但是,很多人还是用不来觉得麻烦。于是我,我把它在Bloome 做了个海报...

产品更新图像生成

14:30

HuggingFace Daily Papers（社区热门论文）

精选74

彩色噪声扩散采样

扩散模型的生成轨迹具有频谱偏差，早期处理低频全局结构，后期处理高频细节。传统随机微分方程求解器在整个过程中均匀注入白噪声，能量分配效率低。本研究提出彩色噪声采样（CNS），一种免训练的即插即用采样器。它通过动态、随时间和频率调整的噪声调度，更高效地将能量分配给尚未解析的频段。在SiT、JiT、FLUX等架构上的实验表明，CNS作为推理时的替换采样器显著提升了生成质量：在ImageNet-256上，无引导FID在SiT-XL/2上从8.26降至6.27，在JiT-B/16上从32.39降至26.69，在JiT-H/16上从11.88降至8.31，并且在使用无分类器引导时带来一致改进。

图像生成论文/研究

推荐理由：扩散模型采样时的白噪声注入一直很粗糙，这篇论文用动态调制的有色噪声把能量怼到未解析的频段，在多个模型上 FID 直接骨折，而且完全训练无关，拿来就能用。

11:29

HuggingFace Daily Papers（社区热门论文）

67

GenClaw：代码驱动的智能体图像生成

GenClaw提出一种代码驱动的智能体图像生成范式，让AI智能体像人类艺术家一样分步创作：先通过搜索与推理构建概念，再利用SVG、HTML、Three.js等代码渲染可执行的视觉草图，最后调用图像生成模型补充纹理、材质与真实感。该范式将代码作为连接语言推理与像素合成的可控中间画布，将图像生成从黑盒过程转变为类似人类创作的分步流程，迈向更高可控性与可解释性的视觉生成系统。

智能体 arXiv 图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

66

PaintBench：精确视觉编辑的确定性评估

PaintBench是一个动态可扩展的基准，涵盖几何变换、结构操作、颜色变化、符号推理四类共20种精确视觉编辑操作。它通过程序化生成与可配置复杂度实现无限、抗污染的评估套件，并采用确定性像素级评估（mIoU）。在11个图像编辑模型上，当前最高性能的行业领先模型仅取得17.1% mIoU。任务分解显示几何变换、大部分结构操作和基于公式的颜色变化尤为困难，且模型存在针对性专长。场景变化（如物体数量、背景复杂度、配色方案、编辑区域大小）会导致性能下降。通过另一个确定性评估基准TinyGrafixBench验证，PaintBench得分与应用任务表现存在强线性相关（R²=0.91，p<0.001）。

图像生成多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

52

扩散模型中通过分数控制减少幻觉

扩散模型存在生成超出真实数据分布的幻觉样本问题。研究者通过密度视角首次实证分数平滑是根本原因，并将幻觉概率与分数函数的Lipschitz常数建立形式化联系。提出方差引导分数调制（VSM）策略，通过控制分数Jacobian降低平滑度，更逼近真实分数函数，在合成与真实数据集上减少幻觉约25%，同时保持高保真度与多样性。论文还推出两个具有极端语义变化的基准数据集用于系统性评估，代码和数据已开源。

arXiv 图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

42

αDepth：单次软边界分解实现立体转换

αDepth提出一种分层表示方法，将软边界（如毛发、散焦模糊）分解为分层颜色和深度值，以解决立体转换中前景与背景模糊混合导致的深度对应歧义。针对多目标复杂场景，设计圆形Alpha表示（CAR），从全局目标提取转向局部边界分解，无需人工干预即可实现场景级推理。实验表明，αDepth在立体转换中达到最先进水平，消除了软边界处的背景渗色和结构扭曲。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

RayDer：基于真实世界视频的可扩展自监督新视角合成

RayDer是一个统一的Transformer前馈模型，将相机估计、场景重建和渲染整合到单一主干网络中。它通过一个被视为干扰因子的最小动态状态来吸收时变内容，从而能够在无约束的真实世界视频上进行稳定训练。该模型以静态场景新视角合成作为目标任务，仅将动态内容用作可扩展的监督信号。实验表明，RayDer在数据量和计算量上展现出清晰的幂律扩展规律，并在大量基准测试中取得了与有监督最先进方法相当的零样本开集性能。

图像生成视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

Function2Scene：基于功能描述的3D室内布局生成

Function2Scene是一个从自然语言功能描述（如用户需求和活动）生成3D室内布局的框架。与传统基于物品提示的方法不同，它将设计问题重构为空间功能支持。系统解析用户画像和活动，并基于包含空间、人体工学等17项标准的功能约束分类体系来指导布局生成。其核心是采用检查-修复循环进行迭代优化，结合几何测量、大语言模型的上下文推理与视觉语言模型的视觉评估。实验在30个专业设计案例上表明，其布局在功能需求满足度上显著优于近期基线，在配对比较中偏好率达94.3%。

图像生成推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

62

GGT-100K：面向通用真实世界图像复原的生成式基准真值

针对真实世界图像复原缺乏高质量配对数据的瓶颈，本研究提出“生成式基准真值”方法，利用生成式多模态基础模型从真实低质量图像合成高质量目标。通过对9个最先进模型的系统评估，发现Nano-Banana-2结合基于VLM的自适应提示词，在合成感知逼真且内容忠实的目标上能力最强。基于此，研究构建了GGT-100K数据集，包含103,707个训练对和500个测试对，覆盖多样场景与复杂退化。实验证明，该数据集能持续提升多种图像复原模型的真实世界泛化能力，尤其对微调生成式复原模型效果显著。

图像生成论文/研究

07:21

IT之家（RSS）

58

WWDC26 预热：苹果下周将展示 14 篇 AI 论文，关联 iOS 27 版图乐园等

图像生成多模态行业动态

1…10 111213 14…30