全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「图像生成」清除

5月20日周三

03:55IT之家（RSS）50谷歌推出 Google Pics 应用：AI 生图加局部精细编辑

02:55AYi80Google Gemini Omni重新定义视频生成

02:13OpenAI52OpenAI新增AI图像识别与溯源功能

01:48Google DeepMind：Blog（RSS）51使用 Project Genie 和 Street View 模拟真实世界场景

01:27Krea73精选Krea 2深度解析与使用指南

5月19日周二

20:26Hacker News 热门（buzzing.cc 中文翻译）33草莓的高斯模糊效果

17:00HuggingFace Daily Papers（社区热门论文）65SafeDiffusion-R1：面向安全扩散后训练的在线奖励引导

14:51IT之家（RSS）59Anthropic 提升 Claude Design 额度并更新 Claude Code 快速模型

14:28公众号：可灵AI（快手·视频）24可灵AI与候鸟300发起"候鸟记忆复活计划"

11:51HuggingFace Daily Papers（社区热门论文）59Lance：基于多任务协同的统一多模态建模

10:34向阳乔木74AI批量生成艺术风格，一键浏览380+大师作品

08:49🚨 AI News | TestingCatalog68谷歌I/O大会展示Gemini新模型能力

08:00HuggingFace Daily Papers（社区热门论文）57扩散对齐的拼接价值模型

08:00HuggingFace Daily Papers（社区热门论文）50PanoWorld：一个用于生成一致全屋全景的生成式空间世界模型

07:45IT之家（RSS）33苹果 iOS 27 前瞻：图乐园优化壁纸生成、写作工具增强语法检查

07:45IT之家（RSS）68小米斩获 CVPR 2026 NTIRE 赛事三项奖项

03:50Claude75精选Claude Design 全面升级创作能力

02:12Rohan Paul57HiDream开源8B参数统一架构图像模型，挑战传统扩散管线

00:56Berryxia.AI62xdm，这件事其实比看起来更值得注意。

00:20Elon Musk50Grok Agent模式：AI视频创作的重大能力解锁

5月18日周一

23:13Kling AI19把朋友变成游戏加载界面

22:37Krea78精选Krea 2全面开放，订阅用户享一周无限生成

19:34Hacker News 热门（buzzing.cc 中文翻译）52那些充满氛围感的Photoshop作品都去哪儿了？

18:02向阳乔木69迪斯科风格Logo席卷海外设计圈

13:42Kling AI51世界杯倒计时，一键体验Kling AI新特效

11:19Elon Musk74同事件精选Grok Imagine图像生成模型发布同一事件，精选展示《xAI 发布 Grok Imagine 1.5 预览版（图像转视频模型）》

10:47DogeDesigner47Grok Imagine单季网页访问量破1.5亿次

08:21Sam Altman50ChatGPT图像功能在印度生成超10亿张图片

08:00HuggingFace Daily Papers（社区热门论文）46SENSE：基于卫星的能量合成促进可持续环境

08:00HuggingFace Daily Papers（社区热门论文）56RT-Splatting：基于高斯溅射的联合反射与透射建模

02:44AYi66Kimi做网站设计这么牛逼吗？这个视频分享了怎么用Kimi 2.6做获奖10美元的网站，教程讲的特别细，需要字幕学习的可以评论区留言告诉我！

5月17日周日

23:44IT之家（RSS）35古尔曼：苹果 iOS 27 将引入智能推荐 Genmoji 功能，基于相册照片与输入记录自动生成表情

23:44AYi49国宴服务员被日账号AI图诬为间谍，暴露认知战中的镜像偏见

16:44IT之家（RSS）58AMD 游戏引擎专利曝光：画个草图 AI 就能帮你做游戏

16:12Kling AI15镜头捕捉可爱瞬间

15:47Elon Musk84精选Grok Imagine图像生成功能正式发布

13:44AYi67AI工具时代的生产悖论：demo易得，工程难行

5月16日周六

08:00HuggingFace Daily Papers（社区热门论文）49EVA01：基于Mixture-of-Transformers的统一原生3D理解与生成框架

06:31Hacker News 热门（buzzing.cc 中文翻译）64Image-blaster：仅凭一张图片即可生成3D场景、特效和网格

05:06Luma27网站横幅视觉由Luma Agents打造

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月20日

03:55

IT之家（RSS）

50

谷歌推出 Google Pics 应用：AI 生图加局部精细编辑

谷歌在2026年I/O开发者大会上，面向Workspace用户推出了AI图像生成与设计工具Google Pics。该工具以网页应用形式上线，核心是将图像生成与编辑设计整合在同一流程中，用户可通过鼠标悬停点选元素，并用文字或语音指令进行局部精细调整，无需重新生成整张图片。系统会提供多个候选版本，成品可输出为JPG或PNG格式。目前仅对部分受信测试者开放，AI Pro订阅用户将在夏季稍后体验，未来计划推出移动应用并整合到更多Workspace应用中。

Google 产品更新图像生成

02:55

AYi@AYi_AInotes

80

Google Gemini Omni重新定义视频生成

Google推出Gemini Omni，首个面向消费者的世界模型。它通过自然语言交互，将Gemini的智能与生成媒体系统结合，实现了对物理规律、历史、生物等世界的深刻理解。用户可以像编辑ChatGPT文本一样用单句指令编辑视频，实现人物一致性、风格迁移、角度调整等功能。它不是单纯生成像素，而是模拟连贯的物理与语义世界，标志着AI视频生成从拼接工具向智能创作系统的飞跃。

Google DeepMind: We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....

DeepMind Google 图像生成多模态

02:13

OpenAI@OpenAI

52

我们正在为人们提供识别AI生成图像并了解其来源的新方法。除了C2PA内容凭证外，图像现在还包含SynthID水印，并可通过公开验证工具检查图像是否由OpenAI产品制作。 https://openai.com/index/advancing-content-provenance/

OpenAI 产品更新图像生成安全/对齐

01:48

Google DeepMind：Blog（RSS）

51

使用 Project Genie 和 Street View 模拟真实世界场景

谷歌宣布向全球的 Google AI Ultra 订阅者开放新的访问权限，并推出一项基于 Street View 数据驱动的全新功能。该功能能够模拟真实世界的地点与场景，标志着 AI 在结合地理信息与沉浸式体验方面迈出新步伐，为用户带来更具现实感的交互与探索可能性。

DeepMind Google 产品更新具身智能

01:27

Krea@krea_ai

精选73

Krea 2深度解析。学习如何使用风格参考、情绪板，以及如何用Krea 2进行提示。

Krea: today, Krea 2 goes live to everyone. to celebrate, we're offering unlimited Krea 2 generations to all our subscribers fo...

产品更新图像生成

推荐理由：Krea 2 正式全量发布，这个 deep dive 把风格参考和情绪板玩法讲得很透，做视觉内容的朋友今天就能用上。

5月19日

20:26

Hacker News 热门（buzzing.cc 中文翻译）

33

草莓的高斯模糊效果

2026年5月19日，一个利用Gaussian Splatting技术渲染草莓高斯模糊效果的在线场景在superspl.at平台发布。该场景通过高斯点渲染算法实现模糊视觉效果，图片中草莓呈现出清晰的细节与艺术化处理。在Hacker News科技社区，此内容获得122个投票点，吸引了社区对新兴3D渲染技术的关注和讨论。

其他图像生成

17:00

HuggingFace Daily Papers（社区热门论文）

65

SafeDiffusion-R1：面向安全扩散后训练的在线奖励引导

本研究针对扩散模型去除预训练阶段不安全内容时面临的监督数据昂贵及离线方法易导致灾难性遗忘等问题，提出了SafeDiffusion-R1在线强化学习框架。该框架采用组相对策略优化算法，在正负文本提示上进行后训练，无需依赖配对监督数据。其核心在于引入了一种奖励引导机制，直接利用CLIP嵌入特性，在嵌入空间中引导文本表征向安全方向优化，从而无需微调专门的安全奖励模型。实验表明，该方法将不安全内容生成比例从48.9%降至18.07%，裸体检测数大幅减少，同时提升了组合生成质量，并可泛化至多种危害类别，达到当前最优水平。

arXiv GitHub 图像生成安全/对齐

14:51

IT之家（RSS）

59

Anthropic 提升 Claude Design 额度并更新 Claude Code 快速模型

5月19日，Anthropic 宣布对 Claude 产品线进行两项重要更新。首先，所有付费套餐中 Claude Design 的 Token 上限已翻倍，旨在减少设计中断并支持更长上下文与迭代。其次，Claude Code 的快速模式（通过“/fast”启用）现已默认切换至 Opus 4.7 模型，速度提升至 2.5 倍，但 Token 成本更高。价格方面，Opus 4.7 与之前的 Opus 4.6 在快速模式下定价一致，均为每百万输入 Token 30 美元、输出 150 美元，并覆盖 100 万 Token 的完整上下文窗口。

Anthropic 产品更新图像生成

14:28

公众号：可灵AI（快手·视频）

24

可灵AI与候鸟300发起"候鸟记忆复活计划"

可灵AI与候鸟300合作推出#候鸟记忆复活计划，邀请曾参与候鸟300的艺术家用旧照片、影像、手稿或故事作为素材，通过可灵AI续写创作。活动即日起至5月31日，带话题发布视频并填写问卷即视为参与。将综合创意独特性和技术表现力筛选10支优秀作品，各奖励12,000灵感值。

图像生成行业动态视频

11:51

HuggingFace Daily Papers（社区热门论文）

59

Lance：基于多任务协同的统一多模态建模

本文介绍了轻量级原生统一模型Lance，支持图像与视频的理解、生成与编辑。该模型摒弃了对模型规模扩张或文本-图像主导设计的依赖，探索通过多任务协同训练实现统一多模态建模的实用范式。其核心在于两个原则：统一上下文建模与解耦能力路径。Lance从头训练，采用共享交织多模态序列的双流专家混合架构，并引入模态感知旋转位置编码以减少异构视觉标记间的干扰，增强跨任务对齐。训练采用分阶段多任务范式，结合能力导向的目标与自适应数据调度。实验表明，Lance在图像与视频生成任务上显著优于现有开源统一模型，同时保持了强大的多模态理解能力。

图像生成多模态视频论文/研究

10:34

向阳乔木@vista8

74

AI批量生成艺术风格，一键浏览380+大师作品

作者利用GPT-Image-2模型，批量生成了超过380位艺术家的画风作品。为便于直观学习和借鉴（用于AI生图提示），他创建了一个可体验的网站，将蒙德里安、葛饰北斋等不同风格的创作并置展示，帮助用户快速建立对艺术风格的认知。该项目代码已在GitHub开源。

GitHub 图像生成开源/仓库

08:49

🚨 AI News | TestingCatalog@testingcatalog

68

谷歌I/O 🔥：这些传奇人物是通过即将推出的Gemini Omni模型生成的AI图像。 > 两段视频均为8秒高清样本。 > 与Sundar和Demis相关的视频很可能是使用Omni进行风格编辑的图像转视频生成。 > Logan的视频则可能是"相似度"虚拟形象与Omni视频的结合。而"GEMINI"意味着新模型的发布！🤯

Logan Kilpatrick: Gemini

Google 图像生成多模态模型发布

08:00

HuggingFace Daily Papers（社区热门论文）

57

扩散对齐的拼接价值模型

StitchVM是一个用于扩散模型对齐的模型拼接框架。它解决了在噪声中间潜在值上评估奖励的挑战，通过将预训练的干净图像奖励模型（如CLIP ViT-L）与固定的扩散主干（如SD 3.5 Medium）轻量级地“拼接”起来。该框架的核心创新在于，使奖励模型能够直接处理噪声潜在值，从而避免了传统近似方法的计算成本或偏差问题。整个拼接与微调过程极为高效，仅需约10个GPU小时。实验表明，StitchVM显著提升了下游方法的效率，使DPS推理速度提升3.2倍、显存占用减半，并将DiffusionNFT加速2.3倍。

arXiv 图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

PanoWorld：一个用于生成一致全屋全景的生成式空间世界模型

针对从平面图和风格参考生成一致全屋VR漫游的难题，本文提出了PanoWorld。该模型将整屋合成任务转化为基于节点的360度全景图自回归生成，与真实VR产品的导航方式一致。其核心方法是使用基于平面图的3D壳体作为全局几何代理，并结合动态3D高斯溅射缓存作为可渲染的空间记忆。通过专门设计的全景LRM和房间感知组注意力机制，模型能够更新全景图并抑制跨房间特征干扰，在保持高质量2D细节的同时显著提升了跨节点间的布局与材质一致性。项目详见：https://jjrcn.github.io/PanoWorld-project-home/

图像生成论文/研究

07:45

IT之家（RSS）

33

苹果 iOS 27 前瞻：图乐园优化壁纸生成、写作工具增强语法检查

彭博社报道，苹果iOS 27系统计划引入AI版快捷指令App，并优化自定义壁纸生成功能。图乐园（Image Playground）功能将部署更强AI模型，增强AI生成壁纸能力，使壁纸更逼真，用户可在设置流程中即时生成个性化壁纸，无需依赖相册或预设。同时，写作工具（Writing Tools）在现有生成、总结和基础校对基础上，重点增强语法检查能力，提升句法问题处理，使体验更接近Grammarly。

产品更新图像生成

07:45

IT之家（RSS）

68

小米斩获 CVPR 2026 NTIRE 赛事三项奖项

近日，小米在 CVPR 2026 NTIRE 图像恢复与增强赛事中获得三项大奖。小米玄戒多媒体算法团队凭借自研SPANV2方法，以综合得分4.43夺得高效超分辨率赛道冠军，实现了画质与速度的均衡提升。小米大模型应用团队通过双阶段级联框架与单步扩散技术，获得人像修复赛道冠军；并在反光消除赛道通过骨干网络升级与知识蒸馏等策略获得亚军，主观评分达4.31分，多项客观指标位列第一。

arXiv 图像生成论文/研究

03:50

Claude@claudeai

精选75

现在你可以用 Claude Design 创作更多内容了。我们已将所有套餐的 token 限制翻倍。

Anthropic 产品更新图像生成多模态

推荐理由：Claude Design 令牌加倍，做图做设计的人现在可以更放肆地挥霍上下文了，Anthropic 这波更新把设计工具的可用性拉高了一个档次。

02:12

Rohan Paul@rohanpaul_ai

57

HiDream开源8B参数统一架构图像模型，挑战传统扩散管线

HiDream开源了8B参数的HiDream-O1-Image模型，其核心创新在于采用像素级统一变换器，用单一架构直接处理原始图像块、文本与任务条件，将文本生成图像、编辑、个性化等任务统一为上下文生成，无需传统的VAE和文本编码器管线。该模型内置推理提示代理，能原生支持最高2048×2048的高分辨率合成。在性能上，它在参数量仅为部分同类模型三分之一的情况下，达到了可比的水平，尤其在文本渲染任务上表现出色，结果接近更大规模的模型。

图像生成开源生态推理模型发布

00:56

Berryxia.AI@berryxia

62

xdm，这件事其实比看起来更值得注意。

AI绘画工具Krea 2.0发布了保持人物、风格与构图高度一致性的功能。这不仅是技术升级，更标志着创作范式的转移：创作者的核心工作从反复调试单张图像的提示词，转向如何运用多张一致图像进行序列化思考与构建完整视觉叙事。当“单图生成”变得容易，叙事能力便成为更稀缺的优势。目前该功能已向所有用户开放并有限时免费活动，正加速这种创作方式的普及。

Krea: today, Krea 2 goes live to everyone. to celebrate, we're offering unlimited Krea 2 generations to all our subscribers fo...

图像生成大佬观点

00:20

Elon Musk@elonmusk

50

xAI更新了Grok的Agent模式，这被视为其能力的一次重大提升。该模式显著简化了AI视频创作流程。基于Grok Imagine，创作者能更流畅地制作视频，并借助Grok的理解能力完成素材生成与对话，无需额外配音，极大节省了时间成本。据早期测试，生成视频的写实效果良好，且图片参考等功能增强了实用性。这标志着AI在自动化、高质量内容生成领域取得了新的进展。

Déborah: I've finished a video of just over 4 minutes, entirely created using Grok Imagine's Agent mode (see image). It's a much ...

智能体 xAI 产品更新图像生成

5月18日

23:13

Kling AI@Kling_ai

19

视角：把我的朋友变成视频游戏加载界面 ⌛️

其他图像生成视频

22:37

Krea@krea_ai

精选78

今天，Krea 2正式向所有人开放。为庆祝上线，我们将为所有订阅用户提供整整一周的无限次Krea 2生成服务。免费试用 👇

产品更新图像生成

推荐理由：Krea 2 正式开放，新版本性能值得关注，尤其免费一周无限生成，做视觉设计的可以趁现在使劲造图，试试成片质量能不能撼动 Midjourney。

19:34

Hacker News 热门（buzzing.cc 中文翻译）

52

那些充满氛围感的Photoshop作品都去哪儿了？

2026年5月18日，一篇题为《那些充满氛围感的Photoshop作品都去哪儿了？》的评论文章在Hacker News引发讨论，获得106点热度。文章似乎聚焦于数字创作领域的趋势变迁，尤其探讨了曾流行于Photoshop中的“氛围感”视觉风格及其作品在当下的呈现状态或减少迹象，并关联到创作者工作流程与工具使用的潜在转向。

图像生成现象/趋势

18:02

向阳乔木@vista8

69

哈哈哈，都被Spotify 的迪斯科Logo晃瞎眼了。海外X都在发自己产品设计这种风格 Logo。反推个GPT-Image-2提示词：为【品牌名】生成一个高级 3D App 图标，圆角方形底板，玻璃与金属铬材质，迪斯科球镜面马赛克小方块质感，闪亮高光，柔和工作室灯光，干净极简背景，高端产品图标风格，Blender 3D 渲染，超精细 --- 英文版： A premium 3D app icon for 【Product Name】， rounded square tile， glossy glass and chrome material， disco-ball mosaic mirror tiles， sparkling highlights， soft studio lighting， clean minimal background， high-end icon， Blender 3D render， ultra detailed

OpenAI 图像生成教程/实践

13:42

Kling AI@Kling_ai

51

世界杯倒计时开始⚽ 穿上你的球队球衣，一键尝试Kling AI的新特效！

产品更新图像生成多模态视频

11:19

Elon Musk@elonmusk

同事件精选74

Grok Imagine 现已向所有 X Premium+ 订阅者开放这是我们的图像生成模型，由 xAI 开发

xAI 产品更新图像生成多模态

同一事件，精选展示《xAI 发布 Grok Imagine 1.5 预览版（图像转视频模型）》

推荐理由：below_threshold:T2 推文门槛 75,当前 finalScore=74

10:47

DogeDesigner@cb_doge

47

Grok Imagine在第一季度仅网页端访问量就突破1.5亿次。这些仅是网页数据，甚至未包含移动应用使用量。 Grok Imagine生成的图像和视频数量也超过其他所有平台总和。网页端体验地址：http://grok.com/imagine

xAI 图像生成行业动态

08:21

Sam Altman@sama

50

ChatGPT Images 2.0 💚 印度。已在该地生成超过10亿张图像；令人惊叹。

OpenAI 图像生成行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

46

SENSE：基于卫星的能量合成促进可持续环境

针对现有城市建筑能耗建模多为预测性、缺乏生成能力且数据稀缺的问题，本文提出了一个名为SENSE的统一生成式框架。该框架能够基于可控扩散模型，联合合成逼真的城市卫星图像以及与之对齐的高质量建筑能耗与高度图。其通过道路网络和城市密度指标进行条件控制，并利用大型视觉模型在潜在空间生成标注信息。在纽约等四个城市的实验表明，SENSE生成的图像视觉保真度高，且符合物理标准。该模型能利用少量标注数据生成合成数据集，显著提升了下游预测任务的性能并降低了误差，为城市可持续规划提供了新方案。

GitHub Hugging Face 图像生成开源/仓库

08:00

HuggingFace Daily Papers（社区热门论文）

56

RT-Splatting：基于高斯溅射的联合反射与透射建模

针对3D高斯溅射难以真实渲染半透明镜面物体的反射模糊与透射遮挡问题，本研究提出了RT-Splatting框架。其核心在于将高斯球的几何占据与光学不透明度解耦，从而用同一组高斯基元统一表征场景的表面与体积。通过混合渲染器，既能捕捉高频反射，又能保留清晰透射。为稳定联合优化，框架引入了镜面感知梯度门控，以抑制高镜面区域对透射分支的干扰梯度。实验表明，该方法在复杂半透明场景中实现了实时的高保真渲染，达到最先进水平，并自然支持灵活的场景编辑。

图像生成论文/研究

02:44

AYi@AYi_AInotes

66

Kimi做网站设计这么牛逼吗？这个视频分享了怎么用Kimi 2.6做获奖10美元的网站，教程讲的特别细，需要字幕学习的可以评论区留言告诉我！

图像生成教程/实践编码

5月17日

23:44

IT之家（RSS）

35

古尔曼：苹果 iOS 27 将引入智能推荐 Genmoji 功能，基于相册照片与输入记录自动生成表情

据马克・古尔曼报道，苹果计划在iOS 27和iPadOS 27中为Genmoji功能引入智能推荐。该功能将基于用户相册照片和键盘输入记录，自动生成个性化的专属表情，旨在提升功能使用率。用户可在键盘设置中自主选择开启或关闭此推荐选项。Genmoji功能最初随iOS 18.2上线，允许用户通过文字指令生成表情。此次升级强调场景贴合度与实用性，但具体是否仍完全依靠端侧AI模型运行尚未明确。

产品更新图像生成

23:44

AYi@AYi_AInotes

49

国宴服务员被日账号AI图诬为间谍，暴露认知战中的镜像偏见

一日本账号将中国国宴上神情专注、站姿端正的女性服务员，通过配乐和AI生成图片暗示为“间谍”，引发英文推特热议。分析指出，这种指控源于典型的“镜像偏见”——美国情报机构历史上常招募服务行业人员为线人，因而推定他国行为模式相同。实际上，中国高端外事服务秉承零失误、极致专注的专业传统，却被曲解为“监听”。事件揭示认知战中，文化差异与预设剧本如何将专业行为扭曲为威胁信号。

TotalNewsWorld: 中国の女性給仕係にスパイ疑惑ーー米ネットで話題に国賓晩餐会で、中国の給仕係の女性がスティーブン・ミラー副首席補佐官のすぐ横に立ち、聞き耳を立てるような姿勢で写っている。別カットでは要人たちの様子をじっと観察するような表情も。「中国ならや...

Google 图像生成安全/对齐现象/趋势

16:44

IT之家（RSS）

58

AMD 游戏引擎专利曝光：画个草图 AI 就能帮你做游戏

AMD一项名为“基于人工智能的游戏与渲染引擎”的专利曝光，计划推出一款完全依托AI打造的游戏引擎。该引擎旨在通过神经外推、智能超采样等技术，在生成逼真游戏画面的同时大幅降低算力消耗。其核心特点是允许开发者仅绘制简易草图轮廓，AI便能据此从零生成精细的游戏画面与内容，可承接传统游戏引擎的各类运算处理工作。目前该技术具体开放时间未定，但展现了AI颠覆游戏开发流程的潜力。

图像生成多模态行业动态

16:12

Kling AI@Kling_ai

15

抓拍到这个小可爱正对着镜头看。📸

其他图像生成

15:47

Elon Musk@elonmusk

精选84

Grok Imagine 现已正式发布所有人都可使用基于我们最新的文本到图像模型能够生成逼真、高质量的图像支持多种宽高比现在可在 X 上使用

xAI 产品更新图像生成

推荐理由：这是 Grok 补齐多模态的关键一步，从视频看生成质量不输 Midjourney，而且直接在 X 里就能用，零门槛对创作者是实打实的吸引力。

13:44

AYi@AYi_AInotes

67

AI工具时代的生产悖论：demo易得，工程难行

一条关于游戏开发的推文引发广泛共鸣：利用3D Gaussian Splatting技术生成的单颗树莓模型精度极高且运行流畅，但若将一整筐此类高精度模型放入游戏，帧率会骤降至2 FPS。这现象揭示了AI工具领域的普遍困境：生成单张图像、短视频或代码片段时效果出色，一旦进行批量生产或系统集成，就会出现质量崩溃、性能低下或依赖混乱等问题。其核心在于，新工具极大降低了创意demo的制作门槛，但将其转化为稳定、可交付的生产级应用，所需的工程优化与整合能力反而变得更加稀缺和关键。AI让创意唾手可得，但跨越demo到生产的鸿沟，仍需扎实的工程能力。

Naz: Cant wait for an indie dev to accidentally put a carton of these in his game as a prop and wonder why his game runs at 2...

图像生成现象/趋势部署/工程

5月16日

08:00

HuggingFace Daily Papers（社区热门论文）

49

EVA01：基于Mixture-of-Transformers的统一原生3D理解与生成框架

论文提出EVA01框架，扩展多模态大语言模型以原生方式整合3D网格理解、生成和上下文感知编辑。它基于Mixture-of-Transformers架构，将模型解耦为预训练的理解专家和结构镜像的生成专家，通过共享的全局自注意力与硬模态路由进行耦合。结果显示，EVA01在文本到3D生成保真度上达到最先进水平，并解锁了具有身份保持能力的鲁棒长上下文多轮几何编辑功能，这是无状态重建流程无法实现的。

arXiv 图像生成多模态论文/研究

06:31

Hacker News 热门（buzzing.cc 中文翻译）

64

Image-blaster：仅凭一张图片即可生成3D场景、特效和网格

Image-blaster是一款开源工具，能够仅凭单张输入图片自动生成对应的3D场景、特效和网格模型。该项目已在GitHub平台发布，获得了开发者社区的关注，在Hacker News上收获了102个投票。这一技术简化了3D内容创作流程，有望降低相关领域的制作门槛。

图像生成多模态开源/仓库

05:06

Luma@LumaLabsAI

27

您的网站横幅是访客的第一印象。务必使其出彩。明确传达信息。设定美学风格。Luma Agents据此构建所有横幅视觉。使其出彩 → http://lumalabs.ai/app

产品更新图像生成

1…15 161718 19…30