AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 699 条
全部一手资讯X论文
标签「图像生成」清除
Krea@krea_ai · 5月22日26

this happening in 1h! join us to chat about LoRAs and new updates coming to Krea 2.

译1小时后开始! 加入我们,一起聊聊LoRAs和Krea 2即将到来的新更新。 [引用 @krea_ai]:我们明天将举办首次社区空间活动! 通过X Spaces加入我们,讨论Krea 2的更新、分享反馈或展示你的作品。 链接在下方 👇

Berryxia.AI@berryxia · 5月22日71

C大还是太谦虚了,这个审美和这个丝滑的效果赶紧按头去用啊~~ 没有废话,只有干货👇🏻 地址:https://magicslide.show

译团队受Zara启发开发的Magic Slide项目正式发布,这是一个旨在解决日常幻灯片制作问题的AI工具。其转场和呈现效果被评为非常丝滑。项目联网与部分模型功能通过团队自研的网关PIPELLM实现。该团队目前除C端产品外,主要精力专注于AI Infra方向建设。

Krea@krea_ai · 5月21日69

introducing LoRAs for Krea 2 (beta). our most powerful fine-tuning system to date; now you can train Krea 2 on a your own specific style, object, or character with incredible precision. learn how it works 👇

译为 Krea 2(测试版)引入 LoRA。 我们迄今最强大的微调系统;现在你可以用惊人的精度,在 Krea 2 上训练你自己的特定风格、对象或角色。 了解其工作原理 👇

Luma@LumaLabsAI · 5月21日29

Great event graphics don't just inform. They create anticipation. Define the moment. Set the direction. Luma Agents build every promo graphic from save the date to final call. Consistent creative, built for every format and channel, designed to fill the room. Fill the room → http://lumalabs.ai/app

译优秀的活动视觉设计不仅传递信息,更能激发期待。 定义关键时刻,指引方向。Luma Agents为每场活动制作从预告到最终号召的全套宣传视觉。统一创意,适配所有格式与渠道,旨在座无虚席。 座无虚席 → http://lumalabs.ai/app

Alibaba Cloud@alibaba_cloud · 5月21日36

After the Monaco Grand Prix 2026, the action continues. 🏁 Monaco doesn't just celebrate speed — it pioneers what's next. This June, the city hosts its first-ever AI Film Festival, a landmark moment where storytelling and artificial intelligence converge to reimagine cinema. Alibaba Cloud is thrilled to be part of it. At Alibaba Cloud, we believe the AI era belongs to creators as much as engineers. Our cloud and AI infrastructure — from foundation model training to real-time rendering at scale — is built to give filmmakers, artists, and visionaries the tools to experiment fearlessly and bring bold ideas to life, frame by frame. The future of film isn't just being imagined. It's being rendered. 📍 One Monte Carlo 🗓 June 9–10, 2026 🔗 https://int.alibabacloud.com/m/1000413073/ #AlibabaCloud #AIFilmFestival #GenerativeAI #FutureOfFilm #Monaco2026

译2026年6月,摩纳哥将举办首届AI电影节,标志着人工智能与电影叙事的深度融合。阿里云作为合作方,强调其云与AI基础设施(从基础模型训练到大规模实时渲染)致力于赋能创作者,为电影人、艺术家提供实验与实现大胆创意的工具,共同探索由AI技术驱动的电影制作新范式。

AYi@AYi_AInotes · 5月21日79

holy shit,游戏开发的门槛,刚刚被 Grok 一脚踹飞了🤯 一句提示词出角色图→图片变动画→视频自动拼成 spritesheet→直接丢进 Unity 跑起来, 全程 4 步,几分钟, 以前这活要美术+动画师干好几天, 以后做游戏真的只要张嘴就行了是吧🤣 具体拆一下 Grok 这次演示的管线: 1️⃣ 生成角色图 跟 Grok 说一句提示词,比如"特斯拉 Optimus 机器人,白背景,全身居中",几秒出高清图。 2️⃣ 图转视频让角色动起来 用 Grok 的图片转视频功能,走路、挥手、跳跃随便选,几秒出动画。 3️⃣ 视频自动拼 spritesheet 后台有个叫 Asset Forge 的插件帮你把视频逐帧拆好拼成一张大图,不用手动抠。 4️⃣ 丢进引擎直接用 spritesheet 导入 Unity 或 Godot,角色立刻就能跑能跳。 视频里那个橙色卡通 Optimus 就是现场聊着天做出来的。 最狠的是迭代速度, 传统做法改个动作:重新渲染、重新导入,动辄几小时。 现在:在聊天框里说"加个跑步动画""改成赛博朋克风",AI 秒改,实时预览。 反馈循环从"天"变成"秒"。 而且这还不是AI 画个图让你导出用那么简单,它是让AI 直接进入游戏引擎工作流,实时生成可运行的资产。 这意味着以后 solo 开发者一个人真能顶一个团队了, 周末花几个小时搞出一个可玩的游戏原型不再是梦了。 想试试的朋友直接 @Grok,用提示词"特斯拉 Optimus 风格的卡通机器人,全身,白背景"起步就行🤖

译Grok展示了AI深度介入游戏开发的全新工作流。通过“提示词生成角色图→图片转动画视频→自动拼接成Spritesheet→导入引擎”四步流程,将传统需要美术与动画师耗时数天的工作,在几分钟内完成。这标志着AI不再仅生成静态内容,而是能实时生成可直接导入Unity或Godot等游戏引擎的可运行资产。该技术极大压缩了游戏原型的迭代周期,将反馈循环从“天”缩短至“秒”,使得独立开发者也能快速实现创意,显著降低了游戏创作的门槛。

Krea@krea_ai · 5月21日27

we're hosting our first Community Spaces tomorrow! join us through X Spaces to chat about updates coming to Krea 2, share feedback, or showcase your work. link below 👇

译我们将于明天举办首次社区空间活动! 欢迎通过 X Spaces 加入我们,一起讨论 Krea 2 即将推出的更新、分享反馈或展示你的作品。 链接如下 👇

宝玉@dotey · 5月21日68

这位博主做了系列 Google Omni vs Seedance 2.0的对比视频,看起来差距还是蛮明显

karminski-牙医@karminski3 · 5月21日66

Midjourney 创始人自爆没有使用N卡导致落后一年? 刚刚在 X 上有个讨论 TPU(Google Tensor Processing Unit)的帖子, Midjourney 创始人 David Holz 不经意间爆了个大料:解释了为什么他们过去一年在产品迭代上显得如此疲软. (原帖已经删帖了, 毕竟用着TPU然后说TPU不好不太好哈哈哈, 而且今天 GoogleI/O 还在搞. 所以我给大家截图了评论) 简单来讲, Midjourney 之前为了搞底层基建, 把技术栈搞成了精分状态:在 TPU 上使用 JAX 框架训练模型, 又在 GPU 上使用 PyTorch 进行推理. 结果就是, 团队天天在这两套环境中来回横跳, 工具链断层, 调试极其困难(老黄的 N 卡从 IR 到算子再到驱动都能调试, 社区经验也很多, TPU 生态跟不上). 而且由于用 JAX (Google 搞的运行在 TPU上的魔改 NumPy), 导致开源社区里海量现成的 PyTorch 训练代码根本无法直接用, 全得自己移植. David 更是直接说 "如果可以回到过去, 我会从一开始就尝试使用纯英伟达的解决方案. " 所以如果说 DeepSeek 用国产卡, 搞各种极限优化是因为缺卡被逼出来的, 那 Midjourney 纯粹就是自己作(zuō, 一声)出来的了 要知道去年以来, 以 Google Nano-banana 为代表的修图大模型, 和各家能直接在图片里精准嵌入上千字的文生图大模型疯狂爆发. 对比之下, Midjourney 发布的 V7 和 V8 两个大版本在这些"平民化"功能上根本没法打. 我自己是 Midjourney 的订阅用户, 我现在基本只用它做前期的创意草稿和风格探索(毕竟 MJ 的风格连贯性和艺术感目前还是最强的), 然后精修和提升分辨率全都使用 nano-banana.而如果要排版做海报直出, 而做海报之类的直接用 OpenAI 的 ChatGPT Images 了. 帖子下面有个中国老哥评论得好:「亡羊补牢, 为时不晚」. 希望今年 Midjourney 赶紧跟上, 毕竟目前风格迁移这个领域还是 Midjourney 比较好, 基本盘还在的. #Midjourney #NVIDIA #TPU #文生图大模型

译Midjourney 创始人透露,团队因使用 TPU + JAX 训练、GPU + PyTorch 推理的混合技术栈,导致工具链断裂、调试困难,且无法利用开源社区丰富的 PyTorch 资源,严重拖慢了产品迭代速度。创始人反思,若重新开始会选择基于 NVIDIA 的统一方案。对比之下,其他文生图模型在功能上发展迅速,Midjourney 虽在风格艺术性上仍有优势,但在核心功能竞争上已显疲态。

Midjourney@midjourney · 5月21日69

Small update today. Many requested a "anti-prompting" feature for V8 models (which existed in previous versions) which we call the --no flag. This is now available today in V8.1! So if you're trying to get something out of your images (like people) try --no people. Have fun!

译今日小幅更新。许多用户要求为V8模型恢复“反向提示”功能(旧版本已有),我们称之为--no标志。该功能现已在V8.1中上线!如果您想从图像中排除某些元素(例如人物),可以尝试使用--no people。玩得开心!

Luma@LumaLabsAI · 5月21日53

The sale is live. Make sure every graphic screams it. Set the offer. Define the urgency. Luma Agents build every sales graphic from there. Drive it home → http://lumalabs.ai/app

译促销已开启。确保每张视觉图都传递出这一信息。 设定优惠。定义紧迫感。Luma Agents 从这里构建每张销售视觉图。 立即行动 → http://lumalabs.ai/app

ViggleAI@ViggleAI · 5月21日29

well. this was the 2D version. check back later 👀

译好吧,这是2D版本。稍后回来看看 👀

Rohan Paul@rohanpaul_ai · 5月21日63

Chinese AI lab SenseTime just open-sourced SenseNova U1, a unified multimodal model that can understand, reason, and generate images + text inside 1 model. The interesting part is the architecture: it removes the usual visual encoder and variational auto-encoder setup, then handles image and language inside a shared representation space, instead of being passed between separate modules. That means less handoff between modules, less information loss, and better consistency when creating dense visual content like infographics, guides, posters, comics, and image-text workflows. That’s how the model can generate coherent text and images together in one flow, which is why it is strong for infographics, guides, comics, posters, and step-by-step visual content. For infographic generation specifically, it is also around 2x faster than Qwen-Image-2.0 / Seedream-4.5 while staying in the same rough quality band, based on the client benchmark chart. 1/n

译商汤科技近日开源了SenseNova U1,其核心创新在于架构设计。该模型摒弃了传统的视觉编码器与变分自编码器分离结构,采用单一共享表示空间原生处理图像与文本,极大减少了模块间转换导致的信息损耗。这一设计使模型能够连贯地同时生成图文内容,在信息图、海报、漫画等需要高一致性的密集视觉内容创作上优势显著。性能方面,其信息图生成速度在同等质量下约为Qwen-Image-2.0/Seedream-4.5的两倍。

小互@xiaohu · 5月21日63

Mdjourney创始人暗示他们被Google的 TPU坑了 白白浪费了一年时间… 如果回到过去他会选择英伟达的GPU🤣 “这大概让我们的研究进度,比起一开始就完全采用 Nvidia 技术栈,落后了差不多一年。并不算特别理想。如果我能回到过去,我会从第一天开始就全部使用 Nvidia 的方案。”

译Midjourney创始人暗示他们被Google的 TPU坑了 白白浪费了一年时间… 如果回到过去他会选择英伟达的GPU🤣 “这大概让我们的研究进度,比起一开始就完全采用 Nvidia 技术栈,落后了差不多一年。并不算特别理想。如果我能回到过去,我会从第一天开始就全部使用 Nvidia 的方案。”

Google AI@GoogleAI · 5月21日69

We partnered with artists, designers, and builders to create new AI tools that solve real problems in their creative workflows. Here’s what’s new: — Introducing Google Pics in @GoogleWorkspace: A brand-new image creation & editing tool. Move and resize objects, add text, and translate just by hovering and clicking — Big updates to @GoogleFlow: 1) You can now create with Gemini Omni Flash in Google Flow 2) Google Flow Agent is a multi-step creative partner that reasons and plans complex tasks with you. 3) Google Flow tools are custom tools you can “vibe code” for animations, video effects, text layering & more — Design live with @StitchbyGoogle: Now, you can use text or voice prompts to edit layouts in real time then export those designs straight to code — More creative control in @GoogleFlowMusic: Edit songs section by section, remix the style of full songs, and create music videos with our new Gemini Omni Flash model

译谷歌与创作者合作推出系列AI工具更新。Google Workspace新增图像创作编辑工具Pics;Google Flow支持Gemini Omni Flash模型,并推出Flow Agent作为多步骤创作伙伴;设计工具StitchbyGoogle支持实时文字或语音编辑布局并导出代码;音乐工具Google FlowMusic增加分段编辑、风格混音及视频生成功能。

PixVerse@PixVerse_ · 5月20日64

AI video consistency starts before motion. For this 15s cooking short, we first generated a clean character storyboard in PixVerse. Then used it as reference for the video. Same character. Clear story beats. Camera direction. Motion details. RT + Follow + Reply = Storyboard Workflow

译AI视频的一致性始于动作之前。 对于这个15秒的烹饪短片,我们首先在PixVerse中生成了一个清晰的角色分镜。 然后将其用作视频的参考。 相同的角色。清晰的故事节点。 镜头指导。动作细节。 转发 + 关注 + 回复 = 分镜工作流

Chubby♨️@kimmonismus · 5月20日43

From this point on, I need to know: What magic does Seedance have that allows their Model 2.0 to remain so far ahead even after Google I/O? Seedance 2.0 was released in February (!). Model 3.0 can't be far off, and nothing has come close to 2.0 so far.

译从现在起,我需要知道: Seedance到底有什么魔力,能让他们的Model 2.0在Google I/O之后依然遥遥领先? Seedance 2.0是在二月发布的(!)。 Model 3.0应该快了,而目前还没有任何模型能接近2.0的水平。

Berryxia.AI@berryxia · 5月20日59

现在二刷结束黑神话悟空后,没事还会去溜达到小西天黄梅这个章节中去在这个庙里去东瞧瞧细看看。 是真的美,也是第一次被震撼到。 没想到团队背后的付出也是如此的不容易。 大家现在可以直接在线慢慢欣赏,真的不错。 地址:https://funes.world/apps/the-hanging-sculptures-of-the-xiaoxitian

译推文分享了在通关《黑神话:悟空》后,对游戏中小西天场景原型——山西临汾隰县小西天悬塑艺术的震撼与实地探访。一个团队通过实地拍摄数千张照片,使用 Gaussian Splatting (3DGS) 技术,将其建成了一个可在线漫游的 3DGS 数字存档。该模型旨在保留明代悬塑密集的金色空间、细节与光感,让观众得以在屏幕前细细欣赏这一通常因平面印刷限制而难以被充分展现其震撼力的艺术瑰宝,并配有专门音乐。

向阳乔木@vista8 · 5月20日73

几年前元宇宙火爆,在字节做过3D虚拟人。 那时做一个东西,要协调建模师、绑骨师、贴图师……实在崩溃。 刚试了下 Rodin Gen-2.5,一张图就能生成 3D 资产,太方便了! 一键下载 obj、fbx、glb等源文件和贴图资源,可以导入到3D软件继续编辑。 据说 Rodin Gen-2.5 是全球首款实现千万级面数的 3D 生成模型,用了原生 3D 贴图算法,材质纹理超精细,有点遥遥领先。 对游戏、动画、影视等产业来说,这种AI模型产品,是真 · 生产力工具。

译AI 3D生成模型Rodin Gen-2.5发布,号称全球首款能实现千万级面数的同类产品,材质纹理精细。该模型可从单张图片生成高质量3D资产,快速输出obj等通用格式文件供进一步编辑,极大地简化了传统建模、绑骨、贴图的复杂流程。其技术亮点包括原生3D贴图算法,旨在为游戏、动画、影视等产业提供真正的生产力工具。

Berryxia.AI@berryxia · 5月20日70

记得上次使用Draw Things 这个开源生图软件还是在去年展会给现场客户做Demo演示的时候! 平时压根不会用,因为有着些许的鸡肋。 但是,也有优势,比如可以在iPad就可以挂开源模型生图。(质量嘛,忽略) 直到今天看到这个新闻,喔觉得事情有点不一样了~ Draw Things里一个纯属意外的发现,直接把本地生成速度干上天了。 Z-Image-Fun-Lora-Distill本来是为Z-Image Base训的2步/4步/8步版本。 结果有人拿它配Z Image Turbo一试,效果直接炸裂。 原来需要8-9步才能出的图,现在3-4步就够了。 本地生成时间大幅缩短,画质和细节还稳得一批。 以前觉得本地出图慢是天花板,现在这个组合直接把天花板又顶高了一截。 详细配置和LoRA下载链接在原帖评论区,已经有人实测放出来了。 对每天用Draw Things本地生成、或者玩Z Image Turbo的兄弟,这波意外发现太实用了。

译在开源生图软件Draw Things中,一项意外发现显著提升了本地AI生图速度。将原为Z-Image Base训练的Z-Image-Fun-Lora-Distill与Z Image Turbo搭配使用后,原本需要8-9步的生成过程可缩减至3-4步,大幅缩短了本地生成时间,同时保持了画质与细节的稳定。这一组合有效突破了此前本地生图速度较慢的限制。

PixVerse@PixVerse_ · 5月20日16

Size ain’t everything! Hamster just out-lifted a hippo in the Olympics!

译体型不是一切!仓鼠在奥运会上举重超过了河马!

Kling AI@Kling_ai · 5月20日47

Kling AI Cannes Showcase — Technical Discussion on Born of the Tide AI-driven animation across the full industrial creative workflow. Set against the historical and cultural backdrop of the Tanka people, Born of the Tide explores a new way of bringing local stories to the screen through AI-powered animation. From art direction and environment design to character movement and cinematic shot planning, Kling AI helps streamline the animation process, making high-quality, epic-scale visual storytelling more accessible, efficient, and scalable. By lowering production barriers and reducing reliance on large teams and long production cycles, the project points to a more agile and creatively open future for original animation.

译Kling AI展示了其在动画《生来如潮》中全流程应用AI技术的实践。该项目以疍家文化为背景,利用Kling AI辅助完成了从美术指导、环境设计到角色动作、电影镜头规划等关键环节。通过AI驱动的动画制作,项目降低了制作门槛,减少了对大规模团队和漫长制作周期的依赖,使高质量、史诗级的视觉叙事变得更高效、更易扩展,指向了更具敏捷性和创作自由度的动画未来。

Rohan Paul@rohanpaul_ai · 5月20日73

Chinese AI labs are increasingly releasing very serious open source work. SenseNova U1 just dropped on HuggingFace: native multimodal modeling, MoT architecture (38B-Active 3B MoE) It attacks the hardest part of image generation: readable, structured, consistent image-text output. The most interesting part of SenseNova U1 is it treats multimodal generation as one native modeling problem, not a chain of separate vision, language, and image modules. That means less handoff between modules, less information loss, and better consistency when creating dense visual content like infographics, guides, posters, comics, and image-text workflows. ComfyUI support, fast A3B inference, and absolutely brilliant for dense visuals like infographics, posters, comics, and guides.

译商汤科技SenseNova U1已开源发布。其核心创新在于原生多模态统一建模,将视觉、语言与图像生成视为一个统一问题,而非分立模块的链式处理,从而减少了信息损失。该模型采用MoT架构(38B-Active 3B MoE),在生成信息图、海报、漫画等结构复杂的密集图文内容时能保持高度一致性。详细的技术报告披露了其包括近无损视觉接口、联合训练策略在内的完整构建方案,为行业提供了前沿参考。

OpenAI@OpenAI · 5月20日70

People are generating over 1.5 billion images a week in ChatGPT. Researcher @kenjihata joins Product lead @adele__li and host @AndrewMayne to explore the new use cases and trends emerging since the launch of Images 2.0.

译人们每周在ChatGPT中生成超过15亿张图像。 研究员 @kenjihata 与产品负责人 @adele__li 及主持人 @AndrewMayne 一起,探讨自 Images 2.0 发布以来出现的新用例和趋势。

Replit ⠕@Replit · 5月20日37

Sneaky interventions, interactive installations, tools built for other artists to use. @kcimc's practice lives where machine learning, computer vision, and social technology collide. See his new interactive installation on day one of Vibecon. NYC, June 17–18. Get your tickets at http://vibecon.ai

译隐秘的干预、互动装置、为其他艺术家打造的工具。@kcimc 的实践存在于机器学习、计算机视觉与社会技术的交汇处。 在 Vibecon 首日观看他的新互动装置。 纽约,6月17-18日。 购票请访问 http://vibecon.ai

AYi@AYi_AInotes · 5月20日80

Damn! Google has really gone absolutely wild this time. Gemini Omni is about to blow the roof off the ceiling of video generation 🤯 Making videos used to be like building with Lego blocks, piece by piece, slowly. Now it’s giving you a magic Lego factory that can actually think. You chat in natural language, and it understands real-world physics, history, biology, culture—then directly generates or edits any video. Five most mind-blowing abilities that you can use right now: 1Understands real physics—glass marbles colliding, turning, and bouncing in ways that match reality. 2Faces never get distorted—define a character once, put them in any scene, any action. 3Edit videos like you edit ChatGPT text—change backgrounds, swap people, add effects with a single sentence. 4Upload an image and apply any style—make claymation, visualize protein folding, whatever you imagine. 5Video isn’t a dead file anymore—change angles, lighting, objects, even storylines just by chatting. This isn’t a competitor to Sora. This is the first time a world model has truly entered a consumer-facing product. It’s not just generating pixels—it’s simulating a coherent physical and semantic world. Open the Gemini app right now and try Omni Flash. Go try it. You’ll thank me later.

译Google推出Gemini Omni,首个面向消费者的世界模型。它通过自然语言交互,将Gemini的智能与生成媒体系统结合,实现了对物理规律、历史、生物等世界的深刻理解。用户可以像编辑ChatGPT文本一样用单句指令编辑视频,实现人物一致性、风格迁移、角度调整等功能。它不是单纯生成像素,而是模拟连贯的物理与语义世界,标志着AI视频生成从拼接工具向智能创作系统的飞跃。

OpenAI@OpenAI · 5月20日52

We’re adding new ways for people to identify AI-generated images and understand where they came from. In addition to C2PA Content Credentials, images now also contain a SynthID watermark, and can be identified using a public verification tool to check whether an image was made by OpenAI products. https://openai.com/index/advancing-content-provenance/

译我们正在为人们提供识别AI生成图像并了解其来源的新方法。 除了C2PA内容凭证外,图像现在还包含SynthID水印,并可通过公开验证工具检查图像是否由OpenAI产品制作。 https://openai.com/index/advancing-content-provenance/

Krea@krea_ai · 5月20日73

Krea 2 deep dive. learn how to use style references, moodboards, and how to prompt with Krea 2.

译Krea 2深度解析。 学习如何使用风格参考、情绪板,以及如何用Krea 2进行提示。

向阳乔木@vista8 · 5月19日74

你是不是也好奇艺术家都是什么风格? 如蒙德里安、葛饰北斋、凯斯•哈林都是牛逼的名字,但有些画风对不上? 昨天写了个网站,用GPT-Image-2 生成了 380+艺术家风格。 方便了解学习艺术家风格,也能借鉴(偷)AI生图。 提示词用刻在人类基因里最有安全感的画面之一:远山、近水和小树林。 体验网站 https://style.qiaomu.ai/ 开源 Github:https://github.com/joeseesun/qiaomu-artist-style

译作者利用GPT-Image-2模型,批量生成了超过380位艺术家的画风作品。为便于直观学习和借鉴(用于AI生图提示),他创建了一个可体验的网站,将蒙德里安、葛饰北斋等不同风格的创作并置展示,帮助用户快速建立对艺术风格的认知。该项目代码已在GitHub开源。

🚨 AI News | TestingCatalog@testingcatalog · 5月19日68

GOOGLE I/O 🔥: These legends are AI-generated via an upcoming Gemini Omni model. > Both videos are 8s HD samples. > Video with Sandar and Demis is likely generated as an image-to-video using Omni for style editing. > Logan's video is likely a "Likeness" Avatar and Omni video. And "GEMINI" means a new model release! 🤯

译谷歌I/O 🔥:这些传奇人物是通过即将推出的Gemini Omni模型生成的AI图像。 > 两段视频均为8秒高清样本。 > 与Sundar和Demis相关的视频很可能是使用Omni进行风格编辑的图像转视频生成。 > Logan的视频则可能是“相似度”虚拟形象与Omni视频的结合。 而“GEMINI”意味着新模型的发布!🤯

Claude@claudeai · 5月19日75

You can now create more with Claude Design. We've doubled token limits across every plan.

译现在你可以用 Claude Design 创作更多内容了。 我们已将所有套餐的 token 限制翻倍。

Rohan Paul@rohanpaul_ai · 5月19日57

HiDream just open-sourced an 8B image model with a big message behind it: the old diffusion pipeline (VAE-plus-text-encoder) may not be the only serious path left. 8B param, HiDream-O1-Image (8B) claims parity with models over 3x its size (e.g., 27B Qwen-Image). @HiDream_AI , @vivago_ai Key Features 🧬 Pixel-Level Unified Transformer — One end-to-end model on raw pixels, no VAE, no disjoint text encoder. 🎨 One Model, Many Tasks — Text-to-image, long-text rendering, instruction editing, subject-driven personalization, and storyboard generation in a single architecture. 🧠 Reasoning-Driven Prompt Agent — Built-in "thinking" agent that resolves implicit knowledge, layout, and text rendering before generation. 🖼️ Native High Resolution — Direct synthesis up to 2,048 × 2,048 with sharp fine-grained detail. ⚡ Exceptional Efficiency and Versatility at 8B Scale — With only 8B parameters, achieves performance parity with or even surpasses larger open-source DiTs and leading closed-source models. Most image models still split the job across a text encoder, a VAE, and a diffusion model, so details can get lost when real pixels are compressed into hidden image codes. HiDream-O1-Image removes that split by using a Pixel-level Unified Transformer, where raw image patches, text tokens, and task conditions enter the same model space. That means text-to-image, image editing, and subject personalization become variants of one in-context generation task, not separate pipelines. A prompt agent first rewrites messy user requests into clearer visual instructions, reasoning through layout, subject attributes, physics, and context before generation. The strongest result is text rendering. On LongText-Bench, the 8B model scores 0.979 in English and 0.978 in Chinese, while the 200B+ model reaches 0.982 and 0.980. That is the part to watch, because clean text inside generated images is still one of the hardest problems for image models. 🧵 1.

译HiDream开源了8B参数的HiDream-O1-Image模型,其核心创新在于采用像素级统一变换器,用单一架构直接处理原始图像块、文本与任务条件,将文本生成图像、编辑、个性化等任务统一为上下文生成,无需传统的VAE和文本编码器管线。该模型内置推理提示代理,能原生支持最高2048×2048的高分辨率合成。在性能上,它在参数量仅为部分同类模型三分之一的情况下,达到了可比的水平,尤其在文本渲染任务上表现出色,结果接近更大规模的模型。

Berryxia.AI@berryxia · 5月19日62

xdm,这件事其实比看起来更值得注意。 Krea最近更新了一个功能,能在生成图像的同时保持人物、风格和构图的高度一致性。 很多人看到这个功能会觉得「又多了一个好用的 AI绘画工具」。但真正有意思的地方在于,它正在悄悄改变创作者的工作方式。 以前用 AI 生成图像时,大部分时间其实都花在「试错」和「修复」上。 你得不断调整提示词、换模型、修细节,才能让画面接近自己想要的样子。 而当一致性能力大幅提升后,创作者的注意力开始从「怎么生成一张好看的图」,转向「怎么把一系列图像串成一个完整的视觉叙事」。 这其实是一个很典型的范式转移。 工具把「单张生成」的难度降下来之后,真正稀缺的反而变成了「序列化思考」和「叙事能力」。 那些能把多张图像组织成连贯故事的人,会获得越来越明显的优势。

译AI绘画工具Krea 2.0发布了保持人物、风格与构图高度一致性的功能。这不仅是技术升级,更标志着创作范式的转移:创作者的核心工作从反复调试单张图像的提示词,转向如何运用多张一致图像进行序列化思考与构建完整视觉叙事。当“单图生成”变得容易,叙事能力便成为更稀缺的优势。目前该功能已向所有用户开放并有限时免费活动,正加速这种创作方式的普及。

Elon Musk@elonmusk · 5月19日50

Grok agent mode is a major ability unlock

译xAI更新了Grok的Agent模式,这被视为其能力的一次重大提升。该模式显著简化了AI视频创作流程。基于Grok Imagine,创作者能更流畅地制作视频,并借助Grok的理解能力完成素材生成与对话,无需额外配音,极大节省了时间成本。据早期测试,生成视频的写实效果良好,且图片参考等功能增强了实用性。这标志着AI在自动化、高质量内容生成领域取得了新的进展。

Kling AI@Kling_ai · 5月18日19

POV: turning my friend into a video game loading screen ⌛️

译视角:把我的朋友变成视频游戏加载界面 ⌛️

Krea@krea_ai · 5月18日78

today, Krea 2 goes live to everyone. to celebrate, we're offering unlimited Krea 2 generations to all our subscribers for the entire week. try it for free 👇

译今天,Krea 2正式向所有人开放。 为庆祝上线,我们将为所有订阅用户提供整整一周的无限次Krea 2生成服务。 免费试用 👇

向阳乔木@vista8 · 5月18日69

哈哈哈,都被Spotify 的迪斯科Logo晃瞎眼了。 海外X都在发自己产品设计这种风格 Logo。 反推个GPT-Image-2提示词: 为【品牌名】生成一个高级 3D App 图标,圆角方形底板,玻璃与金属铬材质,迪斯科球镜面马赛克小方块质感,闪亮高光,柔和工作室灯光,干净极简背景,高端产品图标风格,Blender 3D 渲染,超精细 --- 英文版: A premium 3D app icon for 【Product Name】, rounded square tile, glossy glass and chrome material, disco-ball mosaic mirror tiles, sparkling highlights, soft studio lighting, clean minimal background, high-end icon, Blender 3D render, ultra detailed

Kling AI@Kling_ai · 5月18日51

World Cup countdown is on ⚽ Put on your team jersey and try the new effect on Kling AI, all in one click!

译世界杯倒计时开始⚽ 穿上你的球队球衣,一键尝试Kling AI的新特效!

Elon Musk@elonmusk · 5月18日74

Grok Imagine

译Grok Imagine 现已向所有 X Premium+ 订阅者开放 这是我们的图像生成模型,由 xAI 开发

DogeDesigner@cb_doge · 5月18日47

Grok Imagine surpassed 150 million visits on web alone in Q1. These are just the web numbers, and do not even include mobile app usage. Grok Imagine is also generating more images and videos than everyone else combined. Try it on web: http://grok.com/imagine

译Grok Imagine在第一季度仅网页端访问量就突破1.5亿次。 这些仅是网页数据,甚至未包含移动应用使用量。 Grok Imagine生成的图像和视频数量也超过其他所有平台总和。 网页端体验地址:http://grok.com/imagine

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月22日
02:14
Krea@krea_ai
26
1小时后开始! 加入我们,一起聊聊LoRAs和Krea 2即将到来的新更新。 【引用 @krea_ai】:我们明天将举办首次社区空间活动! 通过X Spaces加入我们,讨论Krea 2的更新、分享反馈或展示你的作品。 链接在下方 👇

Krea: we're hosting our first Community Spaces tomorrow! join us through X Spaces to chat about updates coming to Krea 2, shar...

图像生成行业动态
01:11
Berryxia.AI@berryxia
71
团队受Zara启发开发的Magic Slide项目正式发布,这是一个旨在解决日常幻灯片制作问题的AI工具。其转场和呈现效果被评为非常丝滑。项目联网与部分模型功能通过团队自研的网关PIPELLM实现。该团队目前除C端产品外,主要精力专注于AI Infra方向建设。

Cydiar: 团队小伙伴受到 Zara 的启发,闲暇时间搞了一个 Magic Slide 项目(终于发了,其实早就搞出来了),解决了日常 Slide 产出问题,欢迎大家一起体验,转场和效果非常丝滑!联网和部分模型使用我们自己的网关 PIPELLM 完成,...

产品更新图像生成
5月21日
22:41
Krea@krea_ai
精选69
为 Krea 2(测试版)引入 LoRA。 我们迄今最强大的微调系统;现在你可以用惊人的精度,在 Krea 2 上训练你自己的特定风格、对象或角色。 了解其工作原理 👇
产品更新图像生成数据/训练

推荐理由:Krea 2 把 LoRA 微调直接做进了产品,对需要固定角色或风格的设计师来说省事了,虽然不是新概念但低门槛就是好文明。
22:05
Luma@LumaLabsAI
29
优秀的活动视觉设计不仅传递信息,更能激发期待。 定义关键时刻,指引方向。Luma Agents为每场活动制作从预告到最终号召的全套宣传视觉。统一创意,适配所有格式与渠道,旨在座无虚席。 座无虚席 → http://lumalabs.ai/app
智能体产品更新图像生成
18:10
Alibaba Cloud@alibaba_cloud
36
阿里云助力摩纳哥首届AI电影节,重塑电影创作未来

2026年6月,摩纳哥将举办首届AI电影节,标志着人工智能与电影叙事的深度融合。阿里云作为合作方,强调其云与AI基础设施(从基础模型训练到大规模实时渲染)致力于赋能创作者,为电影人、艺术家提供实验与实现大胆创意的工具,共同探索由AI技术驱动的电影制作新范式。

图像生成行业动态视频
16:07
AYi@AYi_AInotes
精选79
游戏开发门槛被AI大幅降低

Grok展示了AI深度介入游戏开发的全新工作流。通过“提示词生成角色图→图片转动画视频→自动拼接成Spritesheet→导入引擎”四步流程,将传统需要美术与动画师耗时数天的工作,在几分钟内完成。这标志着AI不再仅生成静态内容,而是能实时生成可直接导入Unity或Godot等游戏引擎的可运行资产。该技术极大压缩了游戏原型的迭代周期,将反馈循环从“天”缩短至“秒”,使得独立开发者也能快速实现创意,显著降低了游戏创作的门槛。

Grok: Prototyping game assets directly with Grok @imagine

xAI图像生成教程/实践

推荐理由:Grok 这波不是画张图那么简单,它把 AI 直接嵌进游戏引擎工作流,实时生成可运行的资产,solo 开发者周末搞个原型出来真的可行了。
08:03
Krea@krea_ai
27
我们将于明天举办首次社区空间活动! 欢迎通过 X Spaces 加入我们,一起讨论 Krea 2 即将推出的更新、分享反馈或展示你的作品。 链接如下 👇
图像生成行业动态
07:48
宝玉@dotey
68
这位博主做了系列 Google Omni vs Seedance 2.0的对比视频,看起来差距还是蛮明显

Ratul Ali: Google Omni vs Seedance 2.0 😳 Olympic Diving Test - Seedance 2.0 also wins this test!🔥 Prompt👇 Female Olympic diver f...

Google图像生成视频评测/基准
06:17
karminski-牙医@karminski3
66
Midjourney 创始人自爆没有使用N卡导致落后一年?

Midjourney 创始人透露,团队因使用 TPU + JAX 训练、GPU + PyTorch 推理的混合技术栈,导致工具链断裂、调试困难,且无法利用开源社区丰富的 PyTorch 资源,严重拖慢了产品迭代速度。创始人反思,若重新开始会选择基于 NVIDIA 的统一方案。对比之下,其他文生图模型在功能上发展迅速,Midjourney 虽在风格艺术性上仍有优势,但在核心功能竞争上已显疲态。

Google图像生成大佬观点
03:50
Midjourney@midjourney
同事件精选69
今日小幅更新。许多用户要求为V8模型恢复"反向提示"功能(旧版本已有),我们称之为--no标志。该功能现已在V8.1中上线!如果您想从图像中排除某些元素(例如人物),可以尝试使用--no people。玩得开心!
产品更新图像生成
同一事件,精选展示《Midjourney V8.1 已成为默认模型》
推荐理由:Midjourney 把老版本的反提示词带回到 V8.1 了,用 --no 就能剔除画面中不想要的东西,受够了多余路人甲的用户终于可以一键清场。
01:43
Luma@LumaLabsAI
53
促销已开启。确保每张视觉图都传递出这一信息。 设定优惠。定义紧迫感。Luma Agents 从这里构建每张销售视觉图。 立即行动 → http://lumalabs.ai/app
产品更新图像生成
01:16
ViggleAI@ViggleAI
29
好吧,这是2D版本。稍后回来看看 👀

ViggleAI: Introducing the World's First Meme-powered Game Where you can be anyone, and Fight your colleague Fight your friends Fig...

产品更新图像生成视频
00:36
Rohan Paul@rohanpaul_ai
63
商汤开源统一多模态模型SenseNova U1

商汤科技近日开源了SenseNova U1,其核心创新在于架构设计。该模型摒弃了传统的视觉编码器与变分自编码器分离结构,采用单一共享表示空间原生处理图像与文本,极大减少了模块间转换导致的信息损耗。这一设计使模型能够连贯地同时生成图文内容,在信息图、海报、漫画等需要高一致性的密集视觉内容创作上优势显著。性能方面,其信息图生成速度在同等质量下约为Qwen-Image-2.0/Seedream-4.5的两倍。

图像生成多模态开源/仓库模型发布
00:19
小互@xiaohu
63
Midjourney创始人称被Google TPU坑惨

Midjourney创始人暗示他们被Google的 TPU坑了 白白浪费了一年时间… 如果回到过去他会选择英伟达的GPU🤣 “这大概让我们的研究进度,比起一开始就完全采用 Nvidia 技术栈,落后了差不多一年。并不算特别理想。如果我能回到过去,我会从第一天开始就全部使用 Nvidia 的方案。”

David: @bubbleboi it probably put our research a year behind where it could have been if we were pure Nvidia stack, not totally...

Google图像生成大佬观点数据/训练
00:14
Google AI@GoogleAI
精选69
谷歌发布多款AI创意工具新功能

谷歌与创作者合作推出系列AI工具更新。Google Workspace新增图像创作编辑工具Pics;Google Flow支持Gemini Omni Flash模型,并推出Flow Agent作为多步骤创作伙伴;设计工具StitchbyGoogle支持实时文字或语音编辑布局并导出代码;音乐工具Google FlowMusic增加分段编辑、风格混音及视频生成功能。

智能体Google产品更新图像生成
关联讨论 1 条X:Google AI for Developers (@googleaidevs)
推荐理由:Google这次更新的不是单点工具,而是把AI能力像乐高一样嵌入到创意工作流的每一步,Flow Agent的多步骤推理尤其值得做设计的人试试看。
5月20日
23:03
PixVerse@PixVerse_
64
AI视频的一致性始于动作之前。 对于这个15秒的烹饪短片,我们首先在PixVerse中生成了一个清晰的角色分镜。 然后将其用作视频的参考。 相同的角色。清晰的故事节点。 镜头指导。动作细节。 转发 + 关注 + 回复 = 分镜工作流
产品更新图像生成视频
22:35
Chubby♨️@kimmonismus
43
从现在起,我需要知道: Seedance到底有什么魔力,能让他们的Model 2.0在Google I/O之后依然遥遥领先? Seedance 2.0是在二月发布的(!)。 Model 3.0应该快了,而目前还没有任何模型能接近2.0的水平。

JSFILMZ: Google promised that Gemini Omni Flash would change the game, but when you put it side-by-side with Seedance 2.0... it's...

Google图像生成大佬观点视频
22:08
Berryxia.AI@berryxia
59
黑神话悟空带火山西小西天,3D数字模型上线

推文分享了在通关《黑神话:悟空》后,对游戏中小西天场景原型——山西临汾隰县小西天悬塑艺术的震撼与实地探访。一个团队通过实地拍摄数千张照片,使用 Gaussian Splatting (3DGS) 技术,将其建成了一个可在线漫游的 3DGS 数字存档。该模型旨在保留明代悬塑密集的金色空间、细节与光感,让观众得以在屏幕前细细欣赏这一通常因平面印刷限制而难以被充分展现其震撼力的艺术瑰宝,并配有专门音乐。

MasterPa: 小西天,看着像视频,但其实是我们在现场实地拍摄 3,811 张 206 GB 的照片后建模的。FUNES 把《黑神话:悟空》里「既见未来,为何不拜」满天神佛的原型,来自自山西临汾隰县的小西天,做成了一个可漫游的 3DGS 数字存档。 完全实...

图像生成教程/实践
22:02
向阳乔木@vista8
73
AI生成3D资产模型Rodin Gen-2.5发布:宣称千万级面数,助产业提效

AI 3D生成模型Rodin Gen-2.5发布,号称全球首款能实现千万级面数的同类产品,材质纹理精细。该模型可从单张图片生成高质量3D资产,快速输出obj等通用格式文件供进一步编辑,极大地简化了传统建模、绑骨、贴图的复杂流程。其技术亮点包括原生3D贴图算法,旨在为游戏、动画、影视等产业提供真正的生产力工具。

Hyper3D by Deemos: Introducing #Rodin Gen-2.5🚀 🔥World's 1st 10 MILLION polygon #3D GenAI - down to skin microstructures. 1️⃣1M-poly in 4s...

产品更新图像生成多模态
20:08
Berryxia.AI@berryxia
70
本地AI生图"意外"加速,Draw Things新发现

在开源生图软件Draw Things中,一项意外发现显著提升了本地AI生图速度。将原为Z-Image Base训练的Z-Image-Fun-Lora-Distill与Z Image Turbo搭配使用后,原本需要8-9步的生成过程可缩减至3-4步,大幅缩短了本地生成时间,同时保持了画质与细节的稳定。这一组合有效突破了此前本地生图速度较慢的限制。

Draw Things: 🔍 An interesting discovery! 🧩 Z-Image-Fun-Lora-Distill from alibaba-pai was originally trained for Z-Image Base, with ...

图像生成开源生态教程/实践
12:32
PixVerse@PixVerse_
16
体型不是一切!仓鼠在奥运会上举重超过了河马!
图像生成行业动态视频
12:06
Kling AI@Kling_ai
47
Kling AI戛纳展示全流程AI动画制作

Kling AI展示了其在动画《生来如潮》中全流程应用AI技术的实践。该项目以疍家文化为背景,利用Kling AI辅助完成了从美术指导、环境设计到角色动作、电影镜头规划等关键环节。通过AI驱动的动画制作,项目降低了制作门槛,减少了对大规模团队和漫长制作周期的依赖,使高质量、史诗级的视觉叙事变得更高效、更易扩展,指向了更具敏捷性和创作自由度的动画未来。

图像生成行业动态视频
11:34
Rohan Paul@rohanpaul_ai
73
SenseNova U1开源发布,革新原生多模态生成

商汤科技SenseNova U1已开源发布。其核心创新在于原生多模态统一建模,将视觉、语言与图像生成视为一个统一问题,而非分立模块的链式处理,从而减少了信息损失。该模型采用MoT架构(38B-Active 3B MoE),在生成信息图、海报、漫画等结构复杂的密集图文内容时能保持高度一致性。详细的技术报告披露了其包括近无损视觉接口、联合训练策略在内的完整构建方案,为行业提供了前沿参考。

SenseTime: 🔥 New week, New SenseNova-U1 Drop - and this one goes Deep!🔥 📄 The full Technical Report is OUT - the most detailed d...

图像生成多模态开源生态模型发布
05:44
OpenAI@OpenAI
精选70
人们每周在ChatGPT中生成超过15亿张图像。 研究员 @kenjihata 与产品负责人 @adele__li 及主持人 @AndrewMayne 一起,探讨自 Images 2.0 发布以来出现的新用例和趋势。
OpenAI图像生成现象/趋势

推荐理由:OpenAI 首次把内部图像生成数据摊开聊,每周 15 亿张的量级说明这功能已经不是玩具了,做图像产品的可以对着用例风向调方向。
05:08
Replit ⠕@Replit
37
隐秘的干预、互动装置、为其他艺术家打造的工具。@kcimc 的实践存在于机器学习、计算机视觉与社会技术的交汇处。 在 Vibecon 首日观看他的新互动装置。 纽约,6月17-18日。 购票请访问 http://vibecon.ai
图像生成行业动态
02:55
AYi@AYi_AInotes
80
Google Gemini Omni重新定义视频生成

Google推出Gemini Omni,首个面向消费者的世界模型。它通过自然语言交互,将Gemini的智能与生成媒体系统结合,实现了对物理规律、历史、生物等世界的深刻理解。用户可以像编辑ChatGPT文本一样用单句指令编辑视频,实现人物一致性、风格迁移、角度调整等功能。它不是单纯生成像素,而是模拟连贯的物理与语义世界,标志着AI视频生成从拼接工具向智能创作系统的飞跃。

Google DeepMind: We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....

DeepMindGoogle图像生成多模态
02:13
OpenAI@OpenAI
52
我们正在为人们提供识别AI生成图像并了解其来源的新方法。 除了C2PA内容凭证外,图像现在还包含SynthID水印,并可通过公开验证工具检查图像是否由OpenAI产品制作。 https://openai.com/index/advancing-content-provenance/
OpenAI产品更新图像生成安全/对齐
01:27
Krea@krea_ai
精选73
Krea 2深度解析。 学习如何使用风格参考、情绪板,以及如何用Krea 2进行提示。

Krea: today, Krea 2 goes live to everyone. to celebrate, we're offering unlimited Krea 2 generations to all our subscribers fo...

产品更新图像生成

推荐理由:Krea 2 正式全量发布,这个 deep dive 把风格参考和情绪板玩法讲得很透,做视觉内容的朋友今天就能用上。
5月19日
10:34
向阳乔木@vista8
74
AI批量生成艺术风格,一键浏览380+大师作品

作者利用GPT-Image-2模型,批量生成了超过380位艺术家的画风作品。为便于直观学习和借鉴(用于AI生图提示),他创建了一个可体验的网站,将蒙德里安、葛饰北斋等不同风格的创作并置展示,帮助用户快速建立对艺术风格的认知。该项目代码已在GitHub开源。

GitHub图像生成开源/仓库
08:49
🚨 AI News | TestingCatalog@testingcatalog
68
谷歌I/O 🔥:这些传奇人物是通过即将推出的Gemini Omni模型生成的AI图像。 > 两段视频均为8秒高清样本。 > 与Sundar和Demis相关的视频很可能是使用Omni进行风格编辑的图像转视频生成。 > Logan的视频则可能是"相似度"虚拟形象与Omni视频的结合。 而"GEMINI"意味着新模型的发布!🤯

Logan Kilpatrick: Gemini

Google图像生成多模态模型发布
03:50
Claude@claudeai
精选75
现在你可以用 Claude Design 创作更多内容了。 我们已将所有套餐的 token 限制翻倍。
Anthropic产品更新图像生成多模态

推荐理由:Claude Design 令牌加倍,做图做设计的人现在可以更放肆地挥霍上下文了,Anthropic 这波更新把设计工具的可用性拉高了一个档次。
02:12
Rohan Paul@rohanpaul_ai
57
HiDream开源8B参数统一架构图像模型,挑战传统扩散管线

HiDream开源了8B参数的HiDream-O1-Image模型,其核心创新在于采用像素级统一变换器,用单一架构直接处理原始图像块、文本与任务条件,将文本生成图像、编辑、个性化等任务统一为上下文生成,无需传统的VAE和文本编码器管线。该模型内置推理提示代理,能原生支持最高2048×2048的高分辨率合成。在性能上,它在参数量仅为部分同类模型三分之一的情况下,达到了可比的水平,尤其在文本渲染任务上表现出色,结果接近更大规模的模型。

图像生成开源生态推理模型发布
00:56
Berryxia.AI@berryxia
62
xdm,这件事其实比看起来更值得注意。

AI绘画工具Krea 2.0发布了保持人物、风格与构图高度一致性的功能。这不仅是技术升级,更标志着创作范式的转移:创作者的核心工作从反复调试单张图像的提示词,转向如何运用多张一致图像进行序列化思考与构建完整视觉叙事。当“单图生成”变得容易,叙事能力便成为更稀缺的优势。目前该功能已向所有用户开放并有限时免费活动,正加速这种创作方式的普及。

Krea: today, Krea 2 goes live to everyone. to celebrate, we're offering unlimited Krea 2 generations to all our subscribers fo...

图像生成大佬观点
00:20
Elon Musk@elonmusk
50
xAI更新了Grok的Agent模式,这被视为其能力的一次重大提升。该模式显著简化了AI视频创作流程。基于Grok Imagine,创作者能更流畅地制作视频,并借助Grok的理解能力完成素材生成与对话,无需额外配音,极大节省了时间成本。据早期测试,生成视频的写实效果良好,且图片参考等功能增强了实用性。这标志着AI在自动化、高质量内容生成领域取得了新的进展。

Déborah: I've finished a video of just over 4 minutes, entirely created using Grok Imagine's Agent mode (see image). It's a much ...

智能体xAI产品更新图像生成
5月18日
23:13
Kling AI@Kling_ai
19
视角:把我的朋友变成视频游戏加载界面 ⌛️
其他图像生成视频
22:37
Krea@krea_ai
精选78
今天,Krea 2正式向所有人开放。 为庆祝上线,我们将为所有订阅用户提供整整一周的无限次Krea 2生成服务。 免费试用 👇
产品更新图像生成

推荐理由:Krea 2 正式开放,新版本性能值得关注,尤其免费一周无限生成,做视觉设计的可以趁现在使劲造图,试试成片质量能不能撼动 Midjourney。
18:02
向阳乔木@vista8
69
哈哈哈,都被Spotify 的迪斯科Logo晃瞎眼了。 海外X都在发自己产品设计这种风格 Logo。 反推个GPT-Image-2提示词: 为【品牌名】生成一个高级 3D App 图标,圆角方形底板,玻璃与金属铬材质,迪斯科球镜面马赛克小方块质感,闪亮高光,柔和工作室灯光,干净极简背景,高端产品图标风格,Blender 3D 渲染,超精细 --- 英文版: A premium 3D app icon for 【Product Name】, rounded square tile, glossy glass and chrome material, disco-ball mosaic mirror tiles, sparkling highlights, soft studio lighting, clean minimal background, high-end icon, Blender 3D render, ultra detailed
OpenAI图像生成教程/实践
13:42
Kling AI@Kling_ai
51
世界杯倒计时开始⚽ 穿上你的球队球衣,一键尝试Kling AI的新特效!
产品更新图像生成多模态视频
11:19
Elon Musk@elonmusk
同事件精选74
Grok Imagine 现已向所有 X Premium+ 订阅者开放 这是我们的图像生成模型,由 xAI 开发
xAI产品更新图像生成多模态
同一事件,精选展示《xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)》
推荐理由:below_threshold:T2 推文门槛 75,当前 finalScore=74
10:47
DogeDesigner@cb_doge
47
Grok Imagine在第一季度仅网页端访问量就突破1.5亿次。 这些仅是网页数据,甚至未包含移动应用使用量。 Grok Imagine生成的图像和视频数量也超过其他所有平台总和。 网页端体验地址:http://grok.com/imagine
xAI图像生成行业动态
‹ 上一页
1…89101112…18
下一页 ›