we're hosting our first Community Spaces tomorrow! join us through X Spaces to chat about updates coming to Krea 2, shar...
we're hosting our first Community Spaces tomorrow! join us through X Spaces to chat about updates coming to Krea 2, shar...
团队小伙伴受到 Zara 的启发,闲暇时间搞了一个 Magic Slide 项目(终于发了,其实早就搞出来了),解决了日常 Slide 产出问题,欢迎大家一起体验,转场和效果非常丝滑!联网和部分模型使用我们自己的网关 PIPELLM 完成,...
2026年6月,摩纳哥将举办首届AI电影节,标志着人工智能与电影叙事的深度融合。阿里云作为合作方,强调其云与AI基础设施(从基础模型训练到大规模实时渲染)致力于赋能创作者,为电影人、艺术家提供实验与实现大胆创意的工具,共同探索由AI技术驱动的电影制作新范式。
Grok展示了AI深度介入游戏开发的全新工作流。通过“提示词生成角色图→图片转动画视频→自动拼接成Spritesheet→导入引擎”四步流程,将传统需要美术与动画师耗时数天的工作,在几分钟内完成。这标志着AI不再仅生成静态内容,而是能实时生成可直接导入Unity或Godot等游戏引擎的可运行资产。该技术极大压缩了游戏原型的迭代周期,将反馈循环从“天”缩短至“秒”,使得独立开发者也能快速实现创意,显著降低了游戏创作的门槛。
Prototyping game assets directly with Grok @imagine
Google Omni vs Seedance 2.0 😳 Olympic Diving Test - Seedance 2.0 also wins this test!🔥 Prompt👇 Female Olympic diver f...
Midjourney 创始人透露,团队因使用 TPU + JAX 训练、GPU + PyTorch 推理的混合技术栈,导致工具链断裂、调试困难,且无法利用开源社区丰富的 PyTorch 资源,严重拖慢了产品迭代速度。创始人反思,若重新开始会选择基于 NVIDIA 的统一方案。对比之下,其他文生图模型在功能上发展迅速,Midjourney 虽在风格艺术性上仍有优势,但在核心功能竞争上已显疲态。
Introducing the World's First Meme-powered Game Where you can be anyone, and Fight your colleague Fight your friends Fig...
商汤科技近日开源了SenseNova U1,其核心创新在于架构设计。该模型摒弃了传统的视觉编码器与变分自编码器分离结构,采用单一共享表示空间原生处理图像与文本,极大减少了模块间转换导致的信息损耗。这一设计使模型能够连贯地同时生成图文内容,在信息图、海报、漫画等需要高一致性的密集视觉内容创作上优势显著。性能方面,其信息图生成速度在同等质量下约为Qwen-Image-2.0/Seedream-4.5的两倍。
Midjourney创始人暗示他们被Google的 TPU坑了 白白浪费了一年时间… 如果回到过去他会选择英伟达的GPU🤣 “这大概让我们的研究进度,比起一开始就完全采用 Nvidia 技术栈,落后了差不多一年。并不算特别理想。如果我能回到过去,我会从第一天开始就全部使用 Nvidia 的方案。”
@bubbleboi it probably put our research a year behind where it could have been if we were pure Nvidia stack, not totally...
谷歌与创作者合作推出系列AI工具更新。Google Workspace新增图像创作编辑工具Pics;Google Flow支持Gemini Omni Flash模型,并推出Flow Agent作为多步骤创作伙伴;设计工具StitchbyGoogle支持实时文字或语音编辑布局并导出代码;音乐工具Google FlowMusic增加分段编辑、风格混音及视频生成功能。
关联讨论 1 条X:Google AI for Developers (@googleaidevs)Google promised that Gemini Omni Flash would change the game, but when you put it side-by-side with Seedance 2.0... it's...
推文分享了在通关《黑神话:悟空》后,对游戏中小西天场景原型——山西临汾隰县小西天悬塑艺术的震撼与实地探访。一个团队通过实地拍摄数千张照片,使用 Gaussian Splatting (3DGS) 技术,将其建成了一个可在线漫游的 3DGS 数字存档。该模型旨在保留明代悬塑密集的金色空间、细节与光感,让观众得以在屏幕前细细欣赏这一通常因平面印刷限制而难以被充分展现其震撼力的艺术瑰宝,并配有专门音乐。
小西天,看着像视频,但其实是我们在现场实地拍摄 3,811 张 206 GB 的照片后建模的。FUNES 把《黑神话:悟空》里「既见未来,为何不拜」满天神佛的原型,来自自山西临汾隰县的小西天,做成了一个可漫游的 3DGS 数字存档。 完全实...
AI 3D生成模型Rodin Gen-2.5发布,号称全球首款能实现千万级面数的同类产品,材质纹理精细。该模型可从单张图片生成高质量3D资产,快速输出obj等通用格式文件供进一步编辑,极大地简化了传统建模、绑骨、贴图的复杂流程。其技术亮点包括原生3D贴图算法,旨在为游戏、动画、影视等产业提供真正的生产力工具。
Introducing #Rodin Gen-2.5🚀 🔥World's 1st 10 MILLION polygon #3D GenAI - down to skin microstructures. 1️⃣1M-poly in 4s...
在开源生图软件Draw Things中,一项意外发现显著提升了本地AI生图速度。将原为Z-Image Base训练的Z-Image-Fun-Lora-Distill与Z Image Turbo搭配使用后,原本需要8-9步的生成过程可缩减至3-4步,大幅缩短了本地生成时间,同时保持了画质与细节的稳定。这一组合有效突破了此前本地生图速度较慢的限制。
🔍 An interesting discovery! 🧩 Z-Image-Fun-Lora-Distill from alibaba-pai was originally trained for Z-Image Base, with ...
Kling AI展示了其在动画《生来如潮》中全流程应用AI技术的实践。该项目以疍家文化为背景,利用Kling AI辅助完成了从美术指导、环境设计到角色动作、电影镜头规划等关键环节。通过AI驱动的动画制作,项目降低了制作门槛,减少了对大规模团队和漫长制作周期的依赖,使高质量、史诗级的视觉叙事变得更高效、更易扩展,指向了更具敏捷性和创作自由度的动画未来。
商汤科技SenseNova U1已开源发布。其核心创新在于原生多模态统一建模,将视觉、语言与图像生成视为一个统一问题,而非分立模块的链式处理,从而减少了信息损失。该模型采用MoT架构(38B-Active 3B MoE),在生成信息图、海报、漫画等结构复杂的密集图文内容时能保持高度一致性。详细的技术报告披露了其包括近无损视觉接口、联合训练策略在内的完整构建方案,为行业提供了前沿参考。
🔥 New week, New SenseNova-U1 Drop - and this one goes Deep!🔥 📄 The full Technical Report is OUT - the most detailed d...
Google推出Gemini Omni,首个面向消费者的世界模型。它通过自然语言交互,将Gemini的智能与生成媒体系统结合,实现了对物理规律、历史、生物等世界的深刻理解。用户可以像编辑ChatGPT文本一样用单句指令编辑视频,实现人物一致性、风格迁移、角度调整等功能。它不是单纯生成像素,而是模拟连贯的物理与语义世界,标志着AI视频生成从拼接工具向智能创作系统的飞跃。
We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....
today, Krea 2 goes live to everyone. to celebrate, we're offering unlimited Krea 2 generations to all our subscribers fo...
作者利用GPT-Image-2模型,批量生成了超过380位艺术家的画风作品。为便于直观学习和借鉴(用于AI生图提示),他创建了一个可体验的网站,将蒙德里安、葛饰北斋等不同风格的创作并置展示,帮助用户快速建立对艺术风格的认知。该项目代码已在GitHub开源。
Gemini
HiDream开源了8B参数的HiDream-O1-Image模型,其核心创新在于采用像素级统一变换器,用单一架构直接处理原始图像块、文本与任务条件,将文本生成图像、编辑、个性化等任务统一为上下文生成,无需传统的VAE和文本编码器管线。该模型内置推理提示代理,能原生支持最高2048×2048的高分辨率合成。在性能上,它在参数量仅为部分同类模型三分之一的情况下,达到了可比的水平,尤其在文本渲染任务上表现出色,结果接近更大规模的模型。
AI绘画工具Krea 2.0发布了保持人物、风格与构图高度一致性的功能。这不仅是技术升级,更标志着创作范式的转移:创作者的核心工作从反复调试单张图像的提示词,转向如何运用多张一致图像进行序列化思考与构建完整视觉叙事。当“单图生成”变得容易,叙事能力便成为更稀缺的优势。目前该功能已向所有用户开放并有限时免费活动,正加速这种创作方式的普及。
today, Krea 2 goes live to everyone. to celebrate, we're offering unlimited Krea 2 generations to all our subscribers fo...
I've finished a video of just over 4 minutes, entirely created using Grok Imagine's Agent mode (see image). It's a much ...