AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 658 条
全部一手资讯X论文
标签「视频」清除
DogeDesigner@cb_doge · 6月4日70

SpaceXAI keeps raising the bar. 🔥 Grok Imagine Video 1.5 preview is now live on the API, and the results look insanely cinematic. 📽️ Go try it yourself. 💻 Godspeed SpaceXAI. 🚀

译SpaceXAI 不断刷新标准。🔥 Grok Imagine Video 1.5 预览版现已上线 API,效果看起来极为电影感。📽️ 去亲自试试吧。💻 祝 SpaceXAI 好运。🚀

Runway@runwayml · 6月4日73

Use Aleph 2.0 to turn any video into a green screen asset or clean plate, no rotoscoping required. Learn how with today's Runway Academy.

译使用 Aleph 2.0 将任何视频转换为绿幕资产或干净底板,无需旋转描摹。通过今天的 Runway Academy 学习操作方法。

fofr@fofrAI · 6月3日55

> Change the screen so it shows that she's on a facetime call

译更改屏幕,使其显示她在FaceTime通话中。

PixVerse@PixVerse_ · 6月3日55

PixVerse CPP 2.0 is live. A global creator program with membership, credits, and a $2,500 weekly cash prize pool. AI video is moving fast — and we're rewarding the ones leading it. Follow + Reply + RT for quick access in DMs

译PixVerse CPP 2.0 已上线。 全球创作者计划,含会员、积分,以及每周 2500 美元现金奖池。 AI 视频发展迅速——我们正在奖励引领者。 关注 + 回复 + 转发,私信获取快速访问。

Alibaba Cloud@alibaba_cloud · 6月3日30

Wan 2.7 is now available on @AskVenice! Your credits go further on every generation.

译Wan 2.7现已在@AskVenice上线!您的积分在每次生成中能发挥更大价值。

向阳乔木@vista8 · 6月3日65

http://x.com/i/article/2062080260586283008 # xAI 视频多模态负责人访谈:视频模型的天花板,其实是语言模型 一个在英伟达造出 Cosmos 世界模型、又在 xAI 三个月从零搭出 Grok Imagine 的人,离职时说的理由是:视频模型最大的瓶颈,其实是语言模型。 Laten Space最近访谈了Ethan He,内容很不错,让AI转写一篇文章。 > https://www.latent.space/p/video-agents ## 他是谁,做过什么 Ethan He 是一位多模态 AI 研究员,职业轨迹横跨图像识别、自监督学习、大规模模型训练和视频生成。 在英伟达期间,他是 Cosmos 视频基础模型的核心作者之一。 Cosmos 是一个大规模视频生成模型,目标是模拟物理世界,作为机器人研究的基础底座,于 2024 年底发布。 2025 年中,他加入 xAI,主导 Grok Imagine 的视频和多模态方向,包括: - 音频视频联合生成(Grok Imagine 0.9) - 视频扩展(Video Extension,支持完整历史上下文的长视频生成) - 参考视频生成(Reference-to-Video,支持上传最多 7 张图片作为角色或场景条件) - 内部世界模型团队(专注实时长时程视频生成) 访谈时他刚刚离开 xAI,准备转向语言模型方向的研究。 ## 三个月从零到视频模型,靠的不是算法 加入 xAI 时,团队没有数据、没有基础设施、没有现成模型,只有几个工程师。 三个月后 Grok Imagine 0.9 发布。 他总结了两个关键因素。 第一是人的密度,而非人的数量。 团队里每个人都很强,目标高度一致,沟通成本极低。 每天只有一个例会,其余时间全部用来构建。 他的观察是:小团队减少沟通带宽,反而比大团队更容易快速迭代。 第二是迭代速度,而非单次训练质量。 他的核心判断是:训练模型最重要的指标,不是某次实验的结果有多好,而是每天能跑多少轮实验。 迭代越快,发现 bug 的机会越多。 而且他特别强调:模型质量最大的提升,往往不来自新算法,而来自数据管道和训练流程里那些不起眼的小 bug。 这听起来有点怪,但这是他在英伟达和 xAI 两次从零搭建视频模型的共同经验。 他还提到一个时间节点:2025 年中加入时,代码模型还不够好,写出来的代码经常是几千行的"意大利面条",连模型自己都搞不清楚怎么维护。 到 2025 年 12 月,代码模型已经强到可以快速实现任何想法。 这带来了一个新的瓶颈反转:以前是写代码慢,现在是算力跟不上想法的速度。 代码几小时就能写完,但训练一个新模型可能要等好几周。 ## 视频模型是怎么炼出来的:完整路径 第一步:先训图像模型,再训视频模型 原因很实际,图像比视频便宜得多,而且语言和图像之间的对应关系更密集。 举个具体数字:训练 10 亿张图文对,和训练 10 亿个视频文本对,成本完全不在一个量级。 但前者能给模型打下更扎实的语言理解基础。 视频模型对语言的理解,完全来自这种文本到视觉内容的映射关系。 如果映射数量不够,模型就不能充分理解人类意图。 所以标准做法是:先训图像扩散模型,再用它作为基础,迁移到视频模型。 第二步:解决数据对齐问题 互联网上的视频天然缺少精准的文字描述。 YouTube 上的标题和评论,和视频内容本身几乎没有关联。 一段山川自然风光,标题可能是"今天真开心",二者毫无关系。 所以必须用 VLM(视觉语言模型,能同时理解图像和文字的 AI 模型)给视频打字幕,生成合成的文本视频对。 但 VLM 本身在早期也需要人工标注来冷启动。 Cosmos 的标注要求非常具体:描述要详细到让一个盲人听完文字,就能在脑海中重建出这段视频。 所有物体、角色、互动、对话,都要覆盖。 这个标准直接决定了后来视频模型能不能真正理解人类意图。 第三步:训练 VAE(变分自编码器,一种把图像压缩成低维表示再还原的压缩器) 原始视频帧的像素量太大,1000×1000 的图像就有 100 万个像素,Transformer(一种主流的 AI 模型架构)根本无法直接处理。 VAE 把图像映射到一个低维的连续潜空间(latent space,可以理解为图像的"压缩编码"),再从潜空间还原回图像。 具体做法是把图像切成小块(patch),每个小块映射成一个向量,这样一张图就变成了几十个向量,而不是 100 万个像素。 时间维度的压缩比例是个关键决策。 Wan 2.1 采用 8×8×4 的压缩率,时间维度压缩 4 倍,上下文长度大幅缩短,训练效率更高。 但代价是实时性:如果要做实时交互,时间维度的压缩会引入固定的延迟,无法做到即时响应。 如果不压缩时间维度,只做帧内压缩(8×8×1),上下文长度会是 4 倍压缩方案的 4 倍,计算量大得多,但可以支持帧级别的实时输出。 第四步:训练扩散 Transformer(Diffusion Transformer) 流程和语言模型非常相似,区别只是输入输出换成了视觉 token(图像的压缩表示),以及加入了去噪过程:向视觉 token 加入随机噪声,训练模型把噪声去掉,推理时从纯噪声开始迭代生成干净的图像或视频。 推理侧的主要优化手段是步骤蒸馏(Step Distillation):用完整模型跑 100 步生成高质量结果,再训练一个只需要 10 步的小模型去模仿它。 这背后的逻辑是:完整模型要学的是整个互联网的图像分布,极其复杂,蒸馏模型只需要学老师模型的分布,简单得多。 Cosmos 的生产版本已经可以做到 4 步甚至 1 步生成(针对图生图等简单任务)。 ## 训练一个视频模型到底要花多少钱 Ethan He 做了一个粗略的估算,数字很有参考价值。 模型规模: 视频模型和中等规模语言模型相当。 LTX 是 19B(190 亿)参数的稠密模型,也有人在探索 MoE(混合专家模型,一种让模型只激活部分参数的架构),激活参数约 20B,总参数可能达到数百 B。 Cosmos 公开披露的视觉 token 数量也在数十万亿量级,和语言模型的训练规模接近。 存储成本: 假设有 10 亿个视频,每个视频 5MB,光存储就需要 5PB(5000TB)。 加上 VAE 提取的特征文件,总存储量翻倍,达到约 10PB。 在 AWS S3 标准存储上,5PB 的月存储费用约 23 万人民币,加上数据出口费用,每月总成本可能达到数百万人民币,还没算 GPU 训练成本。 他特别提到:数据出口费用(把数据从云端传输出去的费用)比存储本身更贵。 每次训练都需要把数据拉取一遍,如果多次训练,费用成倍叠加。 这也是为什么大规模训练团队通常会自建存储基础设施,而不是完全依赖公有云。 I/O 瓶颈: 视频训练天然是 I/O 密集型任务,数据加载速度很容易成为 GPU 利用率的瓶颈。 Ethan He 在英伟达做 Cosmos 时专门做了大量 I/O 优化。 ## 世界模型的定义:三个缺一不可的条件 Ethan He 给世界模型下了一个工程意义上的定义,三个维度。 交互性: 模型可以响应键盘、鼠标、语音等多种输入,并给出合理的反馈。 实时性: 响应延迟要足够低。 CS 职业选手需要亚 3 毫秒的响应(300FPS 对应约 3 毫秒每帧),60FPS 游戏需要 16 毫秒,实时语音交互的容忍上限大约是 200 毫秒。现有视频模型大多达不到这个要求。 长时程: 不是生成几秒钟的片段,而是能持续生成几分钟甚至几小时的内容,同时保持角色、场景、声音的一致性。 三个条件同时满足,才算世界模型。 目前的视频模型在任何一个维度上都还有很大差距。 长时程的工程难题 Cosmos 里 5 秒视频就有约 55K 到 60K 个 token,50 秒就是 500K token,再长就很难处理。 现有视频模型的上下文窗口大约在几百万 token 量级,但实际使用中很快就会爆炸。 Ethan He 在 xAI 主导的视频扩展(Video Extension)功能,是迈向长时程的第一步:让模型在生成下一段视频时,能访问之前所有视频的完整历史上下文,而不只是最后一帧或最后一秒。 这解决了多次扩展后视频质量退化、人物声音漂移的问题。 参考视频(Reference-to-Video)是另一个折中方案:允许用户上传最多 7 张图片作为条件,让模型在生成时参考特定角色或场景。 Ethan He 自己也承认这是个"作弊"方案,真正的解法是让模型自己学会从历史中选择性地提取相关上下文。 FramePack(一篇论文提出的方法)提供了一个启发式思路:最近的历史保留完整分辨率,越早的历史压缩得越小,总 token 数保持固定上限。 这和人类记忆的工作方式有些相似,但 Ethan He 认为更理想的状态是让模型自己决定哪些历史值得保留,而不是靠人工设计的规则。 ## 视频模型最大的进步,来自语言模型 这是整个访谈里最反直觉的判断,也是 Ethan He 离职的核心原因。 扩散模型本身其实很"笨" 扩散模型(Diffusion Model,一种通过去噪生成图像或视频的模型)在训练时被要求按照极其详细的文字描述生成视频,所以推理时也会字面理解用户的输入。 你说"一只猫",它就生成一只猫,白色背景,静止不动,因为你没说背景,没说动作。 它取的是训练数据里那种极度详细的描述风格,用户的简短输入和这个分布完全不匹配。 提示词重写器才是真正的智能来源 真正让模型变聪明的,是提示词重写器(Prompt Rewriter),一个更大的语言模型,负责把用户的简单描述扩展成极其详细的视频描述。 Cosmos 用的是 Llama 或 Mixtral,而且提示词重写器比视频扩散模型本身(7B 参数)还要大。 他举了一个具体例子:同样是生成一只快乐的羊,不经过重写,结果看起来像 CGI;经过重写之后,画面质量有质的飞跃,而且这个提升不需要任何联合训练。 GPT Image 生成一张图需要 3 分钟,其中大部分时间不是在生成像素,而是在"思考",也就是提示词重写和规划阶段。 语言模型的角色还在扩展 提示词重写只是第一步。 现在语言模型在视频生成中的角色已经扩展到: - 工具调用: 生成图片前先联网查今天的新闻,处理后再生成 - 智能体协调: 调用视频生成、视频编辑、图像处理、FFmpeg 等多种工具,迭代生成高质量内容 - 布局规划: 决定视频的结构、时间线和内容组织 Grok Imagine 已经有了一个智能体模式的早期版本,可以通过调用不同工具来生成更长的视频。 ## 音频:被低估的难题 Grok Imagine 0.9 是 Ethan He 认为业内首个大规模部署的音频视频联合生成模型。 音频的难点在于它有两个截然不同的成分: - 语音部分: 接近离散 token(可以理解为有限词汇表里的单词),可以用类似语言模型的方式处理 - 音乐部分: 完全连续,无法离散化,现有语言模型对音乐的理解非常有限 让语言模型描述音乐细节,就像让盲人描述颜色一样困难。 大多数语言模型可以识别"这是哪首歌",但无法描述音乐的节拍、音调和细节,更无法生成高质量的音乐。 更大的挑战是时间对齐。 文本和图像之间的对应是松散的,你可以用一段话描述整张图。 但音频和视频必须在时间轴上精确对齐:哪一秒有什么声音,必须和画面严格同步。 这种精确的时间感知,是现有多模态模型普遍缺失的能力。 ## 生成式 UI:扩散模型作为前端 访谈中展示了两个产品案例,代表了 Ethan He 对未来交互方式的判断。 Flipbook: 一个用图像生成模型实时渲染的浏览器界面。 页面里的所有内容都是模型生成的,公司不存在,场景是虚构的。 用户点击链接,模型就生成新的子页面。 比如点击"金字塔建造技术",模型会生成一个详细介绍杠杆技术的新页面,配有对应的生成图像。 Neural OS(神经操作系统): 用视频模型模拟一个完整的操作系统,可以运行 Doom、Firefox 等应用,所有画面都是模型实时生成的。 Ethan He 的预测是:随着推理成本下降,扩散模型会成为人机交互的前端层,语言模型和确定性代码在后端运行,用户看到的所有界面都由生成模型实时渲染。 每个用户可以有完全不同的界面,邮件可以像 TikTok 一样滑动,Instagram 可以去掉你总是误触的点赞按钮。 他估算了一下成本:如果每 100 个请求 1 美元,每天用 8 小时,每月大约 240 美元。 现在确实贵,但推理成本每年大约下降 2 倍,他认为这个未来会到来。 他还提出了一个关于人机带宽的判断:人类的最大输入带宽是视觉(看),最大输出带宽是语音(说)。 所以未来最自然的人机交互方式,是用户说话,AI 用生成式画面回应,这是神经链接(Neuralink)出现之前的最高带宽交互形式。 ## 为什么离开 xAI Ethan He 的回答很直接:有些研究在公司里做不了,而且公司的优先级会快速变化。 他想做的,是语言模型方向的研究,特别是模型如何自主管理自己的上下文。 他的具体预测是:语言模型很快会出现真正的上下文感知能力,模型知道自己的上下文窗口用了多少,能主动决定压缩、丢弃或保留哪些内容,而不是依赖外部 harness(智能体框架,一种包裹模型的工程系统)的启发式规则。 他举了一个例子:现在 Claude(Anthropic 的 AI 模型)在上下文接近上限时会自动触发压缩,但模型本身对这个过程毫不知情,还在按照原来的方式工作。 理想状态是模型自己感知到"我快到上限了",并主动调整策略。 他认为视频模型在这方面的探索某种程度上比语言模型更超前,因为视频的长时程问题更紧迫,研究者被迫更早面对这个问题。 他还提到一个更激进的想法:如果把智能体框架的代码直接放进模型的上下文,让模型能够修改自己的运行规则,比如决定"读长文档时我要分块处理还是只读前 200 行",这种自我修改的智能体框架可能是一个值得探索的方向。 ## 职业轨迹:每一次转型都是主动押注 Ethan He 的职业路径本身也值得单独说一下。 十年前他在做 ResNet(残差网络,一种经典的图像识别模型架构)时代的图像识别和目标检测研究,同时做模型压缩。 他当时想当教授,已经有几篇顶会一作论文,自信地申请了顶校博士,结果全部被拒。 被迫进入工业界,反而让他在 Facebook FAIR(Meta 的 AI 研究院,由 Yann LeCun 领导)做了自监督学习,之后到英伟达做 Cosmos 和 MoE(混合专家模型)扩展,再到 xAI 做视频多模态。 他在英伟达的另一个重要工作是 Megatron MoE,这是第一个开源的、能够高效训练超大规模 MoE 模型的框架,支持从 1000 亿参数到万亿参数的训练,MFU(模型浮点利用率,衡量 GPU 利用效率的指标)达到约 40%。 他的结论是:在机器学习内部切换方向,比大多数人想象的容易。训练大模型的核心原则是通用的,换个方向并不需要从零开始。 很多人觉得"我做计算机视觉,就只能做计算机视觉",但他的经验证明这个边界没有那么硬。 ## 关键判断汇总 ## 局限性和没说清楚的地方 这篇访谈有几个地方值得注意: 信息不对称: Ethan He 在涉及 Grok Imagine 具体架构时多次说"不方便评论",比如它是否是端到端扩散模型还是语言模型加扩散头的组合。这意味着一些关键技术细节仍然不透明。 成本估算是粗略的: 他的存储和训练成本计算是信封背面的估算,实际情况会因数据规模、训练次数、基础设施选择而有很大差异。 "语言模型是瓶颈"这个判断有边界: 他承认扩散模型本身的改进仍然重要,只是说在当前阶段,语言模型的改进带来的增益更大。这不等于视频模型架构研究没有价值。 世界模型的定义是他个人的: 他在访谈开头就声明,世界模型有很多定义,他只是分享自己的视角,不打算辩论谁对谁错。 本文根据 Latent Space 播客对 Ethan He 的访谈整理重写。 Ethan He 曾任英伟达 Cosmos 视频基础模型核心作者,xAI Grok Imagine 视频多模态负责人。

译xAI前视频多模态负责人Ethan He在离职转向语言模型研究时表示,视频模型最大的瓶颈是语言模型。他曾在NVIDIA参与Cosmos模型开发,并在加入xAI后三个月内从零搭建出Grok Imagine 0.9。他指出训练视频模型成本高昂,例如存储10亿个视频需5PB,仅AWS月费就达数百万人民币。视频模型需先预训练图像模型,再通过VLM生成合成字幕以解决数据对齐问题。当前模型在生成长视频时上下文容易爆炸,而他认为扩散模型对文本的理解过于字面化,对语言意图的深层理解才是突破关键。

PixVerse@PixVerse_ · 6月3日26

🥰

译🥰 [引用 @pinkshihtzu]:当导火索到达雪山山顶时… 像孩子一样看世界。用PixVerse创作它🎈✨ @PixVerse_ #PixVerseChallenge #pixverse

歸藏(guizang.ai)@op7418 · 6月3日49

看来快手确实要分拆可灵单独上市了了。 其实早就该搞,太晚了现在。

Alibaba Cloud@alibaba_cloud · 6月3日47

Narek Hayrapetyan, Head of Video Product, Picsart Launching HappyHorse and Wan models led to a 72% surge in video generations, with users creating over 1M monthly assets and using 6M+ Picsart credits.

译Narek Hayrapetyan,Picsart视频产品负责人 推出HappyHorse和Wan模型后,视频生成量激增72%,用户每月创建超过100万个资产,并使用超过600万Picsart积分。

Saining Xie@sainingxie · 6月3日67

how does the brain build and track an internal state of the world from (possibly incomplete and noisy) visual observations? i believe visual state tracking will be the grand challenge for vision in the coming years, and i hope this benchmark can be a useful starting line. enjoy!

译研究团队推出VSTAT基准测试,用于评估多模态大语言模型(MLLMs)在视频中追踪动态状态的能力。测试任务看似简单,包括计数杯子、识别键入的文字、统计翻页次数等,人类可以轻松完成,但当前MLLMs表现欠佳。该测试旨在推动视觉状态跟踪这一前沿方向的发展,解决模型从不完整、有噪声的视觉观察中建立和更新内部世界状态的核心挑战。

Runway@runwayml · 6月3日73

Aleph 2.0 is now available via the Runway API. Bring precise video editing directly into your apps, products and platforms. Edit up to 30 seconds of video at 1080p across multi-shot sequences, changing only what you want. Get started at the link below.

译Aleph 2.0 现已通过 Runway API 提供。将精准视频编辑直接集成到您的应用、产品和平台中。支持在多镜头序列中编辑最长 30 秒、1080p 分辨率的视频,仅修改您想要的部分。 请通过以下链接开始使用。

ViggleAI@ViggleAI · 6月3日27

From character creation to mocap and retargeting, it's amazing watching creators turn ideas into playable experiences with @Viggle_PINOC . Can't wait to see what's next!

译从角色创建到动捕和重定向,看到创作者们用@Viggle_PINOC将想法转化为可玩体验,真是太棒了。期待接下来的发展!

Kling AI@Kling_ai · 6月2日21

Who’s your favorite World Cup team? Generate a cheering dance video for them! 🎉

译你最喜欢的世界杯球队是哪支?为他们生成一段助威舞蹈视频吧!🎉

ginobefun@hongming731 · 6月2日55

从 Markdown 文稿到视频:Cursor + Remotion+ FFmpeg

Rohan Paul@rohanpaul_ai · 6月2日65

Most video models look better than they understand and Video quality is only the easiest thing to notice. LongCat just released WBench, it turned video world model testing from a beauty contest into a stress test for control, multi-turn memory, instruction-following, and physical plausibility. It exposed the gap between beautiful video generation and controllable world simulation. A pretty clip is not enough, because a usable world model must keep the same scene, obey later actions, move the camera correctly, preserve objects, and avoid impossible cause-and-effect. WBench tests this with 289 cases, 1,058 interaction turns, 20 models, 5 dimensions, and 22 automatic metrics, covering navigation, subject actions, event edits, perspective switches, and both viewpoints. Across all those 20 evaluated models, the paper finds that no model dominates all dimensions, which means current systems have not yet merged high-quality rendering, reliable control, long-horizon memory, and physical rule-following into one stable capability. Its design separates the world setup from the user action, so researchers can identify whether a failure comes from weak rendering, poor scene setup, bad control, lost state, or broken physics. Navigation has near-zero connection with visual quality, consistency, or physics, meaning a model can look strong while still failing to move on command. The key shift: stop asking only “does the video look good?” and start asking “can the model keep a controllable world alive across many turns?” 🧵 1.

译美团LongCat发布视频世界模型评测基准WBench。该基准将测试重点从画面美观转向控制、多轮记忆、指令遵循和物理合理性等核心能力。它包含289个案例、1058个交互轮次,评估了20个模型在导航、主体动作、事件编辑等5个维度的表现,共使用22项自动指标。研究发现,没有任何模型能在所有维度上占据主导,这表明现有系统尚未将高质量渲染、可靠控制、长期记忆与物理规则遵循整合为稳定能力。WBench的设计能区分失败是源于渲染、场景设置、控制还是物理问题,并指出导航能力与视觉质量基本无关。

Berryxia.AI@berryxia · 6月2日77

卧槽!Gemink Omini 可以直接制作数字人了啊! 三步搞定、赶紧试试呢! 今天Gemini官方账号发了这条制作自己的数字人的教程! 该功能已经上线:用Gemini Omni创建属于你自己的数字头像(Digital Avatar),它不光外貌像你,连声音都克隆了。 做好后,在视频创作工具里直接选中,就能把自己“放进去”。 具体操作三步走(直接抄作业): 1. 打开Gemini App或网页 http://gemini.google.com 2. 设置菜单里点“Avatar” 3. 跟着提示拍几张照片+录几句语音,系统自动生成你的数字分身 生成完后,在工具栏选你的Avatar,就能直接用在视频里。整个过程对普通用户几分钟搞定,完全不需要专业设备。 最关键的一点:所有用Gemini Omni生成的视频,都会自动嵌入不可见SynthID数字水印。 你随时可以在Gemini App里验证一段视频到底是不是AI生成的、谁生成的。 这一步直接把“深假风险”按死在源头,比很多竞品只喊口号强太多。 为什么这个功能现在特别狠? • 以前AI视频是你指挥AI,现在是你自己变成主角。想做个人vlog、教学视频、品牌 内容,直接把自己塞进去,真实感拉满。 • 对教育、营销、内容创作者来说,这是降维打击:以前要请真人出镜、剪辑,现在自己克隆一个分身24小时待命。

译Gemini Omni现已上线数字头像(Avatar)创建功能。用户可通过Gemini App或网页,按三步流程(拍照、录语音、系统自动生成)创建外观和声音都像自己的数字分身。该功能可直接应用于视频创作,显著降低了制作个人视频内容的门槛。所有由Gemini Omni生成的视频均自动嵌入SynthID数字水印,可用于验证视频是否为AI生成及出处,以技术手段防范深假风险。

swyx@swyx · 6月2日71

This pod was an incredible gift to the community: not only our first pod about @xAI, but Ethan really indulged on all our questions on how to train a SOTA Videogen world model, including specific areas (consistent extending/editing, voice) that Grok @Imagine is *still* SOTA, on top of the factual overviews he ALSO came loaded with opinions/predictions: - why he's quitting Videogen for LLMs: video models get most of their intelligence from LLMs, not from scaling video data - why the next frontier for videogen also happens to be video agent models - agentic models trained to orchestrate video models - why deterministic compression (like MP4) is a useless target vs VAE compression - Videomaxxing: if you truly believe in the "Moore's law" of AI/genmedia, then video models become the final boss UI of everything, like Flipbook (below)

译前xAI世界模型负责人Ethan He在播客中分享了对Grok Imagine及视频生成未来的看法。他指出,视频模型的智能主要来自LLM,而非单纯扩大视频数据规模,因此正从视频生成转向LLM领域。他认为,视频生成的下一个前沿是训练用于编排视频模型的**视频Agent模型**。AI视频的发展将类似编程Agent路径,当前文本到视频仅是“自动补全”阶段。未来,世界模型将变得实时交互,语言模型或成为视频的控制层。

Google Gemini@GeminiApp · 6月2日71

Easily add yourself to your video creations in Gemini. Here’s how to create your own digital avatar that looks and sounds like you with Gemini Omni. 🧵

译轻松将自己添加到Gemini的视频创作中。 以下是如何使用Gemini Omni创建一个外观和声音都像你的数字分身。🧵

Kling AI@Kling_ai · 6月1日32

What if you could pack a cloud in a bag? ☁️ Here’s how we made it with Kling AI.

译如果你能把云装进袋子里会怎样?☁️ 这是我们用可灵AI实现的方式。

Alibaba Cloud@alibaba_cloud · 6月1日37

Ready to race the 24-hour clock? 🎬 Join the 24H AI Film Hackathon at AI Film Fest Monaco 2026 (June 9-10), powered by Alibaba Cloud. Create your AI short film on-site to win credits (3000 USD) and main-stage screenings. Secure your Hackathon spot 👇https://int.alibabacloud.com/m/1000413821/

译准备好与24小时时钟赛跑了吗?🎬 加入2026摩纳哥AI电影节(6月9-10日)的24H AI Film Hackathon,由阿里云支持。现场创作你的AI短片,赢取积分(3000美元)和主舞台展映机会。 立即报名 👇https://int.alibabacloud.com/m/1000413821/

Berryxia.AI@berryxia · 6月1日71

刚刚在Hugging Face刷新模型时,看到KwaiKeye放出了Keye VL 2.0-30B-A3B。 这个多模态模型总参数30B,活跃参数只有3B,Apache 2.0完全开源。 它直接用DeepSeek Sparse Attention实现了256K上下文。 最有意思的是视频理解部分的表现。 你喂给它的帧数越多,模型准确率反而稳步上升。 这和我们以前觉得长视频容易让模型迷失的直觉完全相反。 它在多个长视频基准上已经和Qwen3 VL、Gemini 3 Flash打成平手。 以前大家总觉得多模态模型要么上下文够长,要么理解够深,二者很难兼得。 现在KwaiKeye把稀疏注意力真正落地,把这两件事同时推到一个新水平。 实际效果如何,后面看看真实case册书。

译KwaiKeye开源了多模态大模型Keye VL 2.0-30B-A3B,采用Apache 2.0许可。该模型总参数为30B,但仅激活3B参数。其核心亮点是通过DeepSeek稀疏注意力技术实现了256K的上下文长度。该模型的视频理解能力表现出一个反直觉的特性:喂入的帧数越多,其准确率反而持续上升。在基准测试中,其表现已与Qwen3 VL、Gemini 3 Flash等模型相当。

PixVerse@PixVerse_ · 6月1日7

見ているだけで涼しくなる、夏にぴったりの作品ですね🫧 @Yonohitomi ありがとうございます✨

译看着就感觉很凉爽,是夏天的绝佳作品呢🫧 @Yonohitomi 谢谢✨ [引用 @Yonohitomi]:人鱼耀在海中导览的视频🐬 🪼第一个视频是PixVerse V6 速度感、色彩运用,有种梦幻世界的感觉😆 🪼第二个视频是Seedance2.0 好像也能使用写实风格的照片了。耀的脸没有崩坏就能生成视频,很开心☺️ @PixVerse_ #pixverse PixVerseCPP

DogeDesigner@cb_doge · 6月1日28

One day, anyone will be able to generate an entire movie with Grok.

译有一天,任何人都能用Grok生成一整部电影。

MiniMax (official)@MiniMax_AI · 6月1日78

let's gooo 🔥 M3 + @visionagents_ai for real-time voice & video go build something hype!

译出发吧🔥 M3 + @visionagents_ai 实现实时语音与视频 去构建些令人兴奋的东西吧! [引用 @visionagents_ai]:祝贺 @MiniMax_AI 团队发布 M3! 👉 一款前沿级开源权重模型 👉 100万 token 上下文窗口 👉 原生多模态(图像与视频)

PixVerse@PixVerse_ · 6月1日43

Nice shot from @CharaspowerAI ! He gets it. Great read from someone who clearly understands what real VFX control should feel like. That level of control is the shift with PixVerse C1!

译PixVerse C1在文本生成视觉特效(text-to-VFX)方面展示了强大的能力,提供了前所未有的控制力和电影级画质。用户通过一个复杂的提示词(涉及火山喷发、风暴、镜头运动和爆炸效果)生成了专业级VFX片段,其镜头动态、粒子效果和光照被视为真实的专业VFX制作水平。该模型被认为在控制力和质量上达到了一个全新的层次。

Orange AI@oran_ge · 6月1日45

为她做一个游戏 可能是最好的儿童节礼物

译一位开发者使用AI工作流平台ColaOS,在两周时间内为女儿制作了一款哈利波特主题的专属游戏。整个流程涵盖了故事生成、剧本创作、分镜设计、人物与场景图像生成、转场视频、音效及鼠标特效等完整环节。游戏设计了5种结局,包含收集物品解锁成就及开启下一故事彩蛋的机制。

PixVerse@PixVerse_ · 6月1日35

That battle energy is intense! 🔥 Great use of motion and camera work.

译那战斗能量太强烈了!🔥 动作和镜头运用得非常棒。 [引用 @WuxiaRocks]:Nothing is impossible. It's just a matter if one is willing or not. Made in PixVerse @PixVerse_

PixVerse@PixVerse_ · 5月31日59

Wait, red lines can work like motion paths? This could be a whole new way to guide character movement. 👀

译等等,红线可以像运动路径一样工作?这可能是一种全新的引导角色移动的方式。👀

Odyssey@odysseyml · 5月31日50

Still deciding where to go first.

译还在决定首先去哪里。

PixVerse@PixVerse_ · 5月31日59

PixVerse is now available in 🦞OpenClaw. Create videos with text-to-video and image-to-video directly inside OpenClaw. Huge thanks to @vincent_koc and the @openclaw team for the collaboration. https://docs.openclaw.ai/providers/pixverse

译PixVerse现已在🦞OpenClaw中可用。 可直接在OpenClaw内使用文本生成视频和图像生成功能。 特别感谢@vincent_koc和@openclaw团队的合作。 https://docs.openclaw.ai/providers/pixverse

🚨 AI News | TestingCatalog@testingcatalog · 5月31日74

Grok Imagine Video 1.5 Preview is now available on Grok APIs and has also landed in the top 1 spot on Video Arena. Have you tested it already? 👀

译Grok Imagine Video 1.5 Preview 现已上线 Grok API,并在 Video Arena 排行榜上位列第一。 你已经测试过了吗?👀

DogeDesigner@cb_doge · 5月31日70

NEW: Grok Imagine Video 1.5 Preview just hit #1 in the Image-to-Video Benchmark on Video Arena. A massive +52 point jump over the previous Grok Imagine Video model, beating Seedance 2.0, HappyHorse, and Veo 3.1. xAI is moving fast. 🚀

译新消息:Grok Imagine Video 1.5 Preview 刚刚在 Video Arena 的图生视频基准测试中排名第一。 相比之前的 Grok Imagine Video 模型,分数大幅提升了 52 分,超越了 Seedance 2.0、HappyHorse 和 Veo 3.1。 xAI 进展迅速。🚀

向阳乔木@vista8 · 5月31日49

只需提供一个Suno歌曲的URL,用Codex自动生成音乐MTV。 Codex自动调用生图、组织画面、生成对齐的歌词。 Skill等继续完善后就可以开源了。

Chubby♨️@kimmonismus · 5月30日28

I still find it crazy that no lab has surpassed Seedance 2.0 in text-to-video, even though Seedance 2.0 was released back in February.

译我仍然觉得不可思议,没有实验室在文本转视频领域超越 Seedance 2.0,尽管它早在二月就发布了。

AYi@AYi_AInotes · 5月30日43

Damn,这个是我最近看到的最好的AI视频之一,看的窝鼻子酸酸的😭 也许这就是AI的意义之一吧,把影视作品里我们想看没有拍出来的做出来。 讲的是《黑袍纠察队》里的祖国人、士兵,还有那个孩子,一家三代一起去中国旅行的故事。 看过原片的人应该会挺触动的,这三个人在剧里势同水火,论血缘又是实打实的爷孙三代,但是他们从没好好当过一家人,更不会有这样一个一起出门的清晨。 想起我小时候看完一部喜欢的电影,会趴在桌上接着画后面的剧情,给角色补一个片子里没拍的结局, 那时候只能画在纸上,自己看,谁能想到今天现AI 能让它真的动起来😭 电影拍的是发生过的, AI 拍的是我们希望发生的,或者是哪些意难平的。 今天在B站刷到这个视频,好几个up主都在上传,不知道原作者是谁,但做的真的好啊,作者看到的话来认领下呀

译推文通过《黑袍纠察队》AI视频案例,点明AI意义在于呈现“希望发生的”剧情。核心讨论了AI工具的两条发展路径:以Claude Code为代表的“AI智能体型”(自主运行)与以Cursor为代表的“实习生型”(需人类监督判断)。作者认为后者是“以术入道”培养判断力的过程,但受限于必须人在场。为此推荐使用免费的UU远程配合Cursor,实现手机远程控制电脑,消除物理距离限制,从而随时随地磨练使用者自身,成为优秀的提问者。

Chubby♨️@kimmonismus · 5月30日56

A 95-minute AI-generated action movie just screened at Cannes’ Marché du Film. It was made in just two weeks for around $500,000, with most of the budget going into compute, proving that AI filmmaking is moving from demo clips to full-length productions. And that's special. They managed to produce the film's length (the clips created are usually very short) while staying within a very low budget.

译一部95分钟的AI生成动作片刚刚在戛纳电影市场放映。 它仅用两周时间、约50万美元预算制作完成,大部分预算用于算力,证明AI电影制作正从演示片段转向完整长片。 这很特别。他们设法制作了电影长度的作品(通常生成的片段非常短),同时保持了极低的预算。

Google Gemini@GeminiApp · 5月30日69

From the screen to reality in a single prompt. Check out these incredible examples of how Gemini Omni can understand your video input, apply physics, and generate seamless new motion. Try it out for yourself and share how you're experimenting with Gemini Omni in the replies 👇

译从屏幕到现实,只需一个提示词。 看看这些令人惊叹的例子,了解 Gemini Omni 如何理解你的视频输入,应用物理规律,并生成无缝的新动作。 亲自试试看,并在回复中分享你如何实验 Gemini Omni 👇

Luma@LumaLabsAI · 5月30日61

The blog post did the thinking. Now let the promo do the work. Drop in the content. Define the hook. Luma Agents build every promo graphic from there. Put it to work → http://lumalabs.ai/app

译博客文章完成了思考。现在让宣传来发挥作用。 输入内容。定义钩子。Luma Agents 从那里构建每一张宣传图。 投入使用 → http://lumalabs.ai/app

Josh Woodward@joshwoodward · 5月30日47

Editing video with our Omni model 🤯 Here are 10 creative examples that caught my eye in the last 24 hours… Try it in @GeminiApp and @FlowbyGoogle

译用我们的 Omni 模型编辑视频 🤯 以下是过去 24 小时里吸引我注意的 10 个创意示例…… 在 @GeminiApp 和 @FlowbyGoogle 中试试看

Luma@LumaLabsAI · 5月30日20

The conversation was great. Now make sure the promo stops people in their tracks. Define the moment that hooked you most. Set the aesthetic. Luma Agents build every podcast promo asset around it from there. Make it heard → http://lumalabs.ai/app

译对话很棒。现在确保宣传能让人驻足。 定义最吸引你的瞬间。设定美学风格。Luma Agents将围绕此构建所有播客宣传素材。 让它被听见 → http://lumalabs.ai/app

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月4日
06:59
DogeDesigner@cb_doge
70
SpaceXAI 不断刷新标准。🔥 Grok Imagine Video 1.5 预览版现已上线 API,效果看起来极为电影感。📽️ 去亲自试试吧。💻 祝 SpaceXAI 好运。🚀
多模态模型发布视频
00:09
Runway@runwayml
73
使用 Aleph 2.0 将任何视频转换为绿幕资产或干净底板,无需旋转描摹。通过今天的 Runway Academy 学习操作方法。
产品更新教程/实践视频
关联讨论 2 条X:Runway (@runwayml)Runway:News(网页)
6月3日
21:31
fofr@fofrAI
55
更改屏幕,使其显示她在FaceTime通话中。
图像生成教程/实践视频
20:16
PixVerse@PixVerse_
55
PixVerse CPP 2.0 已上线。 全球创作者计划,含会员、积分,以及每周 2500 美元现金奖池。 AI 视频发展迅速--我们正在奖励引领者。 关注 + 回复 + 转发,私信获取快速访问。
产品更新视频
16:39
Alibaba Cloud@alibaba_cloud
30
Wan 2.7现已在@AskVenice上线!您的积分在每次生成中能发挥更大价值。

Venice: Your credits go further on every generation. Same model, same quality, more videos. Wan 2.7 is a powerful, next-generati...

行业动态视频
16:38
向阳乔木@vista8
65
xAI前视频多模态负责人Ethan He访谈:视频模型的天花板,其实是语言模型

xAI前视频多模态负责人Ethan He在离职转向语言模型研究时表示,视频模型最大的瓶颈是语言模型。他曾在NVIDIA参与Cosmos模型开发,并在加入xAI后三个月内从零搭建出Grok Imagine 0.9。他指出训练视频模型成本高昂,例如存储10亿个视频需5PB,仅AWS月费就达数百万人民币。视频模型需先预训练图像模型,再通过VLM生成合成字幕以解决数据对齐问题。当前模型在生成长视频时上下文容易爆炸,而他认为扩散模型对文本的理解过于字面化,对语言意图的深层理解才是突破关键。

xAI多模态大佬观点视频
15:16
PixVerse@PixVerse_
26
🥰 【引用 @pinkshihtzu】:当导火索到达雪山山顶时… 像孩子一样看世界。用PixVerse创作它🎈✨ @PixVerse_ #PixVerseChallenge #pixverse

pink shih tzu ponta: 雪山の山頂に導火線が到着すると・・・ See the world like a child. Create it with PixVerse🎈✨ @PixVerse_ #PixVerseChallenge #pixverse

其他视频
14:59
歸藏(guizang.ai)@op7418
49
看来快手确实要分拆可灵单独上市了了。 其实早就该搞,太晚了现在。
行业动态视频
13:39
Alibaba Cloud@alibaba_cloud
47
Narek Hayrapetyan,Picsart视频产品负责人 推出HappyHorse和Wan模型后,视频生成量激增72%,用户每月创建超过100万个资产,并使用超过600万Picsart积分。
图像生成行业动态视频
11:45
Saining Xie@sainingxie
67
研究团队推出VSTAT基准测试,用于评估多模态大语言模型(MLLMs)在视频中追踪动态状态的能力。测试任务看似简单,包括计数杯子、识别键入的文字、统计翻页次数等,人类可以轻松完成,但当前MLLMs表现欠佳。该测试旨在推动视觉状态跟踪这一前沿方向的发展,解决模型从不完整、有噪声的视觉观察中建立和更新内部世界状态的核心挑战。

Sihyun Yu: Can MLLMs actually track what's happening in a video? Introducing VSTAT 🎯, our new benchmark for visual state tracking....

多模态视频评测/基准
04:06
Runway@runwayml
同事件精选73
Aleph 2.0 现已通过 Runway API 提供。将精准视频编辑直接集成到您的应用、产品和平台中。支持在多镜头序列中编辑最长 30 秒、1080p 分辨率的视频,仅修改您想要的部分。 请通过以下链接开始使用。
产品更新视频
同一事件,精选展示《Aleph 2.0 与 Edit Studio》
推荐理由:Runway把Aleph 2.0的视频编辑能力放到了API里,做视频工具的同学可以直接拿来用了,1080p 30秒还支持多镜头,以前要写一堆处理逻辑的功能现在一个API调用搞定。
01:00
ViggleAI@ViggleAI
27
从角色创建到动捕和重定向,看到创作者们用@Viggle_PINOC将想法转化为可玩体验,真是太棒了。期待接下来的发展!

独立开发者William: 🤓rig+mocap+retarget整个流程走通了。 下一步是完善游戏的controller,做state machine 然后明天开始演戏当动捕演员了🤓 准备给我的游戏设计几个酷炫的技能 想想就好激动。

教程/实践视频
6月2日
23:22
Kling AI@Kling_ai
21
你最喜欢的世界杯球队是哪支?为他们生成一段助威舞蹈视频吧!🎉
产品更新图像生成视频
19:56
ginobefun@hongming731
55
从 Markdown 文稿到视频:Cursor + Remotion + FFmpeg

Kent C. Dodds 🏹: In case you missed it, I published a video last week that was 100% edited by @cursor_ai + @Remotion + @FFmpeg turning th...

教程/实践编码视频
17:44
Rohan Paul@rohanpaul_ai
65
多数视频模型看起来比它们实际理解的要好

美团LongCat发布视频世界模型评测基准WBench。该基准将测试重点从画面美观转向控制、多轮记忆、指令遵循和物理合理性等核心能力。它包含289个案例、1058个交互轮次,评估了20个模型在导航、主体动作、事件编辑等5个维度的表现,共使用22项自动指标。研究发现,没有任何模型能在所有维度上占据主导,这表明现有系统尚未将高质量渲染、可靠控制、长期记忆与物理规则遵循整合为稳定能力。WBench的设计能区分失败是源于渲染、场景设置、控制还是物理问题,并指出导航能力与视觉质量基本无关。

多模态视频评测/基准
00:43
Berryxia.AI@berryxia
77
Gemini Omni推出数字头像创建功能

Gemini Omni现已上线数字头像(Avatar)创建功能。用户可通过Gemini App或网页,按三步流程(拍照、录语音、系统自动生成)创建外观和声音都像自己的数字分身。该功能可直接应用于视频创作,显著降低了制作个人视频内容的门槛。所有由Gemini Omni生成的视频均自动嵌入SynthID数字水印,可用于验证视频是否为AI生成及出处,以技术手段防范深假风险。

Google Gemini: Easily add yourself to your video creations in Gemini. Here's how to create your own digital avatar that looks and sound...

Google教程/实践视频
00:28
swyx@swyx
71
Ethan He论视频生成未来

前xAI世界模型负责人Ethan He在播客中分享了对Grok Imagine及视频生成未来的看法。他指出,视频模型的智能主要来自LLM,而非单纯扩大视频数据规模,因此正从视频生成转向LLM领域。他认为,视频生成的下一个前沿是训练用于编排视频模型的视频Agent模型。AI视频的发展将类似编程Agent路径,当前文本到视频仅是“自动补全”阶段。未来,世界模型将变得实时交互,语言模型或成为视频的控制层。

Latent.Space: 🆕Grok Imagine's Video Agent Moment: Cosmos, xAI, World Models, Generative UI, & the Codex Phase for Video! https://www....

智能体xAI大佬观点视频
00:26
Google Gemini@GeminiApp
精选71
轻松将自己添加到Gemini的视频创作中。 以下是如何使用Gemini Omni创建一个外观和声音都像你的数字分身。🧵
Google图像生成教程/实践视频

推荐理由:官方给了个傻瓜教程,看一遍就能在视频里塞进自己的数字分身,做短视频和教学的可以省掉真人出镜的麻烦。
6月1日
23:13
Kling AI@Kling_ai
32
如果你能把云装进袋子里会怎样?☁️ 这是我们用可灵AI实现的方式。
图像生成教程/实践视频
19:04
Alibaba Cloud@alibaba_cloud
37
准备好与24小时时钟赛跑了吗?🎬 加入2026摩纳哥AI电影节(6月9-10日)的24H AI Film Hackathon,由阿里云支持。现场创作你的AI短片,赢取积分(3000美元)和主舞台展映机会。 立即报名 👇https://int.alibabacloud.com/m/1000413821/
行业动态视频
18:42
Berryxia.AI@berryxia
71
KwaiKeye开源多模态大模型Keye VL 2.0-30B-A3B

KwaiKeye开源了多模态大模型Keye VL 2.0-30B-A3B,采用Apache 2.0许可。该模型总参数为30B,但仅激活3B参数。其核心亮点是通过DeepSeek稀疏注意力技术实现了256K的上下文长度。该模型的视频理解能力表现出一个反直觉的特性:喂入的帧数越多,其准确率反而持续上升。在基准测试中,其表现已与Qwen3 VL、Gemini 3 Flash等模型相当。

Adina Yakup: Keye VL 2.0-30B-A3B 🔥 New multimodal model from @KwaiKeye ✨ 30B/3B active - Apache 2.0 ✨ 256K context via DeepSeek Spar...

多模态开源生态推理模型发布
14:36
PixVerse@PixVerse_
7
看着就感觉很凉爽,是夏天的绝佳作品呢🫧 @Yonohitomi 谢谢✨ 【引用 @Yonohitomi】:人鱼耀在海中导览的视频🐬 🪼第一个视频是PixVerse V6 速度感、色彩运用,有种梦幻世界的感觉😆 🪼第二个视频是Seedance2.0 好像也能使用写实风格的照片了。耀的脸没有崩坏就能生成视频,很开心☺️ @PixVerse_ #pixverse PixVerseCPP

Yono@AIアニメ・AIコスメ動画・小説とnote: 人魚の耀が海の中を案内してくれる動画🐬 🪼1個目の動画がPixVerse V6 スピード感とか色使いとか、夢の世界感ある😆 🪼2個目の動画がSeedance2.0 フォトリアルな写真も使えるようになったらしい。耀の顔が崩れずに動画に...

其他视频
11:51
DogeDesigner@cb_doge
28
有一天,任何人都能用Grok生成一整部电影。
xAI大佬观点视频
11:46
MiniMax (official)@MiniMax_AI
78
出发吧🔥 M3 + @visionagents_ai 实现实时语音与视频 去构建些令人兴奋的东西吧! 【引用 @visionagents_ai】:祝贺 @MiniMax_AI 团队发布 M3! 👉 一款前沿级开源权重模型 👉 100万 token 上下文窗口 👉 原生多模态(图像与视频)

Vision Agents: Congrats to the @MiniMax_AI team on the release of M3! 👉 A frontier-class open-weight model 👉 1M context window 👉 Nat...

多模态开源/仓库模型发布视频
关联讨论 12 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)IT之家(RSS)
11:04
PixVerse@PixVerse_
43
PixVerse C1在文本生成视觉特效(text-to-VFX)方面展示了强大的能力,提供了前所未有的控制力和电影级画质。用户通过一个复杂的提示词(涉及火山喷发、风暴、镜头运动和爆炸效果)生成了专业级VFX片段,其镜头动态、粒子效果和光照被视为真实的专业VFX制作水平。该模型被认为在控制力和质量上达到了一个全新的层次。

Pierrick Chevallier | IA: It's actually crazy how few people are talking about how powerful Pixverse C1 is for text-to-VFX.We're on a completely d...

图像生成教程/实践视频
10:50
Orange AI@oran_ge
45
一位开发者使用AI工作流平台ColaOS,在两周时间内为女儿制作了一款哈利波特主题的专属游戏。整个流程涵盖了故事生成、剧本创作、分镜设计、人物与场景图像生成、转场视频、音效及鼠标特效等完整环节。游戏设计了5种结局,包含收集物品解锁成就及开启下一故事彩蛋的机制。

Percival: 女儿想要哈利波特的魔法世界,我用 ColaOS 在两周内给她造了一个专属游戏 从故事→剧本→分镜→人物/场景剧照→转场视频→音效→鼠标特效,一共设计了 5 种结局。收集物品解锁成就,最终打开下一个故事的彩蛋。 但看到她认真玩进去的那一刻--...

其他图像生成多模态视频
06:23
PixVerse@PixVerse_
35
那战斗能量太强烈了!🔥 动作和镜头运用得非常棒。 【引用 @WuxiaRocks】:Nothing is impossible. It's just a matter if one is willing or not. Made in PixVerse @PixVerse_

WuxIA Rocks: Nothing is impossible. It's just a matter if one is willing or not. Made in PixVerse @PixVerse_

行业动态视频
5月31日
20:48
PixVerse@PixVerse_
59
等等,红线可以像运动路径一样工作?这可能是一种全新的引导角色移动的方式。👀

ヴォールチカ😽Celtic Kawaii: Seedance2.0の動画で、赤い線で進行ルートを決めるやつやってみた😊(1/2) 細かい軌跡は無視しがち @PixVerse_ [PR]

产品更新视频
18:09
Odyssey@odysseyml
50
还在决定首先去哪里。
产品更新多模态视频
15:47
PixVerse@PixVerse_
59
PixVerse现已在🦞OpenClaw中可用。 可直接在OpenClaw内使用文本生成视频和图像生成功能。 特别感谢@vincent_koc和@openclaw团队的合作。 https://docs.openclaw.ai/providers/pixverse
产品更新图像生成视频
15:23
🚨 AI News | TestingCatalog@testingcatalog
74
Grok Imagine Video 1.5 Preview 现已上线 Grok API,并在 Video Arena 排行榜上位列第一。 你已经测试过了吗?👀

Arena.ai: Grok-Imagine-Video-1.5-Preview (720p) has landed #1 in the Image-to-Video Arena! This is a massive +52 pt improvement ov...

xAI模型发布视频
10:33
DogeDesigner@cb_doge
70
新消息:Grok Imagine Video 1.5 Preview 刚刚在 Video Arena 的图生视频基准测试中排名第一。 相比之前的 Grok Imagine Video 模型,分数大幅提升了 52 分,超越了 Seedance 2.0、HappyHorse 和 Veo 3.1。 xAI 进展迅速。🚀
xAI模型发布视频评测/基准
10:14
向阳乔木@vista8
49
只需提供一个Suno歌曲的URL,用Codex自动生成音乐MTV。 Codex自动调用生图、组织画面、生成对齐的歌词。 Skill等继续完善后就可以开源了。
MCP/工具多模态开源/仓库视频
5月30日
21:46
Chubby♨️@kimmonismus
28
我仍然觉得不可思议,没有实验室在文本转视频领域超越 Seedance 2.0,尽管它早在二月就发布了。
大佬观点视频
17:34
AYi@AYi_AInotes
43
以术入道,用远程工具连接你的AI实习生

推文通过《黑袍纠察队》AI视频案例,点明AI意义在于呈现“希望发生的”剧情。核心讨论了AI工具的两条发展路径:以Claude Code为代表的“AI智能体型”(自主运行)与以Cursor为代表的“实习生型”(需人类监督判断)。作者认为后者是“以术入道”培养判断力的过程,但受限于必须人在场。为此推荐使用免费的UU远程配合Cursor,实现手机远程控制电脑,消除物理距离限制,从而随时随地磨练使用者自身,成为优秀的提问者。

AYi: 今天,把一件关于 AI 很底层的事,彻底想透了。 使用 AI 的最佳方式是以道御术,但前提是你得先以术入道。 就像黄仁勋说的--真正会用 AI 的人,都是极高认知的提问者,带着自己的认知去提问,让 AI 帮你叩开未知的边界,而不是让它替你思...

图像生成现象/趋势视频
16:16
Chubby♨️@kimmonismus
56
一部95分钟的AI生成动作片刚刚在戛纳电影市场放映。 它仅用两周时间、约50万美元预算制作完成,大部分预算用于算力,证明AI电影制作正从演示片段转向完整长片。 这很特别。他们设法制作了电影长度的作品(通常生成的片段非常短),同时保持了极低的预算。
图像生成现象/趋势视频
05:36
Google Gemini@GeminiApp
69
从屏幕到现实,只需一个提示词。 看看这些令人惊叹的例子,了解 Gemini Omni 如何理解你的视频输入,应用物理规律,并生成无缝的新动作。 亲自试试看,并在回复中分享你如何实验 Gemini Omni 👇
Google产品更新多模态视频
关联讨论 1 条X:Gemini (@GeminiApp)
04:55
Luma@LumaLabsAI
61
博客文章完成了思考。现在让宣传来发挥作用。 输入内容。定义钩子。Luma Agents 从那里构建每一张宣传图。 投入使用 → http://lumalabs.ai/app
产品更新图像生成视频
03:38
Josh Woodward@joshwoodward
47
用我们的 Omni 模型编辑视频 🤯 以下是过去 24 小时里吸引我注意的 10 个创意示例…… 在 @GeminiApp 和 @FlowbyGoogle 中试试看
Google产品更新多模态视频
01:25
Luma@LumaLabsAI
20
对话很棒。现在确保宣传能让人驻足。 定义最吸引你的瞬间。设定美学风格。Luma Agents将围绕此构建所有播客宣传素材。 让它被听见 → http://lumalabs.ai/app
产品更新视频
‹ 上一页
1…678910…17
下一页 ›