6月4日

06:59

DogeDesigner@cb_doge

SpaceXAI 不断刷新标准。🔥 Grok Imagine Video 1.5 预览版现已上线 API，效果看起来极为电影感。📽️ 去亲自试试吧。💻 祝 SpaceXAI 好运。🚀

多模态模型发布视频

00:09

Runway@runwayml

使用 Aleph 2.0 将任何视频转换为绿幕资产或干净底板，无需旋转描摹。通过今天的 Runway Academy 学习操作方法。

产品更新教程/实践视频

关联讨论 2 条

6月3日

21:31

fofr@fofrAI

更改屏幕，使其显示她在FaceTime通话中。

图像生成教程/实践视频

20:16

PixVerse@PixVerse_

PixVerse CPP 2.0 已上线。全球创作者计划，含会员、积分，以及每周 2500 美元现金奖池。 AI 视频发展迅速--我们正在奖励引领者。关注 + 回复 + 转发，私信获取快速访问。

产品更新视频

16:39

Alibaba Cloud@alibaba_cloud

Wan 2.7现已在@AskVenice上线！您的积分在每次生成中能发挥更大价值。

Venice: Your credits go further on every generation. Same model, same quality, more videos. Wan 2.7 is a powerful, next-generati...

行业动态视频

16:38

向阳乔木@vista8

xAI前视频多模态负责人Ethan He访谈：视频模型的天花板，其实是语言模型

xAI前视频多模态负责人Ethan He在离职转向语言模型研究时表示，视频模型最大的瓶颈是语言模型。他曾在NVIDIA参与Cosmos模型开发，并在加入xAI后三个月内从零搭建出Grok Imagine 0.9。他指出训练视频模型成本高昂，例如存储10亿个视频需5PB，仅AWS月费就达数百万人民币。视频模型需先预训练图像模型，再通过VLM生成合成字幕以解决数据对齐问题。当前模型在生成长视频时上下文容易爆炸，而他认为扩散模型对文本的理解过于字面化，对语言意图的深层理解才是突破关键。

xAI 多模态大佬观点视频

15:16

PixVerse@PixVerse_

🥰 【引用 @pinkshihtzu】：当导火索到达雪山山顶时… 像孩子一样看世界。用PixVerse创作它🎈✨ @PixVerse_ #PixVerseChallenge #pixverse

pink shih tzu ponta: 雪山の山頂に導火線が到着すると・・・ See the world like a child. Create it with PixVerse🎈✨ @PixVerse_ #PixVerseChallenge #pixverse

其他视频

14:59

歸藏(guizang.ai)@op7418

看来快手确实要分拆可灵单独上市了了。其实早就该搞，太晚了现在。

行业动态视频

13:39

Alibaba Cloud@alibaba_cloud

Narek Hayrapetyan，Picsart视频产品负责人推出HappyHorse和Wan模型后，视频生成量激增72%，用户每月创建超过100万个资产，并使用超过600万Picsart积分。

图像生成行业动态视频

11:45

Saining Xie@sainingxie

研究团队推出VSTAT基准测试，用于评估多模态大语言模型（MLLMs）在视频中追踪动态状态的能力。测试任务看似简单，包括计数杯子、识别键入的文字、统计翻页次数等，人类可以轻松完成，但当前MLLMs表现欠佳。该测试旨在推动视觉状态跟踪这一前沿方向的发展，解决模型从不完整、有噪声的视觉观察中建立和更新内部世界状态的核心挑战。

Sihyun Yu: Can MLLMs actually track what's happening in a video? Introducing VSTAT 🎯, our new benchmark for visual state tracking....

多模态视频评测/基准

04:06

Runway@runwayml

同事件精选73

Aleph 2.0 现已通过 Runway API 提供。将精准视频编辑直接集成到您的应用、产品和平台中。支持在多镜头序列中编辑最长 30 秒、1080p 分辨率的视频，仅修改您想要的部分。请通过以下链接开始使用。

产品更新视频

同一事件，精选展示《Aleph 2.0 与 Edit Studio》

推荐理由：Runway把Aleph 2.0的视频编辑能力放到了API里，做视频工具的同学可以直接拿来用了，1080p 30秒还支持多镜头，以前要写一堆处理逻辑的功能现在一个API调用搞定。

01:00

ViggleAI@ViggleAI

从角色创建到动捕和重定向，看到创作者们用@Viggle_PINOC将想法转化为可玩体验，真是太棒了。期待接下来的发展！

独立开发者William: 🤓rig+mocap+retarget整个流程走通了。下一步是完善游戏的controller,做state machine 然后明天开始演戏当动捕演员了🤓 准备给我的游戏设计几个酷炫的技能想想就好激动。

教程/实践视频

6月2日

23:22

Kling AI@Kling_ai

你最喜欢的世界杯球队是哪支？为他们生成一段助威舞蹈视频吧！🎉

产品更新图像生成视频

19:56

ginobefun@hongming731

从 Markdown 文稿到视频：Cursor + Remotion + FFmpeg

Kent C. Dodds 🏹: In case you missed it, I published a video last week that was 100% edited by @cursor_ai + @Remotion + @FFmpeg turning th...

教程/实践编码视频

17:44

Rohan Paul@rohanpaul_ai

多数视频模型看起来比它们实际理解的要好

美团LongCat发布视频世界模型评测基准WBench。该基准将测试重点从画面美观转向控制、多轮记忆、指令遵循和物理合理性等核心能力。它包含289个案例、1058个交互轮次，评估了20个模型在导航、主体动作、事件编辑等5个维度的表现，共使用22项自动指标。研究发现，没有任何模型能在所有维度上占据主导，这表明现有系统尚未将高质量渲染、可靠控制、长期记忆与物理规则遵循整合为稳定能力。WBench的设计能区分失败是源于渲染、场景设置、控制还是物理问题，并指出导航能力与视觉质量基本无关。

多模态视频评测/基准

00:43

Berryxia.AI@berryxia

Gemini Omni推出数字头像创建功能

Gemini Omni现已上线数字头像（Avatar）创建功能。用户可通过Gemini App或网页，按三步流程（拍照、录语音、系统自动生成）创建外观和声音都像自己的数字分身。该功能可直接应用于视频创作，显著降低了制作个人视频内容的门槛。所有由Gemini Omni生成的视频均自动嵌入SynthID数字水印，可用于验证视频是否为AI生成及出处，以技术手段防范深假风险。

Google Gemini: Easily add yourself to your video creations in Gemini. Here's how to create your own digital avatar that looks and sound...

Google 教程/实践视频

00:28

swyx@swyx

Ethan He论视频生成未来

前xAI世界模型负责人Ethan He在播客中分享了对Grok Imagine及视频生成未来的看法。他指出，视频模型的智能主要来自LLM，而非单纯扩大视频数据规模，因此正从视频生成转向LLM领域。他认为，视频生成的下一个前沿是训练用于编排视频模型的视频Agent模型。AI视频的发展将类似编程Agent路径，当前文本到视频仅是“自动补全”阶段。未来，世界模型将变得实时交互，语言模型或成为视频的控制层。

Latent.Space: 🆕Grok Imagine's Video Agent Moment: Cosmos, xAI, World Models, Generative UI, & the Codex Phase for Video! https://www....

智能体 xAI 大佬观点视频

00:26

Google Gemini@GeminiApp

精选71

轻松将自己添加到Gemini的视频创作中。以下是如何使用Gemini Omni创建一个外观和声音都像你的数字分身。🧵

Google 图像生成教程/实践视频

推荐理由：官方给了个傻瓜教程，看一遍就能在视频里塞进自己的数字分身，做短视频和教学的可以省掉真人出镜的麻烦。

6月1日

23:13

Kling AI@Kling_ai

如果你能把云装进袋子里会怎样？☁️ 这是我们用可灵AI实现的方式。

图像生成教程/实践视频

19:04

Alibaba Cloud@alibaba_cloud

准备好与24小时时钟赛跑了吗？🎬 加入2026摩纳哥AI电影节（6月9-10日）的24H AI Film Hackathon，由阿里云支持。现场创作你的AI短片，赢取积分（3000美元）和主舞台展映机会。立即报名 👇https://int.alibabacloud.com/m/1000413821/

行业动态视频

18:42

Berryxia.AI@berryxia

KwaiKeye开源多模态大模型Keye VL 2.0-30B-A3B

KwaiKeye开源了多模态大模型Keye VL 2.0-30B-A3B，采用Apache 2.0许可。该模型总参数为30B，但仅激活3B参数。其核心亮点是通过DeepSeek稀疏注意力技术实现了256K的上下文长度。该模型的视频理解能力表现出一个反直觉的特性：喂入的帧数越多，其准确率反而持续上升。在基准测试中，其表现已与Qwen3 VL、Gemini 3 Flash等模型相当。

Adina Yakup: Keye VL 2.0-30B-A3B 🔥 New multimodal model from @KwaiKeye ✨ 30B/3B active - Apache 2.0 ✨ 256K context via DeepSeek Spar...

多模态开源生态推理模型发布

14:36

PixVerse@PixVerse_

看着就感觉很凉爽，是夏天的绝佳作品呢🫧 @Yonohitomi 谢谢✨ 【引用 @Yonohitomi】：人鱼耀在海中导览的视频🐬 🪼第一个视频是PixVerse V6 速度感、色彩运用，有种梦幻世界的感觉😆 🪼第二个视频是Seedance2.0 好像也能使用写实风格的照片了。耀的脸没有崩坏就能生成视频，很开心☺️ @PixVerse_ #pixverse PixVerseCPP

Yono@AIアニメ・AIコスメ動画・小説とnote: 人魚の耀が海の中を案内してくれる動画🐬 🪼1個目の動画がPixVerse V6 スピード感とか色使いとか、夢の世界感ある😆 🪼2個目の動画がSeedance2.0 フォトリアルな写真も使えるようになったらしい。耀の顔が崩れずに動画に...

其他视频

11:51

DogeDesigner@cb_doge

有一天，任何人都能用Grok生成一整部电影。

xAI 大佬观点视频

11:46

MiniMax (official)@MiniMax_AI

出发吧🔥 M3 + @visionagents_ai 实现实时语音与视频去构建些令人兴奋的东西吧！【引用 @visionagents_ai】：祝贺 @MiniMax_AI 团队发布 M3！ 👉 一款前沿级开源权重模型 👉 100万 token 上下文窗口 👉 原生多模态（图像与视频）

Vision Agents: Congrats to the @MiniMax_AI team on the release of M3! 👉 A frontier-class open-weight model 👉 1M context window 👉 Nat...

多模态开源/仓库模型发布视频

关联讨论 12 条

11:04

PixVerse@PixVerse_

PixVerse C1在文本生成视觉特效（text-to-VFX）方面展示了强大的能力，提供了前所未有的控制力和电影级画质。用户通过一个复杂的提示词（涉及火山喷发、风暴、镜头运动和爆炸效果）生成了专业级VFX片段，其镜头动态、粒子效果和光照被视为真实的专业VFX制作水平。该模型被认为在控制力和质量上达到了一个全新的层次。

Pierrick Chevallier | IA: It's actually crazy how few people are talking about how powerful Pixverse C1 is for text-to-VFX.We're on a completely d...

图像生成教程/实践视频

10:50

Orange AI@oran_ge

一位开发者使用AI工作流平台ColaOS，在两周时间内为女儿制作了一款哈利波特主题的专属游戏。整个流程涵盖了故事生成、剧本创作、分镜设计、人物与场景图像生成、转场视频、音效及鼠标特效等完整环节。游戏设计了5种结局，包含收集物品解锁成就及开启下一故事彩蛋的机制。

Percival: 女儿想要哈利波特的魔法世界,我用 ColaOS 在两周内给她造了一个专属游戏从故事→剧本→分镜→人物/场景剧照→转场视频→音效→鼠标特效,一共设计了 5 种结局。收集物品解锁成就,最终打开下一个故事的彩蛋。但看到她认真玩进去的那一刻--...

其他图像生成多模态视频

06:23

PixVerse@PixVerse_

那战斗能量太强烈了！🔥 动作和镜头运用得非常棒。【引用 @WuxiaRocks】：Nothing is impossible. It's just a matter if one is willing or not. Made in PixVerse @PixVerse_

WuxIA Rocks: Nothing is impossible. It's just a matter if one is willing or not. Made in PixVerse @PixVerse_

行业动态视频

5月31日

20:48

PixVerse@PixVerse_

等等，红线可以像运动路径一样工作？这可能是一种全新的引导角色移动的方式。👀

ヴォールチカ😽Celtic Kawaii: Seedance2.0の動画で、赤い線で進行ルートを決めるやつやってみた😊(1/2) 細かい軌跡は無視しがち @PixVerse_ [PR]

产品更新视频

18:09

Odyssey@odysseyml

还在决定首先去哪里。

产品更新多模态视频

15:47

PixVerse@PixVerse_

PixVerse现已在🦞OpenClaw中可用。可直接在OpenClaw内使用文本生成视频和图像生成功能。特别感谢@vincent_koc和@openclaw团队的合作。 https://docs.openclaw.ai/providers/pixverse

产品更新图像生成视频

15:23

🚨 AI News | TestingCatalog@testingcatalog

Grok Imagine Video 1.5 Preview 现已上线 Grok API，并在 Video Arena 排行榜上位列第一。你已经测试过了吗？👀

Arena.ai: Grok-Imagine-Video-1.5-Preview (720p) has landed #1 in the Image-to-Video Arena! This is a massive +52 pt improvement ov...

xAI 模型发布视频

10:33

DogeDesigner@cb_doge

新消息：Grok Imagine Video 1.5 Preview 刚刚在 Video Arena 的图生视频基准测试中排名第一。相比之前的 Grok Imagine Video 模型，分数大幅提升了 52 分，超越了 Seedance 2.0、HappyHorse 和 Veo 3.1。 xAI 进展迅速。🚀

xAI 模型发布视频评测/基准

10:14

向阳乔木@vista8

只需提供一个Suno歌曲的URL，用Codex自动生成音乐MTV。 Codex自动调用生图、组织画面、生成对齐的歌词。 Skill等继续完善后就可以开源了。

MCP/工具多模态开源/仓库视频

5月30日

21:46

Chubby♨️@kimmonismus

我仍然觉得不可思议，没有实验室在文本转视频领域超越 Seedance 2.0，尽管它早在二月就发布了。

大佬观点视频

17:34

AYi@AYi_AInotes

以术入道，用远程工具连接你的AI实习生

推文通过《黑袍纠察队》AI视频案例，点明AI意义在于呈现“希望发生的”剧情。核心讨论了AI工具的两条发展路径：以Claude Code为代表的“AI智能体型”（自主运行）与以Cursor为代表的“实习生型”（需人类监督判断）。作者认为后者是“以术入道”培养判断力的过程，但受限于必须人在场。为此推荐使用免费的UU远程配合Cursor，实现手机远程控制电脑，消除物理距离限制，从而随时随地磨练使用者自身，成为优秀的提问者。

AYi: 今天,把一件关于 AI 很底层的事,彻底想透了。使用 AI 的最佳方式是以道御术,但前提是你得先以术入道。就像黄仁勋说的--真正会用 AI 的人,都是极高认知的提问者,带着自己的认知去提问,让 AI 帮你叩开未知的边界,而不是让它替你思...