AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「视频」清除
6月2日周二
01:26Google Blog:AI(RSS)42谷歌员工如何使用 Gemini 制作 Google I/O 2026
00:43Berryxia.AI77Gemini Omni推出数字头像创建功能
00:28swyx71Ethan He论视频生成未来
00:26Google Gemini71精选Gemini Omni支持创建个人数字分身
6月1日周一
23:13Kling AI32用可灵AI实现"把云装进袋子"的创意
20:22公众号:卡尔的AI沃茨64LibTV推出3D导演台:用3D构图节点精确控制AI图片/视频中的人物空间关系
19:04Alibaba Cloud372026摩纳哥AI电影节24小时黑客松开启报名
18:42Berryxia.AI71KwaiKeye开源多模态大模型Keye VL 2.0-30B-A3B
18:24Runway:News(网页)61精选Runway 在伦敦设立欧洲总部及世界模型研究中心
15:21公众号:豆包(字节)57豆包爱学上线「豆包课堂」,用 Seedance 视频模型打造 AI 互动古诗文课堂
14:36PixVerse7人鱼主题AI视频生成效果展示
14:04IT之家(RSS)80让机器人看懂世界:英伟达推出全球首款全开源全模态物理 AI 大模型 Cosmos 3
11:51DogeDesigner28Grok未来可生成完整电影
11:46MiniMax (official)78MiniMax发布M3模型,支持实时音视频交互
11:04PixVerse43PixVerse C1文本生成VFX:极致控制与电影级画质
10:50Orange AI45用AI工具两周打造定制化游戏
08:00HuggingFace Daily Papers(社区热门论文)52AdaCodec:用于视频多模态大模型的预测性视觉编码
06:50Hacker News 热门(buzzing.cc 中文翻译)16《Backrooms》首周票房达8100万美元,表现惊人
06:23PixVerse35PixVerse制作的武侠风格动态视频
5月31日周日
20:48PixVerse59红线或可作为角色运动路径引导新方式
18:09Odyssey50尚未决定首先前往何处
15:47PixVerse59PixVerse现已登陆OpenClaw平台
15:23🚨 AI News | TestingCatalog74Grok视频模型1.5预览版登顶Video Arena榜首
10:33DogeDesigner70Grok Imagine Video 1.5 Preview 登顶视频生成榜单
10:14向阳乔木49Codex自动生成Suno歌曲MTV
08:00HuggingFace Daily Papers(社区热门论文)70精选τ_0-WM:用于机器人操控的统一视频-动作世界模型
5月30日周六
21:46Chubby♨️28Seedance 2.0发布数月仍无人超越
17:34AYi43以术入道,用远程工具连接你的AI实习生
16:21IT之家(RSS)66阿里巴巴与欧足联达成多年战略合作,成为欧冠、欧洲杯独家 AI 合作伙伴
16:16Chubby♨️56AI生成95分钟动作片戛纳首映
05:36Google Gemini69Gemini Omni:从提示词到现实的视频生成
04:55Luma61Luma Agents 自动生成宣传图,输入内容即可
03:38Josh Woodward47Gemini App 新增视频编辑功能示例展示
02:14The Decoder:AI News(RSS)47Google 修复了多个导致配额消耗过快的 Gemini 使用限制漏洞
01:38Google Blog:AI(RSS)74同事件精选Gemini Omni 与 Gemini 3.5 的 11 个实战展示同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
01:25Luma20Luma Agents打造播客宣传素材
00:45PixVerse19PixVerse可将任意瞬间转化为酷炫变换
00:15AK69minWM:实时交互视频世界模型开源框架
5月29日周五
23:24Kling AI62Kling AI助力电影RAPHAEL创作全流程揭秘
22:40Runway52Runway助力个人创作者一个月内完成《The Rogue》
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月2日
01:26
Google Blog:AI(RSS)
42
谷歌员工如何使用 Gemini 制作 Google I/O 2026

本文介绍了谷歌员工使用 Gemini 模型来制作 2026 年的 Google I/O 开发者大会。

Google图像生成多模态教程/实践
00:43
Berryxia.AI@berryxia
77
Gemini Omni推出数字头像创建功能

Gemini Omni现已上线数字头像(Avatar)创建功能。用户可通过Gemini App或网页,按三步流程(拍照、录语音、系统自动生成)创建外观和声音都像自己的数字分身。该功能可直接应用于视频创作,显著降低了制作个人视频内容的门槛。所有由Gemini Omni生成的视频均自动嵌入SynthID数字水印,可用于验证视频是否为AI生成及出处,以技术手段防范深假风险。

Google Gemini: Easily add yourself to your video creations in Gemini. Here's how to create your own digital avatar that looks and sound...

Google教程/实践视频
00:28
swyx@swyx
71
Ethan He论视频生成未来

前xAI世界模型负责人Ethan He在播客中分享了对Grok Imagine及视频生成未来的看法。他指出,视频模型的智能主要来自LLM,而非单纯扩大视频数据规模,因此正从视频生成转向LLM领域。他认为,视频生成的下一个前沿是训练用于编排视频模型的视频Agent模型。AI视频的发展将类似编程Agent路径,当前文本到视频仅是“自动补全”阶段。未来,世界模型将变得实时交互,语言模型或成为视频的控制层。

Latent.Space: 🆕Grok Imagine's Video Agent Moment: Cosmos, xAI, World Models, Generative UI, & the Codex Phase for Video! https://www....

智能体xAI大佬观点视频
00:26
Google Gemini@GeminiApp
精选71
轻松将自己添加到Gemini的视频创作中。 以下是如何使用Gemini Omni创建一个外观和声音都像你的数字分身。🧵
Google图像生成教程/实践视频

推荐理由:官方给了个傻瓜教程,看一遍就能在视频里塞进自己的数字分身,做短视频和教学的可以省掉真人出镜的麻烦。
6月1日
23:13
Kling AI@Kling_ai
32
如果你能把云装进袋子里会怎样?☁️ 这是我们用可灵AI实现的方式。
图像生成教程/实践视频
20:22
公众号:卡尔的AI沃茨
64
LibTV推出3D导演台:用3D构图节点精确控制AI图片/视频中的人物空间关系

针对AI图片和视频中多人场景空间关系控制难的问题,LibTV推出3D导演台功能,在画布中嵌入轻量级3D构图节点。用户可添加人体素模、基础几何体、群众阵列,自由移动、旋转、缩放并调整人物关节姿势。支持在同一3D场景中放置多个机位,预设或手动调整视角,截图作为参考图发送到画布,关联人物并编写提示语,即可生成符合构图的图片或视频。还可利用宫格切分工具拆分九宫格分镜,配合视频合成功能连续成短片。该功能避免了用长提示语描述位置关系,提升创作可控性。

图像生成教程/实践视频
19:04
Alibaba Cloud@alibaba_cloud
37
准备好与24小时时钟赛跑了吗?🎬 加入2026摩纳哥AI电影节(6月9-10日)的24H AI Film Hackathon,由阿里云支持。现场创作你的AI短片,赢取积分(3000美元)和主舞台展映机会。 立即报名 👇https://int.alibabacloud.com/m/1000413821/
行业动态视频
18:42
Berryxia.AI@berryxia
71
KwaiKeye开源多模态大模型Keye VL 2.0-30B-A3B

KwaiKeye开源了多模态大模型Keye VL 2.0-30B-A3B,采用Apache 2.0许可。该模型总参数为30B,但仅激活3B参数。其核心亮点是通过DeepSeek稀疏注意力技术实现了256K的上下文长度。该模型的视频理解能力表现出一个反直觉的特性:喂入的帧数越多,其准确率反而持续上升。在基准测试中,其表现已与Qwen3 VL、Gemini 3 Flash等模型相当。

Adina Yakup: Keye VL 2.0-30B-A3B 🔥 New multimodal model from @KwaiKeye ✨ 30B/3B active - Apache 2.0 ✨ 256K context via DeepSeek Spar...

多模态开源生态推理模型发布
18:24
Runway:News(网页)
精选61
Runway 在伦敦设立欧洲总部及世界模型研究中心

Runway 宣布在伦敦建立新的欧洲总部和专注于通用世界模型的研究中心。公司计划在未来18个月向英国AI生态投资$100M,到2028年投资额将翻倍以上。过去12个月,其在欧洲的订阅销量增长了50%,企业客户占比超20%。新总部将扩大其在欧洲的研究与商业布局,公司正招聘欧洲负责人以组建跨研究、产品、工程和销售的团队,并深化与BBC、Fremantle、WPP等企业的合作。世界模型是其研究的核心,旨在将生成式AI的应用扩展至机器人、科学研究与工业模拟等领域。

行业动态视频
关联讨论 1 条X:Runway (@runwayml)
推荐理由:Runway 把世界模型研发带到伦敦并承诺 1 亿美元投资,不是新品但战略意义清晰,欧洲的视频创作者和工业仿真团队离顶尖工具更近了,做影视、游戏和机器人的可以关注后续落地。
15:21
公众号:豆包(字节)
57
豆包爱学上线「豆包课堂」,用 Seedance 视频模型打造 AI 互动古诗文课堂

儿童节前夕,豆包旗下教育 App 豆包爱学推出「豆包课堂」功能,采用字节跳动最新版 Seedance 视频模型,将课本古诗文中的情境融入 AI 生成视频,降低理解门槛。课堂内置 AI 老师主动设问、引导孩子观察思考,同时支持孩子随时提问并得到回应。结合学生对知识点的掌握程度和学习习惯,可即时生成专属 AI 互动课程,实现个性化学习。该功能已在豆包爱学 App 底部导航栏第三入口开放体验。

产品更新视频
14:36
PixVerse@PixVerse_
7
看着就感觉很凉爽,是夏天的绝佳作品呢🫧 @Yonohitomi 谢谢✨ 【引用 @Yonohitomi】:人鱼耀在海中导览的视频🐬 🪼第一个视频是PixVerse V6 速度感、色彩运用,有种梦幻世界的感觉😆 🪼第二个视频是Seedance2.0 好像也能使用写实风格的照片了。耀的脸没有崩坏就能生成视频,很开心☺️ @PixVerse_ #pixverse PixVerseCPP

Yono@AIアニメ・AIコスメ動画・小説とnote: 人魚の耀が海の中を案内してくれる動画🐬 🪼1個目の動画がPixVerse V6 スピード感とか色使いとか、夢の世界感ある😆 🪼2個目の動画がSeedance2.0 フォトリアルな写真も使えるようになったらしい。耀の顔が崩れずに動画に...

其他视频
14:04
IT之家(RSS)
80
让机器人看懂世界:英伟达推出全球首款全开源全模态物理 AI 大模型 Cosmos 3

英伟达推出全球首款全开源全模态物理AI大模型Cosmos 3。该模型基于混合Transformer架构,可在单一系统中融合文本、图像、视频、音效及动作内容的理解与生成,将物理AI的训练与评估周期从数月缩短至数日。Cosmos 3在Artificial Analysis、Physics-IQ等多个评测基准上排名第一,提供Super和Nano版本用于机器人与自动驾驶的训练与实时推理,Edge版本即将推出。

具身智能多模态开源生态模型发布
关联讨论 10 条X:Kim (@kimmonismus)HuggingFace Daily Papers(社区热门论文)Hugging Face:Blog(RSS)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)X:Artificial Analysis (@ArtificialAnlys)IT之家(RSS)Hacker News 热门(buzzing.cc 中文翻译)LMSYS:Blog(Chatbot Arena 团队)
11:51
DogeDesigner@cb_doge
28
有一天,任何人都能用Grok生成一整部电影。
xAI大佬观点视频
11:46
MiniMax (official)@MiniMax_AI
78
出发吧🔥 M3 + @visionagents_ai 实现实时语音与视频 去构建些令人兴奋的东西吧! 【引用 @visionagents_ai】:祝贺 @MiniMax_AI 团队发布 M3! 👉 一款前沿级开源权重模型 👉 100万 token 上下文窗口 👉 原生多模态(图像与视频)

Vision Agents: Congrats to the @MiniMax_AI team on the release of M3! 👉 A frontier-class open-weight model 👉 1M context window 👉 Nat...

多模态开源/仓库模型发布视频
关联讨论 12 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)IT之家(RSS)
11:04
PixVerse@PixVerse_
43
PixVerse C1在文本生成视觉特效(text-to-VFX)方面展示了强大的能力,提供了前所未有的控制力和电影级画质。用户通过一个复杂的提示词(涉及火山喷发、风暴、镜头运动和爆炸效果)生成了专业级VFX片段,其镜头动态、粒子效果和光照被视为真实的专业VFX制作水平。该模型被认为在控制力和质量上达到了一个全新的层次。

Pierrick Chevallier | IA: It's actually crazy how few people are talking about how powerful Pixverse C1 is for text-to-VFX.We're on a completely d...

图像生成教程/实践视频
10:50
Orange AI@oran_ge
45
一位开发者使用AI工作流平台ColaOS,在两周时间内为女儿制作了一款哈利波特主题的专属游戏。整个流程涵盖了故事生成、剧本创作、分镜设计、人物与场景图像生成、转场视频、音效及鼠标特效等完整环节。游戏设计了5种结局,包含收集物品解锁成就及开启下一故事彩蛋的机制。

Percival: 女儿想要哈利波特的魔法世界,我用 ColaOS 在两周内给她造了一个专属游戏 从故事→剧本→分镜→人物/场景剧照→转场视频→音效→鼠标特效,一共设计了 5 种结局。收集物品解锁成就,最终打开下一个故事的彩蛋。 但看到她认真玩进去的那一刻--...

其他图像生成多模态视频
08:00
HuggingFace Daily Papers(社区热门论文)
52
AdaCodec:用于视频多模态大模型的预测性视觉编码

AdaCodec是一种预测性视觉编码,仅在场景难以从先前上下文预测时向参考帧分配完整视觉token,否则将帧间变化(运动与预测残差)编码为紧凑的P-tokens。在全部11项基准测试中,AdaCodec在同等视觉token预算下优于Qwen3-VL-8B逐帧RGB基线。即便在1/7预算下,使用32k tokens的AdaCodec在所有长视频基准上超越了224k基线;在五项通用视频基准上平均得分提升,同时首token延迟从9.26秒降至1.62秒。

多模态推理视频论文/研究
06:50
Hacker News 热门(buzzing.cc 中文翻译)
16
《Backrooms》首周票房达8100万美元,表现惊人

《Backrooms》首周末票房达8100万美元,以34%的票房占比打破同期纪录,超越《星球大战》系列成为五月最高开画成绩。但该片票房后劲不足,上映第二、三周票房分别下滑75%和22%。同期上映的《碟中谍》最终累计票房为1.8亿美元。

其他视频
06:23
PixVerse@PixVerse_
35
那战斗能量太强烈了!🔥 动作和镜头运用得非常棒。 【引用 @WuxiaRocks】:Nothing is impossible. It's just a matter if one is willing or not. Made in PixVerse @PixVerse_

WuxIA Rocks: Nothing is impossible. It's just a matter if one is willing or not. Made in PixVerse @PixVerse_

行业动态视频
5月31日
20:48
PixVerse@PixVerse_
59
等等,红线可以像运动路径一样工作?这可能是一种全新的引导角色移动的方式。👀

ヴォールチカ😽Celtic Kawaii: Seedance2.0の動画で、赤い線で進行ルートを決めるやつやってみた😊(1/2) 細かい軌跡は無視しがち @PixVerse_ [PR]

产品更新视频
18:09
Odyssey@odysseyml
50
还在决定首先去哪里。
产品更新多模态视频
15:47
PixVerse@PixVerse_
59
PixVerse现已在🦞OpenClaw中可用。 可直接在OpenClaw内使用文本生成视频和图像生成功能。 特别感谢@vincent_koc和@openclaw团队的合作。 https://docs.openclaw.ai/providers/pixverse
产品更新图像生成视频
15:23
🚨 AI News | TestingCatalog@testingcatalog
74
Grok Imagine Video 1.5 Preview 现已上线 Grok API,并在 Video Arena 排行榜上位列第一。 你已经测试过了吗?👀

Arena.ai: Grok-Imagine-Video-1.5-Preview (720p) has landed #1 in the Image-to-Video Arena! This is a massive +52 pt improvement ov...

xAI模型发布视频
10:33
DogeDesigner@cb_doge
70
新消息:Grok Imagine Video 1.5 Preview 刚刚在 Video Arena 的图生视频基准测试中排名第一。 相比之前的 Grok Imagine Video 模型,分数大幅提升了 52 分,超越了 Seedance 2.0、HappyHorse 和 Veo 3.1。 xAI 进展迅速。🚀
xAI模型发布视频评测/基准
10:14
向阳乔木@vista8
49
只需提供一个Suno歌曲的URL,用Codex自动生成音乐MTV。 Codex自动调用生图、组织画面、生成对齐的歌词。 Skill等继续完善后就可以开源了。
MCP/工具多模态开源/仓库视频
08:00
HuggingFace Daily Papers(社区热门论文)
精选70
τ_0-WM:用于机器人操控的统一视频-动作世界模型

τ_0-World Model (τ_0-WM) 是一个统一的视频-动作世界模型,旨在机器人执行动作前预测并评估其未来后果。模型基于共享的视频扩散主干网络构建,提供两个接口:一个联合预测未来视觉潜在表示与连续动作块的视频动作模型,以及一个能将动作序列展开为多视角未来并预测任务进度分数的动作条件视频模拟器。τ_0-WM 使用约27,300小时的多元数据训练,包括真实机器人遥操作、UMI风格交互、自我中心人类视频等。推理时,模型通过测试时计算采样动作候选,并利用去噪一致性和基于模拟器的修正来筛选低质量动作,在长时程和精细机器人操控任务上表现出优于相关基准的性能。

具身智能数据/训练视频论文/研究

推荐理由:机器人操作领域的大一统尝试,把视频预测和动作生成放在一个扩散模型里,还用27万小时数据训练,做具身智能的可以看看这个架构。
5月30日
21:46
Chubby♨️@kimmonismus
28
我仍然觉得不可思议,没有实验室在文本转视频领域超越 Seedance 2.0,尽管它早在二月就发布了。
大佬观点视频
17:34
AYi@AYi_AInotes
43
以术入道,用远程工具连接你的AI实习生

推文通过《黑袍纠察队》AI视频案例,点明AI意义在于呈现“希望发生的”剧情。核心讨论了AI工具的两条发展路径:以Claude Code为代表的“AI智能体型”(自主运行)与以Cursor为代表的“实习生型”(需人类监督判断)。作者认为后者是“以术入道”培养判断力的过程,但受限于必须人在场。为此推荐使用免费的UU远程配合Cursor,实现手机远程控制电脑,消除物理距离限制,从而随时随地磨练使用者自身,成为优秀的提问者。

AYi: 今天,把一件关于 AI 很底层的事,彻底想透了。 使用 AI 的最佳方式是以道御术,但前提是你得先以术入道。 就像黄仁勋说的--真正会用 AI 的人,都是极高认知的提问者,带着自己的认知去提问,让 AI 帮你叩开未知的边界,而不是让它替你思...

图像生成现象/趋势视频
16:21
IT之家(RSS)
66
阿里巴巴与欧足联达成多年战略合作,成为欧冠、欧洲杯独家 AI 合作伙伴

阿里巴巴与欧足联达成多年战略合作,自2027/2028赛季起成为欧洲冠军联赛、欧足联欧洲联赛、欧足联协会联赛及2028年欧洲杯的官方独家AI、云计算服务及电子商务合作伙伴。合作期间,阿里巴巴将运用包括千问大模型在内的AI能力,为赛事提供球迷互动、内容管理及沉浸式观赛体验,并依托其云计算基础设施和全球电商平台支持欧足联构建下一代AI能力与商品销售。

行业动态视频
16:16
Chubby♨️@kimmonismus
56
一部95分钟的AI生成动作片刚刚在戛纳电影市场放映。 它仅用两周时间、约50万美元预算制作完成,大部分预算用于算力,证明AI电影制作正从演示片段转向完整长片。 这很特别。他们设法制作了电影长度的作品(通常生成的片段非常短),同时保持了极低的预算。
图像生成现象/趋势视频
05:36
Google Gemini@GeminiApp
69
从屏幕到现实,只需一个提示词。 看看这些令人惊叹的例子,了解 Gemini Omni 如何理解你的视频输入,应用物理规律,并生成无缝的新动作。 亲自试试看,并在回复中分享你如何实验 Gemini Omni 👇
Google产品更新多模态视频
关联讨论 1 条X:Gemini (@GeminiApp)
04:55
Luma@LumaLabsAI
61
博客文章完成了思考。现在让宣传来发挥作用。 输入内容。定义钩子。Luma Agents 从那里构建每一张宣传图。 投入使用 → http://lumalabs.ai/app
产品更新图像生成视频
03:38
Josh Woodward@joshwoodward
47
用我们的 Omni 模型编辑视频 🤯 以下是过去 24 小时里吸引我注意的 10 个创意示例…… 在 @GeminiApp 和 @FlowbyGoogle 中试试看
Google产品更新多模态视频
02:14
The Decoder:AI News(RSS)
47
Google 修复了多个导致配额消耗过快的 Gemini 使用限制漏洞

一个漏洞导致 Google Gemini 应用中的 Omni 视频仅一两个就会消耗完整个使用配额。Google 已修复该漏洞,Ultra 订阅用户现在获得双倍的视频生成次数,失败的请求也不再计入配额消耗。此外,Google 计划围绕其他使用情况增加更多透明度。

Google产品更新多模态视频
01:38
Google Blog:AI(RSS)
同事件精选74
Gemini Omni 与 Gemini 3.5 的 11 个实战展示

Google 在 2026 年 Google I/O 大会上发布了新一代多模态模型 Gemini Omni 与 Gemini 3.5,并同步提供了 11 个视频,集中演示了这两款模型在实际场景中的能力。

Google多模态模型发布视频
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Google 官方放出的这组视频演示,直接展示了 Gemini Omni 和 3.5 的实际表现,比参数和 benchmark 更直观,做多模态应用的可以逐帧研究。
01:25
Luma@LumaLabsAI
20
对话很棒。现在确保宣传能让人驻足。 定义最吸引你的瞬间。设定美学风格。Luma Agents将围绕此构建所有播客宣传素材。 让它被听见 → http://lumalabs.ai/app
产品更新视频
00:45
PixVerse@PixVerse_
19
PixVerse可以将任何瞬间变成酷炫的变换 #pixverse #viral #fyp
产品更新图像生成视频
00:15
AK@_akhaliq
69
minWM 一个用于实时交互视频世界模型的全栈开源框架
开源/仓库开源生态视频
5月29日
23:24
Kling AI@Kling_ai
62
Kling AI戛纳展示--RAPHAEL:AI工作流幕后 深入了解RAPHAEL,一部使用Kling AI创作的AI驱动故事片。看看创作者如何在整个电影制作流程中运用Kling AI,从创意构思到最终电影画面,简化制作并释放新的创作可能性。
教程/实践视频
22:40
Runway@runwayml
52
深入幕后,了解《The Rogue》如何由一个人在一个月内使用 Runway 制作完成。 《The Rogue》是 Project Luxo 的一部分:这是一个探索 AI 生成视频如何跨越恐怖谷的新项目。
图像生成教程/实践视频
‹ 上一页
1…1011121314…28
下一页 ›