全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「视频」清除

6月7日周日

08:00HuggingFace Daily Papers（社区热门论文）61OmniCap-IF：全能视频描述的指令遵循基准与模型改进

08:00HuggingFace Daily Papers（社区热门论文）59CoVEBench：视频编辑模型能否处理复杂指令？

07:18fofr44AI能杂耍任何物体于任何地点

06:48fofr37AI模型可同时处理任何任务

03:17fofr53Omni投影映射：让建筑随音乐舞动

02:46fofr57用Omni反转视频编辑，打造个人《信条》

02:46fofr65Omni：从建筑图像生成投影映射

00:17IT之家（RSS）56百度MEG组织架构调整：合并商业部与电商事业部，数字人创新业务部升级为独立部门

6月6日周六

22:29PixVerse43PixVerse Originals S1《The Reckless Play》上线

19:24AYi66刘梓渝公开AI短视频创作核心：导演思维嵌入工作流

18:24AYi53OpenCut：GitHub 5万星开源AI剪辑工具，本地优先、永久免费、无水印无会员

17:52公众号：MiniMax（稀宇科技）56海螺AI×上影节活动日历：开放日6.14-6.15

16:58PixVerse27PixVerse VibeMV 全AI音乐视频展示

10:40DogeDesigner27Grok即将能创作电影级影片

04:12fofr44用Krea K2输出测试Omni图像转视频制作动漫开场

00:07Kling AI44可灵AI第二届周年庆创作展示片大赛开启

6月5日周五

22:41ViggleAI65精选Viggle_PINOC 免费动捕测试开启

22:26The Verge：AI（RSS）55Quilty 能靠剧本预测电影票房成败吗？

22:22Runway59Runway生成游戏电影《50 Crowns》

21:15IT之家（RSS）67发布两年：快手可灵 AI 全球用户突破 1 亿，企业客户近 5 万

20:59Chubby♨️56LTX Studio+LTX-2.3：AI视频从演示到实用

20:56PixVerse46PixVerse Originals S1 发布：五人太空废墟剧

20:26PixVerse49PixVerse Originals 上线，资助 10 国创作者

19:17公众号：火山引擎42火山引擎豆包Seedance 2.0进入广告核心生产流程

16:53Alibaba Cloud21阿里云Qwen与Wan用AI重绘越南传统

16:47HuggingFace Daily Papers（社区热门论文）53OMTG（一对多时间定位）系统性方案发布

14:25PixVerse32PixVerse Seedance 2.0 推出Canvas功能

13:14IT之家（RSS）58xAI 开放预览版图转视频模型 grok-imagine-video-1.5-preview，单图生成最高 720p 电影感视频

10:46HuggingFace Daily Papers（社区热门论文）69Future-L1：用于视频事件预测的交错潜在视觉推理

10:46HuggingFace Daily Papers（社区热门论文）64LoomVideo：高效统一视频生成与编辑架构

08:00HuggingFace Daily Papers（社区热门论文）50StreamForce：流式力控制驱动的实时视频生成框架

08:00HuggingFace Daily Papers（社区热门论文）64Stream3D-VLM：支持增量几何先验的在线3D空间理解模型

08:00HuggingFace Daily Papers（社区热门论文）63基于MLLM的人类视角视频理解：观看、记忆、推理

07:06fofr68竖屏田园猫视频：窗台日光片段

06:36fofr67Gemini Omni Flash 图片首帧视频生成

03:25Chubby♨️48Tavus Solutions推出企业级AI人类，赋能真实工作流

01:05Google Gemini60Gemini Omni 轻松将创想变视频

6月4日周四

22:46Runway81同事件精选Runway Aleph 2.0 精准局部编辑轻松实现同一事件，精选展示《Aleph 2.0 与 Edit Studio》

20:52Berryxia.AI71open-design项目开源：html-video称"html版剪映"，Agent可写HTML生成宣传视频

20:32Orange AI68ListenHub AI视频功能上线

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月7日

08:00

HuggingFace Daily Papers（社区热门论文）

61

OmniCap-IF：全能视频描述的指令遵循基准与模型改进

OmniCap-IF 是首个针对全能模态大语言模型（OLLMs）视频描述指令遵循能力的基准，涵盖纯视觉、纯音频和视听三种模态下的 50 种约束类型，并引入时间定位评估时空精确性。在 1920 个高质量样本上的评测显示模型间存在显著性能差距，并发现“格式-内容权衡”——格式复杂度增加会损害模型的全能模态推理能力。研究团队还构建了 54K 指令微调数据集 OmniCap-IF-54K，并发布 OmniCaptioner-IF 模型，在复杂指令遵循与通用全能模态描述性能上均取得明显提升。

arXiv 多模态数据/训练视频

08:00

HuggingFace Daily Papers（社区热门论文）

59

CoVEBench：视频编辑模型能否处理复杂指令？

CoVEBench 是一个组合视频编辑基准，包含 416 个源视频、626 条多点编辑指令和 9,990 个细粒度检查项，覆盖多维度编辑任务。它通过 MLLM 评判指令遵守度与视频保真度，并结合自动指标评估视频质量。实验表明，当前模型在同时处理多操作时仍频繁遗漏编辑、违反保留约束或引入伪影，组合编辑是重大挑战。

多模态视频论文/研究

07:18

fofr@fofrAI

44

他能抛接任何东西。抛接任何东西，任何地点。

fofr: He can juggle anything

06:48

fofr@fofrAI

37

他能同时处理任何事情

03:17

fofr@fofrAI

53

从一张建筑图片开始，用提示词在Omni中生成投影映射。主推文：让建筑随音乐舞动。

fofr: Start with an image of a building and prompt for a projection mapping with Omni.

图像生成教程/实践视频

02:46

fofr@fofrAI

57

我很享受用Omni反转视频并编辑它们。把正向的东西和反向的东西放在一起，就像我在制作自己的《信条》电影。还有一个很酷的副作用：你可以得到反向运动但正向音频。

教程/实践视频

02:46

fofr@fofrAI

65

从一张建筑图像开始，并使用 Omni 提示生成投影映射。

图像生成教程/实践视频

00:17

IT之家（RSS）

56

百度MEG组织架构调整：合并商业部与电商事业部，数字人创新业务部升级为独立部门

百度MEG（移动生态事业群组）进行新一轮组织调整，合并商业部与电商事业部，成立大商业事业部；数字人创新业务部升级为独立部门。在Create 2026百度AI开发者大会上，百度宣布数字人品牌“慧播星”升级为“百度一镜”，并推出“一镜海外版”，将其打造为涵盖直播、视频、实时互动等多形态的全场景数字人平台。李彦宏称数字人是“看得见的智能体”。

行业动态视频

6月6日

22:29

PixVerse@PixVerse_

43

一位创作者。两周时间。10 多个角色。 Maverick--得克萨斯州最想要的考拉--回来了。《The Reckless Play》--PixVerse Originals S1。 @neuromiracle 独自在 PixVerse 上构建了它。 RT+关注+回复"Originals"= 150 Credits 及完整电影私信（仅限 72 小时）

产品更新视频

19:24

AYi@AYi_AInotes

66

刘梓渝公开AI短视频创作核心：导演思维嵌入工作流

《丧尸清道夫》作者刘梓渝公开爆火视频创作思路，核心并非依赖抽卡运气，而是将导演思维、镜头语言和后期剪辑完整嵌入AI工作流。该方法论值得AI短视频创作者逐帧学习。

教程/实践视频

18:24

AYi@AYi_AInotes

53

OpenCut：GitHub 5万星开源AI剪辑工具，本地优先、永久免费、无水印无会员

OpenCut 是一个 GitHub 5 万星的开源 AI 剪辑工具，主打本地优先，视频无需上传服务器，永久免费、无水印、无会员墙。目前处于 Early Beta 阶段，网页版支持基础剪辑（导入视频、时间线、切割），但导出、特效、转场等功能仍在开发。路线图包括 Rust 重写核心、Web+桌面+移动统一、插件系统、Editor API 及 MCP Server（让 AI Agent 直接调用工具），目标是成为可编程的视频底座，而非对标剪映的封闭工具。

AYi: http://x.com/i/article/2060717603987791878

GitHub MCP/工具开源/仓库开源生态

17:52

公众号：MiniMax（稀宇科技）

56

海螺AI×上影节活动日历：开放日6.14-6.15

MiniMax旗下海螺AI作为第28届上影节独家AI影像战略合作伙伴，6.14-6.15举办开放日。活动包括：AI片场·海螺专属Booth（展示1+1组合作品及过程）、6.14多模态行业交流会、6.15专题圆桌（超级创作者呈现四种图景、《流浪地球》制片人与青年导演对谈）。具体时间地点详见图片。

图像生成多模态行业动态视频

16:58

PixVerse@PixVerse_

27

受 @Dream_CanvasArt 精彩展示启发？你可以用 PixVerse MiniApps 创建自己的 VibeMV：https://app.pixverse.ai/mini-apps/vibe-mv 引用 @Dream_CanvasArt 制作了全 AI 动画音乐视频《DESERT STARS》，使用 PixVerse 上的 VibeMV 完成，并邀请大家加入全新的 Creative Partner Program 2.0。

xobehtedistuO: DESERT STARS ✨💫⭐️🌟 Full AI Animated Music Video I created this video using VibeMV on @PixVerse_ Make your first video ...

行业动态视频

10:40

DogeDesigner@cb_doge

27

Grok 将能够创作电影级别的影片，这一天将比许多人预期的更早到来。

xAI 大佬观点视频

04:12

fofr@fofrAI

44

尝试将这张Krea K2的输出用于Omni图像转视频，试图制作一段动漫开场序列。

图像生成教程/实践视频

00:07

Kling AI@Kling_ai

44

可灵AI第二届周年庆创作展示片大赛现已开启！🎁 2026年6月3日至6月17日（太平洋时间，UTC-8）提交你用可灵AI制作的"周年纪念回忆"或"创作展示片"。奖品包括现金、积分和可灵AI专属周年庆礼盒！访问官网了解更多信息。你的创意是我们能收到的最棒的生日礼物！

行业动态视频

6月5日

22:41

ViggleAI@ViggleAI

精选65

Mocap 不需要套装、工作室或数千美元。使用 @Viggle_PINOC，任何人都可以简单地拍摄自己，并将该视频转换为动作捕捉。我们仍处于测试阶段，且对所有人完全免费。试试看，告诉我们你还想看什么！

独立开发者William: 🤓mocap搞起来。现在这个时代真是太好了。手机拍个视频就能动作捕捉。想要什么技能就拍一个。

产品更新视频

推荐理由：动作捕捉从动捕服变成手机自拍，Viggle 这个 Pinoc 工具把 mocap 的门槛从数千美元拉到零，做动画和 VTuber 的可以直接玩起来了。

22:26

The Verge：AI（RSS）

55

Quilty 能靠剧本预测电影票房成败吗？

AI 初创公司 Quilty 宣称其工具仅通过阅读剧本就能准确预测电影的市场表现。然而，实际测试结果引发质疑：在拥有全球数据的情况下，Quilty 预测后来票房惨败的《Christy》会优于最终成为奥斯卡获奖大片的《Sinners》。Quilty 创始人认为这类工具能“民主化”电影行业，为新兴创作者提供辅助，但权威性有待验证。

视频评测/基准

22:22

Runway@runwayml

59

50 Crowns。一部完全由AI生成、讲述两名赏金猎人旅途的游戏内电影。由单人使用Runway在不到一周内制作完成。如果你有想法，你就能实现它。

产品更新视频

21:15

IT之家（RSS）

67

发布两年：快手可灵 AI 全球用户突破 1 亿，企业客户近 5 万

6月5日，快手旗下可灵AI宣布全球用户突破1亿，企业客户近5万。过去一年，可灵完成26次迭代，深入影视、广告、音乐MV、游戏、电商、智能硬件等场景，并发布由可灵AI全片生成的两周年短片。据IT之家此前报道，快手正评估拟议重组可灵AI相关资产及业务，或引入外部融资；目前可灵AI正在进行Pre-IPO轮融资，投前估值180亿美元，内部按2027年初递交港股上市申报材料推进。

多模态行业动态视频

20:59

Chubby♨️@kimmonismus

56

1/ 大多数AI视频工具仍像是演示。你输入提示词 → 你就得到一个片段。但真正的瓶颈从来不是生成。而是将一个创意转化为可用的东西。有了LTX Studio + LTX-2.3，这个差距基本上在消失。我刚制作的片段感觉……与众不同。一条线程：🧵

多模态大佬观点视频

20:56

PixVerse@PixVerse_

46

一艘废弃的豪华星级客轮。五位 Z 世代拾荒者。一个刚苏醒的 AI。太空废墟探险--PixVerse Originals 第一季。霓虹废土哥特风。 @michaelheina（PixVerse 首日合作伙伴）使用 PixVerse V6 打造了一个五人团体。匹配剪辑动作。每帧角色一致性锁定。转发+关注+回复"Originals"= 150 Credits 及私信完整影片（仅限 72 小时）

产品更新图像生成视频

20:26

PixVerse@PixVerse_

49

10 位创作者。10 个世界。全由 AI 打造。 PixVerse Originals 正式上线。我们为来自印尼、加拿大、美国、中国和乌克兰的电影人提供了积分、资金和全球发行支持。他们带来愿景，我们助其成真。转发+关注+回复 = 150 Creds 及完整影片私信发送（仅限 72 小时）

行业动态视频

19:17

公众号：火山引擎

42

火山引擎豆包Seedance 2.0进入广告核心生产流程

火山引擎豆包视频生成模型Seedance 2.0以音画同出、全能参考、物理规律遵循、长视频一致性及电影级审美，打通品牌广告高质感创作与效果广告规模化量产。品牌场景已应用于智己汽车、华为手机、芝华仕等；效果广告场景下，30秒素材制作成本30-45元/条，单日稳定产出上百条，AIGC优质素材平均ARPU提升80.2%。基于Seedance 2.0的KickArt 3.0 Agent可实现爆款素材参考生成与批量裂变，已在汽车、3C、电商、快消等行业落地。

产品更新视频

16:53

Alibaba Cloud@alibaba_cloud

21

越南 | 传统在流动中，由AI重新构想从河内的摩托车流到湄公河的水上市场，这段由Qwen和Wan创作的视频，用AI颂扬越南的活态文化。亲自尝试，探索Model Studio，立即开始用AI创作。 👉 https://int.alibabacloud.com/m/1000414086/

多模态行业动态视频

16:47

HuggingFace Daily Papers（社区热门论文）

53

OMTG（一对多时间定位）系统性方案发布

一对多时间定位（OMTG）旨在定位文本查询对应的多个不连续视频片段。现有SOTA多模态大模型（MLLMs）在此任务上几乎得零分，缺乏事件基数感知。为此，研究者建立了首个综合OMTG基准，引入计数准确率（C-Acc）和有效时间F1（EtF1）作为评测指标；构建包含56k样本的高质量OMTG数据集；开发了针对OMTG的时间奖励和描述奖励函数，其中描述奖励利用密集视频描述的链式推理指导策略优化。该方法在OMTG Bench上达到43.65%的EtF1，分别超过Gemini 2.5 Pro和Seed-1.8达15.85%和15.61%。

多模态视频论文/研究

14:25

PixVerse@PixVerse_

32

今天用 PixVerse 的 Seedance 2.0 试用了 Canvas 功能，从故事板到视频可以一贯制作。网友感叹太棒了🔥

むぎ@生成AI全般勉強中: 今日はPixVerseのseedance2.0で! PixVerse上でキャンバス機能がお試しで使えるようになっていたので触ってみました✨ やっぱりストーリーボードから動画まで一貫して作れるのはいいね🎵 Seedance2.0 #pixv...

产品更新视频

13:14

IT之家（RSS）

58

xAI 开放预览版图转视频模型 grok-imagine-video-1.5-preview，单图生成最高 720p 电影感视频

xAI 通过 API 开放预览版图像转视频模型 grok-imagine-video-1.5-preview，可将一张静态图像扩展为流畅的电影感视频片段。用户提供起始图片并用自然语言描述运动方式后，模型可控制镜头移动、画面节奏、环境氛围与物理效果。该模型最高支持 720p 视频生成，适合概念验证、分镜测试和短内容生产，并能通过逐段动画化将多镜头串联为更长场景。

xAI 图像生成模型发布视频

10:46

HuggingFace Daily Papers（社区热门论文）

69

Future-L1：用于视频事件预测的交错潜在视觉推理

Future-L1 是一种交错潜在视觉推理框架，让 MLLM 在自回归解码中交替生成语言 token 与连续潜在视觉 span。为此构建了 Future-L1-50K 数据集，并用潜在感知 RL 目标 LA-DAPO 优化采样轨迹。在 FutureBench 上，Future-L1 将 Qwen3-VL-8B 得分从 61.0 提升至 85.4，超过此前最优 Video-CoE 10.4 分；在 TwiFF-Bench 上平均分从 2.44 升至 3.04。结果表明，将中间视觉语义保留在潜在空间而非转化为文本，有益于未来视频推理。

arXiv 多模态视频论文/研究

10:46

HuggingFace Daily Papers（社区热门论文）

64

LoomVideo：高效统一视频生成与编辑架构

LoomVideo是一个5B参数的高效统一架构，支持视频生成与编辑。它用多模态大语言模型（MLLM）替换标准文本编码器，通过Deepstack注入机制对齐MLLM特征与扩散Transformer。核心创新为零开销的Scale-and-Add条件方法，直接缩放和加性处理源视频潜变量，避免token拼接导致的序列长度翻倍与自注意力计算复杂度增加。集成Negative Temporal RoPE策略处理多张参考图像。该模型在综合基准上达到或接近SOTA，尤其在电商和时尚生成场景表现突出，推理速度相比同类模型提升至少5.41倍。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

StreamForce：流式力控制驱动的实时视频生成框架

StreamForce 是一个因果统一的流式视频生成框架，通过连续力输入实现物理可控的视频生成。其采用统一力表示作为控制信号，并配合蒸馏流程训练，能即时且连贯地响应局部和全局时变力。StreamForce 在单个 GPU 上可达 16.6 FPS，兼具自回归效率和力响应能力，在力遵循度和运动真实性方面达到当前最优水平。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

64

Stream3D-VLM：支持增量几何先验的在线3D空间理解模型

Stream3D-VLM 是一种在线3D视觉语言模型，能从流式视频中实时进行空间理解。它基于LLM的下一token预测目标采用自回归流控制建模决定何时响应，通过轻量级Visual-Spatial Feature Integration（VSFI）模块逐步注入时序对齐的几何先验，并提出Geometry-Adaptive Voxel Compression（GAVC）模块用于视觉token的高效压缩。为缓解流式3D语言数据稀缺，构建了超过1M在线时空3D问答对的数据生成流程，并建立涵盖29个任务的benchmark。实验显示，该模型在在线和离线3D空间理解、推理与定位任务上均显著优于闭源及开源模型。

具身智能多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

63

基于MLLM的人类视角视频理解：观看、记忆、推理

该综述从人类视角审视基于多模态大语言模型的视频理解，将其组织为观看、记忆、推理三项核心能力。论文提出统一框架，通过感知表征、记忆状态、推理轨迹和最终预测刻画系统，识别了时空感知、高效长视频处理、记忆建模、流式理解及忠实推理等关键挑战。工作梳理了细粒度/全面/音视频/高效感知（观看）、离线与流式记忆（记忆）、纯文本与视频思维推理（推理）的方法，覆盖自我中心、体育、教学、医学、叙事等应用，并整理了训练数据集与评估基准，最后指明可扩展、记忆感知和证据驱动的视频智能等开放问题。

arXiv 多模态推理视频

07:06

fofr@fofrAI

68

> 业余竖屏手机视频，9：16 比例。连续不中断的手持镜头，一只毛茸茸的虎斑猫坐在阳光明媚的窗台上，望向枝叶繁茂的花园。猫的尾巴缓慢抽动，耳朵微微朝向环境噪音转动。阳光照亮空气中的尘埃。声音设计：微风轻拂、远处鸟鸣、安静的机械呼噜声。无对话。

图像生成教程/实践视频

06:36

fofr@fofrAI

67

让图片动起来。上传图片作为首帧，添加提示词，用Gemini Omni Flash生成专属视频。主推文表示Omni现已支持首帧功能。

Google Flow: Bring your images to life ⚡️ Upload your picture as a first frame and add a prompt to generate your own unique video wit...

Google 产品更新多模态视频

03:25

Chubby♨️@kimmonismus

48

Tavus Solutions正式发布，提供面向企业工作流的完整、生产就绪的AI人类解决方案，而非传统聊天机器人。该方案由Tavus团队负责构建和运维，抽象了角色设定、对话设计、集成、调优与部署等复杂环节，企业只需提供工作流程即可部署人类质量的AI交互界面，标志着从"构建AI基础设施"向"部署人类级AI界面"的转变。

Tavus: Introducing Tavus Solutions. Complete, production-ready AI humans for the enterprise workflows where human-quality conve...

产品更新视频语音

01:05

Google Gemini@GeminiApp

60

看看用 Gemini Omni 将最疯狂的创想变为现实有多简单。只需在 Gemini 中选择"Create videos"，添加文字、视频或多达五张图片，然后尽情释放你的想象力。

Google 产品更新多模态视频

6月4日

22:46

Runway@runwayml

同事件精选81

你需要的编辑，变得简单。Aleph 2.0 只更改你想要编辑的部分，保持画面的其余部分不变。在我们的新 Edit Studio 中试试。通过下方链接开始使用。

产品更新图像生成视频

同一事件，精选展示《Aleph 2.0 与 Edit Studio》

推荐理由：Runway 终于把 AI 视频编辑的精度问题解决了，Aleph 2.0 只改你选定的部分，其余画面纹丝不动，做视频的可以立刻去 Edit Studio 试试手。

20:52

Berryxia.AI@berryxia

71

open-design项目开源：html-video称"html版剪映"，Agent可写HTML生成宣传视频

open-design（项目名html-video）正式开源，被形容为“html版剪映”。Agent可通过编写HTML生成世界级产品宣传、知识解说视频，成本极低。项目历时3天、3万行代码，支持20多套视频风格模板，分页编辑，可导出mp4，支持Claude Code等主流Agent接入。

Tom Huang: 正式开源 html-video 🚀 html版剪映来了! 你的 Agent 现在可以通过写 html轻松做出世界级水准的产品宣传、知识解说视频,成本极低!🔥 历时 3 天,3 万行代码!支持20多套顶尖视频风格模板,分页编辑,mp4 导...

智能体 GitHub 开源/仓库视频

20:32

Orange AI@oran_ge

68

今天 ListenHub 的AI 视频功能正式上线啦，人类用户和 Agent 现在都可以调用 ListenHub 的服务生成视频。目前已支持 HappyHorse、Seedance 2.0 等视频模型。输入一个想法，或使用参考图、参考视频，即可一键生成视频。人类使用： ListenHub 官网： https://listenhub.ai/zh/app/ai-video Agent 使用： listenhub-cli：https://github.com/marswaveai/listenhub-cli skills： https://github.com/marswaveai/skills openapi： https://listenhub.ai/docs/zh/openapi/api-reference/ai-video

智能体 MCP/工具产品更新视频

1…8 91011 12…28