AI 视频最新动态与精选 · AI HOT

Topic · 主题全部主题 →

AI 视频

AI 视频生成与理解：文生视频模型、视频编辑工具与影视创作变革的追踪。

1,132条收录

85条精选

● 持续更新

近期焦点近 14 天 · 按多源报道热度

1让大模型从“一问一答”走向“边看边说”，京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction713 家源

7月3日

01:08

Apple Machine Learning Research（RSS）

精选56

VideoFlexTok：可变长度粗到细视频分词

VideoFlexTok提出一种可变长度token序列的视频表示方法，采用粗到细结构——首个token捕捉语义和运动等抽象信息，后续token添加精细细节，生成流解码器支持任意token数量的视频重建。相比传统3D网格分词，该结构允许根据下游需求调整token数，在相同预算下编码更长视频。在类别和文本到视频生成任务中，VideoFlexTok以1.1B参数（5.2B的1/5）达到可比生成质量（gFVD和ViCLIP Score）。训练一个处理10秒81帧视频的文本到视频模型仅需672个token，比同等3D网格分词器少8倍。

数据/训练视频论文/研究

推荐理由：把视频 tokenization 从固定网格改成变长 coarse-to-fine，训练效率提升明显，还能做更长的视频。研究角度挺漂亮，但离产品落地还有距离，做视频生成的可以追一下。

00:06

IT之家（RSS）

精选71

快手可灵AI获初始投资者20.28亿美元注资，投后估值180亿美元

快手在港交所公告，21名初始投资者同意以138.24亿元人民币（20.28亿美元）现金注资北京可灵，后者将持有可灵AI相关资产。同日15名额外投资者追加出资52.235亿元人民币（7.6639亿美元），认购总上限为204.471亿元（30亿美元），对应北京可灵扩大后注册资本的16.67%。投后估值180亿美元。快手预计未来12个月内启动可灵AI赴港上市，募资用于扩充算力、建设数据中心及人才引进。

行业动态视频

推荐理由：可灵AI这轮180亿美元估值融资，是AI视频赛道迄今最重量级的资本动作之一，也是中国AI公司分拆上市的标杆事件，值得关注后续上市进程。

7月2日

19:39

meng shao@shao__meng

精选79

browser-use 发布开源 AI 视频剪辑 Skill「video-use」

browser-use 团队推出面向 Codex、Claude Code 等 AI 编码智能体的开源 Skill「video-use」，让 LLM 通过 ElevenLabs Scribe 将音频转写为约 12KB 文本（含逐词时间戳、说话人分离、事件标记），仅在决策点调用 timeline_view.py 生成 PNG 帧图。技术流水线包括转写、打包、生成 JSON 格式 EDL、ffmpeg 渲染及最多 3 轮自评估。渲染关键细节：分段提取 + -c copy 拼接、30ms 音频淡入淡出、PTS 时移、字幕最后叠加、HDR 自动映射、竖屏缩放、两-pass loudnorm。动画支持 HyperFrames、Remotion、Manim 等引擎。项目附带 12 条硬规则确保生产正确性。

智能体 GitHub 开源/仓库视频

推荐理由：browser-use 团队把 AI 视频剪辑从「看视频帧」变成「读转写文本」，12KB 文本代替 4500 万 token 噪声的思路很聪明，一套可落地的 ffmpeg 脚本集，做 AI agent 视频处理的可以直接抄。

7月1日

03:55

NotebookLM@NotebookLM

精选68

NotebookLM 正式向 Web 英文用户全量推出 Short Video Overviews（短视频概览）功能。该功能可将复杂资料自动转化为 60 秒竖屏视频，深入讲解任意概念。此前，这一功能已面向 Google AI Ultra 和 Pro 订阅者（移动端及 Web）推出，免费用户即将可用。

NotebookLM: Doom scrolling but make it educational 🤓 Introducing Short Video Overviews in NotebookLM! Turn your most complex source...

Google 产品更新视频

推荐理由：NotebookLM 把资料源变成 60 秒竖屏视频，想法不新但落地很实用，学生和内容创作者可能会高频用上，只是颠覆性谈不上。

6月26日

02:41

Runway：News（网页）

精选65

Runway发布Agent 2.0

Runway发布Agent 2.0，帮助营销人员创建、测试和优化广告、视频及营销活动。品牌营销人员可在对话中开发活动概念、生成变体并自动本地化；绩效营销人员可上传创意并导入Meta、YouTube、TikTok或Google广告数据，由Agent分析后生成下一轮待测广告。社交媒体营销人员可一次性生成一周内容，自动裁切为9:16、16:9、1:1等格式；产品营销人员可借助Agent确定定位角度并构建活动资产。Agent 2.0面向所有用户开放。

智能体产品更新视频

推荐理由：Runway的Agent 2.0不只是生成视频，它试图打通从广告数据分析到全平台素材生成的闭环，做增长和社交内容的团队可以观望一下。

6月25日

11:12

HuggingFace Daily Papers（社区热门论文）

精选70

Causal-rCM：自回归视频扩散蒸馏的统一教师强制与自强制开源方案

Causal-rCM将扩散蒸馏框架rCM扩展至自回归视频扩散，提出教师强制(TF)与自强制(SF)互补训练范式，并发布统一开源算法与基础设施。通过自定义掩码FlashAttention-2 JVP内核，首次实现基于教师强制的连续时间一致性模型(sCM/MeanFlow)用于自回归视频扩散，收敛速度比离散时间版本快10倍。蒸馏后的2步因果Wan2.1-1.3B模型在仅1或2步采样下取得VBench-T2V分数84.63，仅使用合成数据即达到帧级和块级流式视频生成SOTA。该方法还应用于Cosmos 3全模态世界基础模型，实现动作条件生成的交互式世界模型。

arXiv 推理视频论文/研究

推荐理由：把自回归视频扩散蒸馏到1-2步采样，VBench冲到84.63，这个配方让实时视频生成和交互世界模型从论文走进了工程落地，做视频产品的该看。

6月24日

05:45

Runway@runwayml

精选72

Seedance 4K。Seedance Mini。Kling 3.0 Turbo。现已推出。全球最佳模型，汇聚一处。使用优惠码 30RUNWAY，前三个月可享七折优惠。通过下方链接开始使用。

产品更新视频

推荐理由：Runway 一次性推出 Seedance 4K 等多个模型，视频生成画质再升级，对 Sora 等的追赶信号明显，做视频的可以直接上手试试。

03:21

Hao AI Lab@haoailab

精选73

FastWan-QAD：单卡5090上1.8秒生成5秒视频

Sky Computing Lab 发布 FastWan-QAD 视频生成模型系列，基于 FastVideo 的量化感知蒸馏（QAD）方案训练。在单张 NVIDIA GeForce RTX 5090 上，端到端生成一段 5 秒 480P 视频仅需 1.8 秒。模型、代码及博客已开源。

GitHub Hugging Face 模型发布端侧

推荐理由：单张 RTX 5090 上 1.8 秒生成 5 秒视频，把消费级延迟压到了‘即时生成’的临界点，做短视频和互动应用的开发者可以认真把这个模型放进技术栈。

6月23日

07:18

Runway：News（网页）

精选59

Aleph 2.0 现已集成到 Figma Weave

Aleph 2.0 是 Runway 的旗舰视频编辑模型，现已在 Figma Weave 中上线。它是一个基于上下文的视频编辑模型，通过关键帧工作：从视频中提取一帧，重新设计风格并附上时间戳连接回 Aleph 2.0 节点，即可将该编辑传递到主体出现的每一帧，同时保持其他内容不变。支持最长 30 秒、1080p 的片段，可跨多镜头序列应用编辑，无需逐镜头处理。

产品更新视频

推荐理由：Runway 把旗舰视频编辑模型直接接入了 Figma 的创意画布，对设计师和视频团队来说，这意味着帧级编辑不用切换工具，协作流程可能大幅简化。

03:05

TechCrunch：AI（RSS）

精选70

Google DeepMind 7500 万美元投资 A24，合作开发电影 AI 工具

Google DeepMind 宣布向独立电影制片厂 A24 投资 7500 万美元（据《华尔街日报》），双方将合作开发电影制作 AI 工具。A24 出品过《万事俱备》《后室》等影片。Google DeepMind CEO Demis Hassabis 称，希望通过与艺术家直接合作，打造支持创意表达的 AI 功能。此举是好莱坞最新一次科技公司与电影 AI 联手，此前 Netflix 已收购 Ben Affleck 的 AI 工具公司 Interpositive，亚马逊 MGM 工作室也在去年设立了影视 AI 部门。

DeepMind 行业动态视频

推荐理由：Google DeepMind 首次在影视内容创作上投入 7500 万美元，与 A24 合作开发 AI 工具，这标志着顶尖 AI 实验室开始直接渗透好莱坞核心创意流程，做文娱 AI 工具的人和关注产业交叉点的人应该留意。

6月19日

20:51

elvis@omarsar0

精选75

YT 视频 -> Artifacts 看看我如何使用新的 /youtube-notetaker 技能从 YT 视频生成 Artifacts。捕获幻灯片、笔记、转录内容…… 快去试试 ↓

开源/仓库教程/实践视频

推荐理由：Elvis 新做的 /youtube-notetaker skill 能直接从 YouTube 视频提取幻灯和笔记，学生和 UP 主会很受用，对业界整体没什么推动，但实用度很高。

6月17日

21:07

IT之家（RSS）

精选74

阿里云发布HappyOyster 1.0：一句话生成可实时交互的数字世界

6月17日，阿里云发布开放式世界模型HappyOyster 1.0（快乐生蚝）。该产品基于原生多模态架构，支持多模态输入与音视频联合生成，可在生成过程中持续接收用户指令并实时响应画面。它深度学习物理世界状态转移规律，保持人物和环境长程一致性。官网开放“实时导演”与“世界探索”两种玩法：前者可随时叫停改写故事、与虚拟男友实时互动等；后者支持自由漫游、滑板冲刺、翼装滑翔、骑马奔驰、攻击打怪等交互。该产品已于今年4月16日开放内测，即日起至7月17日官网不定期掉落体验积分。

产品更新多模态视频

推荐理由：阿里把世界模型做成了可玩的交互产品，一句话生成能探索能互动的数字世界，实时导演模式直接替代了一部分短剧和互动内容创作，虽然还像噱头但至少是能玩的尝试。

17:50

公众号：火山引擎

精选63

Kickart 3.0发布，让广告视频创作更精准高效

火山引擎一站式营销创作平台Kickart 3.0（原“创作Agent”）正式上线，升级为对话式视频生成模式，用户可通过多轮对话调整商品图、故事板等，用自然语言生成营销视频。新增“爆款裂变”能力，上传视频链接后自动拆解爆款逻辑并重构至新商品视频，支持抖音电商内容合规与质量预审核。平台开放SaaS、API及Skill等多种交付方式，并已接入Seedance 2.0 mini，助力降低广告营销成本。

产品更新视频

推荐理由：火山引擎为营销人带来的视频生成工具体验不错，对话式调整和爆款裂变能降低创作门槛，但对于关注AI技术进展的读者，这更像一次垂直行业产品迭代，亮点有限。

08:27

宝玉@dotey

精选75

baoyu-design 本地动画视频导出功能更新

baoyu-design（本地运行 Claude Design 的 Skill）新增动画视频导出功能。其声明式动画引擎基于 f(t) 设计：任意时间点 t 可绝对确定画面状态。导出采用无头 Chromium 逐帧截图 + ffmpeg 编码，每帧等待两帧 requestAnimationFrame 确保渲染完成。截图以 2 倍 DPR（3840×2160）再缩回 1080p，保证细节清晰。95 秒 30fps 动画需 2850 次截图循环，帧帧精确。项目已开源（MIT），获 1.2K star。此前 baoyu-design 已支持 PPT 本地生成和导出可编辑 PPTX。

宝玉: baoyu-design skill(让你本地运行 Claude Design 的 Skill)更新,本地生成 PPT 的效果,可以借助 Cursor、Codex 内置的浏览器预览 PPT,也可以直接用它们的标记工具修改 PPT 细节。按 ...

GitHub 多模态开源/仓库视频

推荐理由：宝玉把 Claude Design 动画导出能力做成了本地 skill，原理讲得很透，声明式引擎加 f(t) 直接抽帧的思路让开发者能零成本复现，想要高质量 AI 动画输出的创作者可以立即用起来。

6月16日

10:00

IT之家（RSS）

精选70

成本砍半，字节跳动推出 Seedance 2.0 Mini 视频生成模型

字节跳动火山引擎旗下火山方舟体验中心于 6 月 15 日上线 Seedance 2.0 Mini 视频生成模型，计划近期开放 API。该模型比 Seedance 2.0 Fast 快 2 倍，输出质量相当。图生视频定价 0.023 元/千 tokens，视频生视频 0.014 元/千 tokens，720P 规格下单秒生成成本约 0.5 元，较 Seedance 2.0 标准版降低约一半。模型面向电商内容生产、营销素材批量生成、UGC 创作及特效玩法等高频率、大规模视频生成场景。

模型发布视频

推荐理由：Seedance 2.0 Mini 把视频生成成本压到 0.5 元/秒，比标准版便宜一半，对做大批量电商素材和 UGC 的团队是个实际信号，值得等 API 开放后看实测。

6月12日

17:00

HuggingFace Daily Papers（社区热门论文）

精选73

HYDRA-X：原生统一多模态模型与整体视觉分词器

HYDRA-X 是首个在单个 Vision Transformer (ViT) 中统一图像与视频 tokenization 的统一多模态模型。通过帧级因果时间注意力实现视觉重建，并采用层级时间压缩替代单步压缩。轻量级解压器在联合图像-视频教师监督下上采样时间压缩特征。编辑管线中，源-目标交互在分词器内部潜在层面而非 LLM 语义层面进行，提升编辑一致性与收敛速度。7B 密集模型在图像与视频理解及生成任务上表现强劲。

arXiv 多模态视频论文/研究

推荐理由：HYDRA-X 第一次把图像和视频标记塞进同一个 ViT，光看设计了帧级时序注意力和分层压缩这两个小 tricks 就值回票价，做多模态模型的该读读。

6月10日

16:56

HuggingFace Daily Papers（社区热门论文）

精选70

快手开源 Kwai Keye-VL-2.0-30B-A3B：面向长视频理解与智能体智能的 MoE 多模态模型

快手开源 Kwai Keye-VL-2.0-30B-A3B，一个 MoE 多模态基础模型，激活仅 3B 参数，专为长视频理解和智能体智能设计。模型首次将 DeepSeek Sparse Attention (DSA) 适配到 GQA 多模态架构，实现无损 256K 上下文处理，并通过可扩展视频 I/O、异构 ViT-LM 并行及自定义 DSA 内核优化吞吐与计算开销。引入跨模态多教师在策略蒸馏（MOPD）结合 Context-RL 和 Video-RL，缓解多任务对齐中的灾难性遗忘，原生支持代码、工具、搜索场景下的多智能体协作与多模态自纠正。在 TimeLens、Video-MME-v2、LongVideoBench 等多个基准上达到同类规模 SOTA，模型权重已开源。

智能体多模态视频论文/研究

推荐理由：Keye-VL-2.0 把长视频理解推到 256K 上下文，还用了 DeepSeek 的稀疏注意力，这是目前我能找到的对长短视频最兼顾的多模态模型，做视频 agent 的该看看。

12:56

HuggingFace Daily Papers（社区热门论文）

精选73

Flow-DPPO：面向流匹配模型的散度近端策略优化

针对流匹配模型中在线强化学习比率裁剪策略约束不当的问题，Flow-DPPO 提出用散度近端约束替代。关键洞察是流模型每步策略为高斯分布，可精确计算新旧策略间的 KL 散度。Flow-DPPO 采用非对称散度掩码，仅在梯度更新偏离信任区域且超阈值时阻止更新。实验表明，Flow-DPPO 获得更高奖励，KL 近端效率更优，缓解了灾难性遗忘，促进多目标均衡，并能在比率裁剪失效时支持稳定的多轮训练。代码已开源。

图像生成推理视频论文/研究

推荐理由：用 KL 散度代替比值裁剪来解决流匹配 RL 训练的不稳定，理论简洁，代码已开源，做图像/视频生成优化的同学可以跑一下。

12:40

公众号：火山引擎

精选68

火山方舟版权商业化平台上线，周星驰比高集团三大电影IP首批入驻

火山引擎今日上线火山方舟版权商业化平台，推出行业首个覆盖“授权—保护—审核—分发—变现”全链路的版权合作机制。平台搭载视频生成模型Seedance 2.0及版权治理体系，已获周星驰旗下比高集团《喜剧之王》《食神》《长江七号》三部影片在AI视频创作场景下的版权使用权，并基于Seedance 2.0打造经典桥段AI创作模板。模板已在火山方舟体验中心、火山引擎Kickart上线，同步开放给LibTV、筷子科技丽帧引擎等工具合作伙伴。平台面向UGC和商业广告场景提供分润制、项目制等变现路径，未来还将提供版权管理后台，实现授权可见、使用可查、收入透明。

产品更新视频

推荐理由：这是AI视频领域第一次有平台把版权授权、审核、变现全链路跑通，而且首批入驻的是周星驰的《喜剧之王》《食神》这种真金IP，做AI视频的人终于不用在侵权边缘试探了。

00:59

Luma@LumaLabsAI

精选78

Ray3.2 API 可大规模运行电影级渲染，并集成到您正在构建的产品中。专为在交付的产品中打造电影感的开发者、代理机构和企业而设计。开始构建 → http://lumalabs.ai/api

产品更新视频

推荐理由：Luma把Ray3.2的电影级视频生成做成API，开发者和产品团队不用自己搞视频模型了，能直接嵌进现有产品，做视频应用的值得试试。

6月9日

04:58

ViggleAI@ViggleAI

精选66

推出 Viggle API。给任意角色添加任意动作，一次 API 调用--数秒内即可激活。可接入 Claude、Codex 或你正在构建的任何智能体。起价 $0.01/秒。注册即获 100 次免费额度。转发 + 关注 + 评论，10 位中奖者再获 100 次！了解更多👇

智能体产品更新视频

推荐理由：给角色加动作的API降到$0.01/秒，还能直接接进Claude和Codex，做视频Agent的开发者可以试试。但纯API发布，普通用户不用激动。

6月8日

21:36

小互@xiaohu

精选79

小互开源视频翻译工具：一句话自动下载、转写、翻译、烧字幕

小互（@xiaohu）开源视频翻译工具（xiaohu-video-translate），只需说一句“把链接翻译成中文字幕视频”即可全自动完成下载、Whisper本地转写、AI翻译润色、烧字幕、出文稿。转写本地运行，不花API费。支持YouTube、Bilibili、抖音等链接及本地文件，英语、日语、韩语、法语、西班牙语等均可转成中文字幕。字幕精确到词级时间戳，按语义断句，每行不超过12字，双语模式下中文大英文小。提供纯中文与中英双语模式。工具由三个子技能组成，可单独或串联使用，适配Claude Code、Codex、OpenClaw等AI编程工具。已开源，附安装指南。

GitHub 开源/仓库视频语音

推荐理由：小互把自己用了半年的视频翻译工具开源了，本地Whisper转写加AI润色，下载、翻译、烧字幕一句话搞定，做海外视频搬运或想省时间的，装一下就能省掉大半天手工。

17:32

公众号：生数科技（Vidu·视频）

精选65

生数科技与华策影视达成战略合作，共建AI视听创制中心

6月7日，生数科技与华策影视签署战略合作协议，共同推动AI与影视产业融合。双方将以华策影视科技产教示范区为载体、生数科技Vidu视频生成大模型为技术底座，设立“AI视听创制中心”，探索AI虚拟制作与实拍结合。同时在浙江华策影视学校设立“华策&生数AI影视创制专业”，课程覆盖传统编导剪与AI视频制作技术。内容生产层面推广“实拍+AI”融合方案并优先在华策项目中试点，创作者生态层面引导Vidu社区超级创作者到产教基地注册。

行业动态视频

推荐理由：AI 视频不再只是跑 demo，Vidu 和华策的合作把生成模型拉进了真实生产流程，做影视的人该开始关注落地速度了。

6月5日

22:41

ViggleAI@ViggleAI

精选65

Mocap 不需要套装、工作室或数千美元。使用 @Viggle_PINOC，任何人都可以简单地拍摄自己，并将该视频转换为动作捕捉。我们仍处于测试阶段，且对所有人完全免费。试试看，告诉我们你还想看什么！

独立开发者William: 🤓mocap搞起来。现在这个时代真是太好了。手机拍个视频就能动作捕捉。想要什么技能就拍一个。

产品更新视频

推荐理由：动作捕捉从动捕服变成手机自拍，Viggle 这个 Pinoc 工具把 mocap 的门槛从数千美元拉到零，做动画和 VTuber 的可以直接玩起来了。

6月4日

10:42

HuggingFace Daily Papers（社区热门论文）

精选79

Echo-Infinity：学习演化记忆实现实时无限视频生成

Echo-Infinity 是一个自回归（AR）框架，用于实时无限视频生成。它用可学习的演化记忆替代人工缓存策略，通过注意力机制和门控更新 Memory Query，与视频扩散 Transformer（DiTs）端到端优化，支持任意压缩比且计算量不随视频长度增加。同时引入 Unified Relative RoPE Recipe，锚定 sink 帧从 id 0 开始、最新帧 id 不超过预训练最大时间 RoPE id，解除有限 RoPE 约束并缩小外推差距。在长/短视频生成中达到 SOTA，首次实现 24 小时（超 130 万帧）实时滚动生成。

arXiv 视频论文/研究

推荐理由：论文把长视频生成的记忆机制从手动压缩换成了可学习的动态演化，首次做到24小时实时无限生成，这对视频生成走出‘短视频玩具’阶段是个决定性的信号。

09:28

xAI：News（网页）

精选75

xAI 发布 Grok Imagine 1.5 预览版（图像转视频模型）

xAI 通过 API 发布了图像转视频模型 grok-imagine-video-1.5-preview（Grok Imagine 1.5 预览版）。该模型能将单张静态图片转为流畅的电影感视频，用户提供起始帧和描述运动的提示词后，模型可生成包含相机移动、氛围和物理效果的动画，并保持对源图像的忠实。支持生成 720p 片段，可使用自然语言指令控制镜头、节奏和音效，并支持逐帧拼接成长场景。模型目前通过 xAI API 提供预览使用。

xAI 多模态模型发布视频

关联讨论 4 条

推荐理由：xAI的新视频模型从单张图像生成电影级短片，支持自然语言控制运镜和氛围，对视频创作者和开发者是个值得一试的工具。

6月3日

13:38

公众号：火山引擎

精选64

Vibe Creating：让创作回归「表达」本身

火山引擎 Seedance 2.0 提出 AI 视频创作新范式 Vibe Creating，核心是让创作者放下技术负担，用故事表达代替复杂 Prompt 参数。该范式强调用富有画面感的语言描述场景、情绪和叙事，模型自行理解意图并完成景别、光影、节奏的诠释，避免过度规定镜头调度。适用于文学作品可视化、影视预演等场景，并配套发布《Vibe Creating 实践手册》及可执行的 Prompt Skill，从创意到高质量提示词一步到位。

教程/实践视频

推荐理由：火山引擎把 Seedance 2.0 的用法提炼成「Vibe Creating」方法论，核心是教人用故事感代替镜头术语，虽然不涉及模型升级，但附带可直接套用的手册和 Skill，做 AI 短视频的可以当成 Prompt 指南。

6月2日

00:26

Google Gemini@GeminiApp

精选71

轻松将自己添加到Gemini的视频创作中。以下是如何使用Gemini Omni创建一个外观和声音都像你的数字分身。🧵

Google 图像生成教程/实践视频

关联讨论 1 条

推荐理由：官方给了个傻瓜教程，看一遍就能在视频里塞进自己的数字分身，做短视频和教学的可以省掉真人出镜的麻烦。

6月1日

18:24

Runway：News（网页）

精选61

Runway 在伦敦设立欧洲总部及世界模型研究中心

Runway 宣布在伦敦建立新的欧洲总部和专注于通用世界模型的研究中心。公司计划在未来18个月向英国AI生态投资$100M，到2028年投资额将翻倍以上。过去12个月，其在欧洲的订阅销量增长了50%，企业客户占比超20%。新总部将扩大其在欧洲的研究与商业布局，公司正招聘欧洲负责人以组建跨研究、产品、工程和销售的团队，并深化与BBC、Fremantle、WPP等企业的合作。世界模型是其研究的核心，旨在将生成式AI的应用扩展至机器人、科学研究与工业模拟等领域。

行业动态视频

关联讨论 1 条

推荐理由：Runway 把世界模型研发带到伦敦并承诺 1 亿美元投资，不是新品但战略意义清晰，欧洲的视频创作者和工业仿真团队离顶尖工具更近了，做影视、游戏和机器人的可以关注后续落地。

5月31日

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

τ_0-WM：用于机器人操控的统一视频-动作世界模型

τ_0-World Model (τ_0-WM) 是一个统一的视频-动作世界模型，旨在机器人执行动作前预测并评估其未来后果。模型基于共享的视频扩散主干网络构建，提供两个接口：一个联合预测未来视觉潜在表示与连续动作块的视频动作模型，以及一个能将动作序列展开为多视角未来并预测任务进度分数的动作条件视频模拟器。τ_0-WM 使用约27,300小时的多元数据训练，包括真实机器人遥操作、UMI风格交互、自我中心人类视频等。推理时，模型通过测试时计算采样动作候选，并利用去噪一致性和基于模拟器的修正来筛选低质量动作，在长时程和精细机器人操控任务上表现出优于相关基准的性能。

具身智能数据/训练视频论文/研究

推荐理由：机器人操作领域的大一统尝试，把视频预测和动作生成放在一个扩散模型里，还用27万小时数据训练，做具身智能的可以看看这个架构。

5月28日

02:00

Hao AI Lab@haoailab

精选70

🚀仅需7秒即可生成30秒1080p视频！我们开源了FastVideo Dreamverse：基于单张NVIDIA B200 GPU和LTX-2模型，实现实时视频生成的氛围引导工具。 Repo： https://github.com/hao-ai-lab/FastVideo/tree/main/apps/dreamverse Blog： https://haoailab.com/blogs/fastvideo-dreamverse-release/

GitHub 开源/仓库视频部署/工程

推荐理由：7秒钟出30秒1080p视频，而且完全开源，视频生成速度被拉到实时边缘，虽然B200不是人人有，但路线值得所有做视频产品的同行研究。

5月26日

22:34

Runway：News（网页）

精选68

Project Luxo：跨越AI媒体的恐怖谷

Runway通过Project Luxo研究发现，AI生成视频已跨越“恐怖谷”。他们向创意生态从业者展示了《The Rogue》等AI短片及广告样片，评估显示观众开始关注故事本身，而非技术瑕疵。所有作品均由单人团队制作，耗时从3周到4小时不等。Runway认为，这标志着AI媒体成熟——当技术足够好以至于“隐形”，观众沉浸于故事时，便实现了这一跨越。

多模态现象/趋势视频

关联讨论 1 条

推荐理由：Runway 用短片和一次百万播放广告测试宣称 AI 视频已越过恐怖谷，观众开始投入故事而非找瑕疵。这对内容生产的心理门槛是一次重塑，但一次推广式的成功不等于行业已稳定跨过。

11:18

HuggingFace Daily Papers（社区热门论文）

精选70

WBench：面向交互式世界模型评估的多轮基准

WBench 是一个用于系统评估交互式世界模型的多轮基准。它提出了一个五维评估框架，涵盖视频质量、场景设定遵循度、交互指令遵循度、一致性与物理符合性。该基准包含 289 个测试案例与 1,058 轮交互，覆盖了多样化的场景、风格、主体及第一/第三人称视角。评估使用 22 个结合专业视觉模型与大型多模态模型的自动子指标，所有指标均经过人工校验。对 20 个 SOTA 模型的评测发现，目前尚无模型在所有维度上表现均优。

arXiv 多模态视频论文/研究

推荐理由：视频世界模型的评估终于有了统一尺度，WBench 从画面质量到物理一致性覆盖五个维度，289 个测试用例把 20 个模型拉平一看，没有谁全面领先，做这方向的值得拿来跑一遍。

08:00

HuggingFace Daily Papers（社区热门论文）

精选72

GE-Sim 2.0：面向机器人操作的全面闭环视频世界模拟器路线图

GE-Sim 2.0是一个用于机器人操作的闭环视频世界模拟器。它基于动作条件视频生成框架，并使用数千小时涵盖遥操作与接触交互等真实世界数据进行重新训练，提升了动作跟随与轨迹覆盖能力。其核心新增三个模块：从视频潜变量解码本体感受状态的“状态专家”；为生成轨迹评分并提供成功信号与奖励的“世界评判”；以及能实现快速轨迹生成的加速框架。该模型仅2B参数，在WorldArena排行榜上位列第一，优于专用模型与闭源生成器，其训练出的策略能转化为实际世界性能提升。

具身智能视频论文/研究

推荐理由：过去机器人策略训练卡在仿真到真机的鸿沟上，GE-Sim 2.0 把视频生成、状态提取和自动评估闭环了，策略迭代效率可能翻倍，搞具身智能的很值得蹲一下。

5月23日

06:39

ViggleAI@ViggleAI

精选75

动作捕捉和角色动画制作从未如此简单。持续构建，更多功能即将推出！

PINOC: A walkthrough of what PINOC does: 🧵 1. Upload a motion video, get clean skeletal animation. Export as .fbx/.glb, ready ...

产品更新视频

推荐理由：Viggle 把视频转骨骼动画这件事做到了零成本，无动捕设备、直接导出 FBX，对独立动画师和小团队挺友好，值得试试看。

5月20日

02:41

Google DeepMind@GoogleDeepMind

精选72

Google Flow 🤝 Gemini Omni 使用我们的最新模型创作更具电影感的故事，它带来了批量编辑、改进的角色一致性等功能。以下是@FlowbyGoogle的其他新功能 → https://goo.gle/42K2nge #GoogleIO

Google 产品更新视频

推荐理由：Google Flow 终于把批量编辑和角色一致性拉上来了，对做视频内容的人能省不少事，虽然不算颠覆性的代际更新，但实用度提升明显。

5月19日

00:52

Hugging Face：Blog（RSS）

精选67

NVIDIA Cosmos Predict 2.5 微调：使用 LoRA/DoRA 生成机器人视频

NVIDIA Cosmos Predict 2.5 是一个 2B 参数的世界模型，可根据文本、图像或视频片段生成物理合理的视频。通过 LoRA 或 DoRA 在 DiT 的注意力层（to_q, to_k, to_v, to_out.0）和前馈层注入可训练适配器，冻结全部基座权重，在单个 80GB GPU 上即可完成参数高效微调，避免了全量微调的高成本与灾难性遗忘。该流程使用 diffusers 和 accelerate 库，利用 92 个机器人操作视频训练集与 50 个 (prompt， image) 测试对进行微调，并展示如何用微调模型生成合成机器人轨迹以支持下游机器人学习任务。支持单 GPU 与多 GPU 训练，切换不同领域适配器无需重训。

具身智能教程/实践数据/训练视频

推荐理由：这篇教程把微调Cosmos Predict 2.5的方法从头到尾讲清楚了，做机器人合成数据的同行可以直接抄作业，LoRA/DoRA切换也很方便，值得收藏。

5月16日

23:31

Hacker News 热门（buzzing.cc 中文翻译）

精选73

SANA-WM：一个用于生成1分钟720p视频的26亿级开源世界模型

NVIDIA研究团队发布了SANA-WM，这是一个参数规模达26亿的开源世界模型，专门用于生成长达1分钟、分辨率为720p的视频。该模型已在GitHub页面开源，旨在推动高质量长视频生成的研发。其在Hacker News社区获得了107点热度，显示出业界对该技术进展的关注。

开源生态模型发布视频

推荐理由：开源且能跑 1 分钟 720p，NVIDIA 这个 2.6B 世界模型在物理一致性上跨了一大步，做视频生成和物理仿真的同行该坐不住了。

03:28

Runway@runwayml

精选78

Runway Agent 让你仅需一次会话，就能从产品照片和想法转变为完全制作完成的广告。立即通过下方链接开始体验。

产品更新图像生成视频

推荐理由：Runway Agent把广告制作压到一张产品图加一句话的极简流程，做电商和创意的值得上手测一下是不是真省时间。

5月15日

08:10

Runway：News（网页）

精选67

Runway正式进军日本市场，在东京设立总部并投入4000万美元

生成式AI公司Runway宣布在日本东京设立总部，正式进军日本市场，并计划投入4000万美元初始资金拓展业务。日本已成为Runway增长最快的市场之一，是其全球企业及自助客户的第三大市场。过去一年，日本企业客户数量增长300%，贡献了Runway亚洲总销售额的三分之一。软银、雅马哈等企业已在营销与创意流程中使用其服务。公司此次扩张旨在贴近日本领先的创意、机器人及制造行业客户，并已开始招募日本市场负责人以组建本地团队。

行业动态视频

推荐理由：Runway 在日本已有 300% 企业增长，这次砸 4000 万美元设东京办公室，对关注亚洲市场的人来说是个信号，AI 视频工具的全球化布局正在加速。