5月22日

15:02

公众号：月之暗面（Kimi）

Kimi 原生视频理解能力已登陆 TRAE 中国版，分享体验得 Labubu！

产品更新多模态视频

14:02

公众号：龙猫LongCat（美团）

从高拟真到真可用，LongCat-Video-Avatar 1.5 正式开源

美团技术团队正式开源 LongCat-Video-Avatar 1.5，该版本从高拟真走向真可用，将视频头像生成从室内彩排演练推向千人千面的真实应用场景。

图像生成模型发布视频

02:45

Runway：News（网页）

同事件精选74

Runway发布Aleph 2.0视频编辑模型及Edit Studio应用

Runway于2026年5月21日发布了视频编辑模型Aleph 2.0及其新产品Edit Studio。Aleph 2.0支持编辑最长30秒的1080p视频，具备精准局部编辑能力，可只改变指定内容而完全保留原视频其余部分。该模型引入了基于单帧图像的精确控制，并支持一次性跨多个镜头应用编辑。Edit Studio是基于这些新能力构建的应用，旨在帮助用户高效地将现有视频素材转化为所需版本，例如更换产品、调整背景或修复拍摄瑕疵。该功能现已向所有付费Runway桌面网页端用户开放，使用优惠码可享受套餐折扣。

产品更新视频

同一事件，精选展示《Aleph 2.0 与 Edit Studio》

推荐理由：精准局部编辑是过去一年 AI 视频工具最大的短板，Aleph 2.0 把这事做对了，预览控制加多镜头编辑让商业视频迭代成本大幅下降。

5月21日

13:43

公众号：京东JoyAI

京东数字人核心能力升级

京东数字人近日完成核心能力升级，从“会播、会答”的数字主播进化为面向直播经营全链路的智能增长中枢，帮助商家以更低成本打造接近真人头部达播效果的直播间。已累计服务超7万商家，2026年一季度开播量同比激增10倍。该产品为京东自研AI，曾获2024年吴文俊奖，实现长时长、自由态、高频互动，推出采销东哥、总裁、明星及IP数字人。

产品更新视频语音

11:05

公众号：火山引擎

火山剧创1.0上线：重塑短剧工业化流程，制作周期缩短80%

火山剧创1.0正式发布，旨在重塑短剧工业化生产流程。该产品将短剧制作周期缩短80%，通过标准化、自动化工具链提升效率，降低门槛。火山引擎依托自身技术积累，为短剧行业提供从创意到成片的一站式解决方案。

产品更新视频

5月20日

19:09

公众号：火山引擎

在戛纳，和电影大师们聊了聊Seedance

火山引擎的Seedance在戛纳电影节上与多位电影大师进行了交流。

其他视频

01:48

Google DeepMind：Blog（RSS）

同事件精选83

推出Gemini Omni多模态AI模型

谷歌推出原生多模态AI模型Gemini Omni，能够整合视频、图像、音频和文本等多种输入，生成高质量视频内容。其核心能力是通过自然语言对话进行视频编辑，并能保持角色一致性、物理规律与场景连贯性。首个模型Gemini Omni Flash已上线，未来将支持图像和音频输出。Gemini Omni结合了对物理世界的直觉理解与丰富的知识库，支持从写实到叙事的创意生成，并可通过多轮对话持续编辑视频，而不丢失原始场景上下文。

DeepMind Google 多模态模型发布

同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

推荐理由：Gemini Omni 把视频生成从画面堆砌推到了物理世界叙事，多轮自然语言编辑和世界知识融合是真正的代际升级，做视频内容的该重新理解工具的定义了。

5月19日

14:28

公众号：可灵AI（快手·视频）

可灵AI与候鸟300发起"候鸟记忆复活计划"

可灵AI与候鸟300合作推出#候鸟记忆复活计划，邀请曾参与候鸟300的艺术家用旧照片、影像、手稿或故事作为素材，通过可灵AI续写创作。活动即日起至5月31日，带话题发布视频并填写问卷即视为参与。将综合创意独特性和技术表现力筛选10支优秀作品，各奖励12,000灵感值。

图像生成行业动态视频

00:52

Hugging Face：Blog（RSS）

精选67

NVIDIA Cosmos Predict 2.5 微调：使用 LoRA/DoRA 生成机器人视频

NVIDIA Cosmos Predict 2.5 是一个 2B 参数的世界模型，可根据文本、图像或视频片段生成物理合理的视频。通过 LoRA 或 DoRA 在 DiT 的注意力层（to_q, to_k, to_v, to_out.0）和前馈层注入可训练适配器，冻结全部基座权重，在单个 80GB GPU 上即可完成参数高效微调，避免了全量微调的高成本与灾难性遗忘。该流程使用 diffusers 和 accelerate 库，利用 92 个机器人操作视频训练集与 50 个 (prompt， image) 测试对进行微调，并展示如何用微调模型生成合成机器人轨迹以支持下游机器人学习任务。支持单 GPU 与多 GPU 训练，切换不同领域适配器无需重训。

具身智能教程/实践数据/训练视频

推荐理由：这篇教程把微调Cosmos Predict 2.5的方法从头到尾讲清楚了，做机器人合成数据的同行可以直接抄作业，LoRA/DoRA切换也很方便，值得收藏。

5月18日

16:07

公众号：可灵AI（快手·视频）

可灵AI上线全球首个原生4K视频模型

可灵AI推出全球首个原生4K视频模型，旨在利用原生4K技术重塑创作流程，加速AI赋能影视工业级内容创作。

产品更新多模态视频

5月17日

11:00

公众号：可灵AI（快手·视频）

戛纳倒计时|可灵AI戛纳论坛议程抢先看

行业动态视频

5月15日

11:00

公众号：可灵AI（快手·视频）

可灵AI即将亮相第79届戛纳国际电影节！

可灵AI将参与第79届戛纳电影节电影市场官方论坛，展示三部合作作品：李炜导演的动画电影《疍家风云》、Jon Erwin导演的电视剧集《House of David》、Eekjun Yang导演的院线电影《RAPHAEL》。论坛主题为“从创意构想到影视工业级落地：可灵AI赋能电影创作流程”，于5月18日15:30-17:30（戛纳当地时间）在戛纳影节宫主舞台举行。

行业动态视频

08:10

Runway：News（网页）

精选67

Runway正式进军日本市场，在东京设立总部并投入4000万美元

生成式AI公司Runway宣布在日本东京设立总部，正式进军日本市场，并计划投入4000万美元初始资金拓展业务。日本已成为Runway增长最快的市场之一，是其全球企业及自助客户的第三大市场。过去一年，日本企业客户数量增长300%，贡献了Runway亚洲总销售额的三分之一。软银、雅马哈等企业已在营销与创意流程中使用其服务。公司此次扩张旨在贴近日本领先的创意、机器人及制造行业客户，并已开始招募日本市场负责人以组建本地团队。

行业动态视频

推荐理由：Runway 在日本已有 300% 企业增长，这次砸 4000 万美元设东京办公室，对关注亚洲市场的人来说是个信号，AI 视频工具的全球化布局正在加速。

5月14日

11:53

CMU：Machine Learning Blog

精选63

教视觉-语言模型说"电影语言"

研究团队与百余名专业创作者历时一年，构建了一个视频描述生成流程，其核心在于扩展精细化的人类-AI协同监督，而非单纯扩大模型规模。该研究（入选CVPR 2026亮点论文）指出，当前主流视频生成模型在理解和生成具有电影感的专业运镜（如希区柯克式滑动变焦、精确的焦点转移或荷兰角镜头）时存在明显不足，常产出通用或焦点错误的画面。这项工作揭示了一条通过提升监督质量来增强模型“电影语言”表达能力的新路径。

多模态视频论文/研究

推荐理由：这篇CVPR 2026 Highlight的博客版很有意思，它用100多个专业电影人来标注视频，教VLM学会推拉摇移的镜头语言，不是又多一个数据集，而是提醒我们：高质量的人工标注可能比堆模型更重要。

5月11日

08:00

Thinking Machines Lab：官方博客（RSS）

精选59

Thinking Machines Lab发布Interaction Models研究预览

Thinking Machines Lab发布interaction models研究预览。该模型从零训练，原生处理音频、视频和文本，采用多流微回合设计实现实时响应，无需外部脚手架。研究预览展示了全新的交互能力，并在智能性与响应性上取得综合SOTA表现。

智能体多模态模型发布视频

推荐理由：Thinking Machines 把实时交互训进了模型本身，不再是外挂脚手架，微轮次架构和 benchmark 数据很硬，做语音/视频助手的可以认真看看，虽然还是研究预览，但方向值得盯着。

5月6日

19:00

公众号：可灵AI（快手·视频）

可灵AI：8所高校AI创作工坊开课，优秀作品直通釜山电影节

可灵AI联合8所高校启动AI创作工坊，课程已正式开课。工坊中的优秀作品将获得直通釜山电影节的参展机会。

行业动态视频

5月5日

17:32

Runway：News（网页）

精选80

从单张图像构建实时视频智能体：Runway Characters技术解析

Runway公司推出“Characters”实时视频智能体，它能将任意单张参考图像（如真人、卡通或幻想生物照片）实时转化为具有自然对话表现力的视频角色。该技术基于其通用世界模型GWM-1，无需微调即可生成每秒24帧的高清视频，并同步口型、表情和头部运动。其核心突破在于通过自回归逐帧生成、流程优化与并行化，实现了每帧仅37毫秒的模型处理时间，以及从用户停止说话到角色开始响应仅1.75秒的服务器端延迟，从而满足了实时交互对话的严苛要求。

智能体产品更新视频

推荐理由：把单张图变成实时对话角色这件事，Runway 做到了 24fps 且 1.75 秒响应。不是预录，是真实时，还带了知识库和工具调用，做虚拟角色产品的可以直接拿来集成。

4月30日