5月25日

20:54

Alibaba Cloud@alibaba_cloud

在Qwen Conference 2026上，Fizzdragon CEO Pax Chen加入基础模型论坛，解析《从剧本到银幕只需几分钟：AI如何赋能电影、广告与创意内容》。深入探讨AI驱动创意工作流的下一个前沿。走进AI原生浪潮。 🚀 敬请关注：https://click.qwencloud.com/m/20000000190/

多模态行业动态视频

18:24

PixVerse@PixVerse_

氛围、剪辑、能量，一切都恰到好处！

divy 🦨: I heard the AI creator role at @EnergyWabbits is filled But I tried making a match cut ad for wabbits because their ener...

图像生成教程/实践视频

18:16

公众号：火山引擎

在戛纳和贾樟柯导演聊了聊AI：普通人拍电影的时代来了

在戛纳电影节期间，导演贾樟柯与火山引擎探讨AI对电影行业的影响。贾樟柯认为，AI降低了电影制作的技术门槛，让普通人也能参与拍摄和创作，电影行业正迎来平民化变革。

现象/趋势视频

18:13

公众号：生数科技（Vidu·视频）

Vidu 推出 AI 直播礼物特效定制服务

Vidu 推出 AI 直播礼物特效定制服务，支持千人千面的礼物特效实时生成，实现秒级互动体验。

产品更新图像生成视频

18:11

IT之家（RSS）

上海出台 AI 微短剧新政：支持企业租用智能算力，对优秀剧本给予奖励

上海市出台《加快推进人工智能赋能微短剧高质量发展的若干措施》，提出8方面24项举措。政策重点支持企业租用智能算力、调用第三方大模型API、采购语料进行垂类模型训练，并对优秀微短剧剧本给予奖励。措施旨在构建“AI+微短剧”技术体系、搭建公共服务平台、促进文化出海，并在徐汇、杨浦、闵行打造产业集聚区。

政策/监管视频

17:54

PixVerse@PixVerse_

这是一则由创作者@AlexBonSpace发布的AI艺术作品推文，展示了基于小红帽童话改编的《小红帽的黑暗摇篮曲》。作品为风格忧郁的AI生成音乐视频。作者在推文中阐述创作灵感：偶然听到一首关于小红帽的忧郁歌曲后决定自行创作，并提到"未归来"在不同文化中的隐喻，有时并非死亡，而是意味着跨过了一个故事无法跟随的门槛。该作品是PixVerse创意伙伴计划（CPP）的成果，相关标签包括#LittleRed、#DarkLullaby、#PixVerse、#AIart、#AIvideo。

Alex Bon Space: "The Dark Lullaby of Little Red" 🧣• Sad Song 🎶 Little Red Riding Hood Fairy Tale 🐺 "A happy ending doesn't mean the w...

行业动态视频

11:17

karminski-牙医@karminski3

数字人模型本地都能跑了吗？

美团发布数字人模型LongCat-Video-avatar-1.5，可通过图片和音频生成口播视频。demo仅支持5秒480p视频。实测中人物嘴部遮挡案例效果与SOTA有差距，主要在口型。最大分辨率720p，但可AI提升至4K。模型本地部署可行，对动漫人物泛化，但体积大，int8量化需16G显存。

多模态视频评测/基准

11:09

Luma@LumaLabsAI

功能被看见。利益被购买。设定钩子。定义信息。Luma Agents 从那里构建每个产品的利益资产。推动决策 → http://lumalabs.ai/app

产品更新视频

10:23

PixVerse@PixVerse_

这就是才华与PixVerse相遇时会发生的事。Ponta，舞台交给你了！

pink shih tzu ponta: あの「ブラジルの至宝」がワールドカップに電撃招集! 乗るしかない!このビッグウェーブに! Cam Live on PixVerse @PixVerse_ #PixVerse #WorldCup #DribbleRun #Ponta

其他视频

08:00

HuggingFace Daily Papers（社区热门论文）

评估视频质量模型对扩散模型视频超分辨率的预测准确性

本研究旨在评估现有视频质量模型能否准确评估基于扩散模型的视频超分辨率方法。通过将模型预测与主观测试结果进行对比，研究分析了六种超分辨率方法（Lanczos, Rhea, SCST, DOVE, SeedVR2, Starlight Mini）在处理压缩（AV1, DCVC-RT）和未压缩低分辨率视频时的表现。结果表明，基于CNN的全参考模型（如LPIPS, DISTS, CVQA-FR）表现出更高的相关系数。大多数模型高估了SCST的结果，而VMAF主要因Starlight Mini引入的空间不一致性而失效。最终，所有测试的视频质量模型均未达到足以替代主观测试的准确度。

arXiv 视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LLaVA-OneVision-2：迈向新一代感知智能

LLaVA-OneVision-2 是 LLaVA-OneVision 系列中能力最强的视觉语言模型。其核心是编解码流 tokenization 技术，通过分析压缩视频的比特成本动态进行自适应分组，并利用运动残差线索将关键空间信息压缩到紧凑的视觉画布中。模型采用共享的 3D RoPE 统一图像与视频的时空坐标，并在约 800 万重标注视频样本上预训练、400 万空间语料上微调。在面向高频重复动作定位的 JumpScore 评测中，其 8B 版本达到 74.9 分的 mAP，显著超越 Qwen3-VL-8B（30.1 分），且在匹配 token 预算下，编解码流输入较帧采样在时序定位上提升 9.7 点。该模型在视频、空间和跟踪任务基准上也全面领先。

多模态推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LongAV-Compass：面向分钟级音视频生成跨T2AV、I2AV和V2AV的统一评测框架

LongAV-Compass 是一个针对分钟级音视频生成的系统化评测基准。它包含 284 个精选测试用例，覆盖文本到音视频（T2AV）、图像到音视频（I2AV）和视频到音视频（V2AV）三种条件模态。该基准采用分类引导构建方法，并整合了统一评估框架。该框架结合了多模态大模型（MLLM）辅助评估与多种感知及多模态指标，例如 DINO-v2、ArcFace、CLIP 和 ImageBind，对超过 20 个细粒度维度进行评分，涵盖片段内质量、跨片段一致性、全局叙事连贯性、语义对齐以及音视频同步等方面。通过对 11 个代表性模型进行实验并经过人工对齐验证，LongAV-Compass 为分析现有系统在跨模态条件下维持连贯、语义对齐且时间一致的分钟级音视频生成方面的局限性提供了诊断性测试平台。

arXiv 多模态视频论文/研究

06:39

Luma@LumaLabsAI

规模化的真实性曾是矛盾，如今已成现实。定义简报，设定风格，Luma Agents 从这里构建每一条 UGC 风格广告。让它真实 → http://lumalabs.ai/app

智能体产品更新视频

03:27

Chubby♨️@kimmonismus

这太搞笑了。这正是AI该做的事。我爱了。100%准确。

其他视频

5月24日

23:23

PixVerse@PixVerse_

在Pixverse中进行角色设计工作流测试使用GPT Image 2.0为Lucas创建视觉形象，使用Seedance 2.0制作动画弹跳表演。从静态概念图到电影级动态效果。 RT + Follow + Reply = 工作流

图像生成多模态教程/实践视频

18:27

Chubby♨️@kimmonismus

事情开始了：生成式AI视频不再只是演示。 Kling正被用于真实的电视和电影制作中。《House of David》是首部公开讨论在工业层面使用AI视频生成的好莱坞作品。据报道，该剧全球观众已超4400万，跻身美国新剧首播收视率前十，并登顶Prime Video美国区榜首。

图像生成行业动态视频

08:00

HuggingFace Daily Papers（社区热门论文）

WorldCraft：从相机导航到物体操作的交互式视频世界模型

WorldCraft将交互式视频世界模型从相机导航扩展到物体级轨迹操作。用户点击并绘制路径后，模型生成未来帧，使选定物体沿轨迹运动同时相机继续导航。其核心包括：Normalized World Trajectory (NWT) 在相机不变的世界坐标系表示用户运动并动态重投影；Spatial-Pathway LoRA (SP-LoRA) 注入世界空间信号以增加物体操作能力；Trajectory-Anchored State Persistence (TASP) 将世界轨迹作为持久状态刷新自回归记忆。实验表明WorldCraft实现精确物体控制，保持相机保真度，并维持跨长自回归滚动的物体状态。

arXiv 具身智能视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

勿猜度，勤发问：通过多轮澄清解决指代分割中的歧义

现有指代分割模型通常假设用户查询精确无歧义，但在实际应用中这一假设难以成立。为此，本文提出IC-Seg，一个新颖的智能体框架，它能在分割前通过多轮对话主动澄清用户意图。为有效激励此能力，进一步引入Hi-GRPO分层优化策略，在轨迹、对话轮和步骤层级注入密集监督信号，以减少冗余交互并提升对话质量。研究建立了包含歧义查询的指代视频对象分割基准Ambi-RVOS，实验证明IC-Seg在处理歧义查询上显著优于现有方法，并在标准推理分割基准上保持state-of-the-art性能。

推理视频论文/研究

01:08

Luma@LumaLabsAI

人们购买的不仅是产品，更是产品背后的人。你的故事是最强的差异化优势。定义叙事，设定风格，让 Luma Agents 将其转化为图形，在每个触点建立信任并促进连接。建立信任 → http://lumalabs.ai/app

产品更新视频

5月23日

19:05

The Verge：AI（RSS）

谷歌发布"万能"AI模型：表现惊人

Google发布了新款Gemini AI模型，其核心特点是能跨模态处理“万物到万物”的生成任务，例如直接从文本生成高质量视频。文章通过作者用该工具为孩子的毛绒玩具鹿生成“度假视频”的实验，展示了当前生成式AI技术的强大与易用性——仅需极低的操作门槛和专业知识，即可创建逼真内容。这一趋势标志着强大的AI创作工具正快速普及，同时也引发了对生成式AI应用边界、内容真实性及潜在影响的深入思考。

Google 多模态教程/实践视频

13:07

Kling AI@Kling_ai

与 Kling AI 一起踏入梦境维度 ✨

产品更新视频

11:00

公众号：可灵AI（快手·视频）

亮相戛纳|可灵AI戛纳论坛精彩回顾

行业动态视频

10:37

Kling AI@Kling_ai

Kling AI亮相戛纳，推动AI赋能电影制作

Kling AI在戛纳电影市场（Marché du Film）举办官方会议，首次登上这一世界顶级电影舞台。会议汇集全球电影专业人士，共同探讨AI如何融入实际电影制作流程。Kling AI已证明其能力可服务于动画长片、好莱坞剧集、实验短片及影院电影等多种创作形式。未来，Kling AI将继续推进电影级AI影像技术，与全球创作者合作，将更多“不可能”的故事呈现在银幕上。

行业动态视频

06:39

ViggleAI@ViggleAI

精选75

动作捕捉和角色动画制作从未如此简单。持续构建，更多功能即将推出！

PINOC: A walkthrough of what PINOC does: 🧵 1. Upload a motion video, get clean skeletal animation. Export as .fbx/.glb, ready ...

产品更新视频

推荐理由：Viggle 把视频转骨骼动画这件事做到了零成本，无动捕设备、直接导出 FBX，对独立动画师和小团队挺友好，值得试试看。

01:50

Ethan Mollick@emollick

同事件精选76

我认为人们没有意识到Gemini Omni与其他视频AI的不同之处。它是完全多模态的，因此也能原生编辑视频。我拿了1896年著名的"火车"电影，把它变成了高铁、乐高，加入了时间旅行者、蜈蚣、布偶……（看到倒影了吗？）

Google 多模态现象/趋势视频

同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

推荐理由：Ethan Mollick 用几个例子把 Gemini Omni 的真正能力讲清楚了，原生多模态让视频编辑不再是生硬叠加，而是理解场景后的重构，做视频的该看。

01:07

Luma@LumaLabsAI

想象力。瞬间化为电影级现实。 Seedance 2.0现已在Luma Agents上线。人像、风景、科幻、奇幻--每一帧都以不言自明的品质呈现。立即体验 → http://lumalabs.ai/app

产品更新多模态视频

5月22日

23:21

PixVerse@PixVerse_

从分镜到电影感短片：一只柯基独处的一天，由Pixverse使用GPT Image 2 × Seedance 2.0实现转发 + 关注 + 回复 = 工作流

图像生成教程/实践视频

22:19

Runway@runwayml

昨日我们发布了Aleph 2.0，这是我们升级后的视频编辑模型，可让您在保持其他内容不变的情况下，精确修改所需部分。该模型现已集成于全新的Edit Studio中，支持处理最长30秒、1080p分辨率的多镜头序列。立即通过Runway Academy学习如何开始使用。

模型发布视频

关联讨论 2 条

19:20

PixVerse@PixVerse_

欢迎 @OoChihiroOO！我们欢迎并继续邀请更多有才华、志同道合的创作者加入我们。 💜 希望你喜欢 PixVerse。

チヒロ/ほっこりAIスタジオ🎨: ◆◇ @PixVerse_ ◇◆ \CPPに参加😆/ イトパンさん@takamasa045 の企画のおかげでございます( ⊙‿⊙)❤️🔥 スマホで動画生成するの苦手で、いつもPCでやってたけど、PixVerseはアプリが使いやすいからス...

行业动态视频

18:20

PixVerse@PixVerse_

哇哦…噢🙀 干得漂亮，@going_bait！这效果太真实了。

going: #PixVerse @PixVerse_ とりあえず、グローグーでも捕まえておくか...

行业动态视频

16:06

Kling AI@Kling_ai

Kling AI戛纳展示AI电影未来愿景获热议

Kling AI在戛纳电影节的市场展（Marché du Film）上成功展示其AI驱动电影制作的未来愿景。活动中汇聚了全球影视创作者与行业人才，其关于AI创意叙事的理念获得了广泛反馈与支持。此次展示标志着Kling AI推动AI与创意产业结合的旅程刚刚开始，未来将继续探索拓展AI在叙事创作领域的边界。

行业动态视频

15:09

IT之家（RSS）

美团开源 LongCat-Video-Avatar 1.5：数字人视频从"彩排"走向"真舞台"，生成 10 秒视频仅需 1 分钟

美团技术团队开源了数字人视频生成模型 LongCat-Video-Avatar 1.5。该版本在唇形同步、物理合理性、长视频稳定性和多人互动方面全面升级，支持复杂语音输入与多种主体。通过 DMD 蒸馏技术，推理效率提升约 15 倍，生成 10 秒视频仅需约 1 分钟。在性能评测中，模型在四个关键维度表现领先，用户偏好对比中胜率均超 54%，旨在推动数字人视频从技术演示走向商业应用。

开源生态推理模型发布视频

关联讨论 1 条

15:02

公众号：月之暗面（Kimi）

Kimi 原生视频理解能力已登陆 TRAE 中国版，分享体验得 Labubu！

产品更新多模态视频

14:16

Berryxia.AI@berryxia

CapCut与Google合作获国际认可

说个热知识吧～很多海外的功能免费，国内收费😂 记得当年做TikTok的时候就天天拿CapCut来剪视频。并且看到CapCut & Google 合作也是证明这几年做的东西得到国际市场和用户的认可。

huangserva: Introducing Director Mode in CapCut Video Studio. The future of AI filmmaking. From first idea to final cut, Director Mo...

产品更新视频

14:02

公众号：龙猫LongCat（美团）

从高拟真到真可用，LongCat-Video-Avatar 1.5 正式开源

美团技术团队正式开源 LongCat-Video-Avatar 1.5，该版本从高拟真走向真可用，将视频头像生成从室内彩排演练推向千人千面的真实应用场景。

图像生成模型发布视频

13:14

HuggingFace Daily Papers（社区热门论文）

基于运动、几何与语义自适应的复杂非线性视觉目标跟踪框架

传统视觉目标跟踪方法依赖特定任务的监督训练，泛化能力有限。近期以SAM 2为代表的基础模型虽具强大视频理解能力，但直接用于跟踪时缺乏对目标运动、几何一致性和语义偏移的显式建模。为此，本研究提出SAMOSA框架，通过引入轻量级非线性运动预测器建模目标动态，利用语义线索检测偏移并恢复跟踪，并结合几何约束提升稳定性，从而将SAM 2的通用先验适配到复杂跟踪任务。实验表明，SAMOSA在通用基准上优于现有SAM 2方法，并在反无人机等非线性运动场景中取得显著性能提升。

GitHub 视频论文/研究

13:14

HuggingFace Daily Papers（社区热门论文）

一句一剧：基于多智能体系统的个性化短剧生成

针对现有短剧生成方法在叙事节奏、空间一致性及生产级质控方面的不足，本研究提出了“一句一剧”分层多智能体框架。该框架包含三大核心组件：多智能体辩论式故事生成以保障叙事张力、3D锚定首帧生成以维护跨片段空间一致、以及多阶段审核循环以实现全流程质量控制。此外，系统引入了场景级BGM匹配与转场规划以增强沉浸感。团队还构建了专用基准Short-Drama-Bench进行评估。实验表明，该方法在叙事连贯性、角色场景一致性及整体观看体验上均显著优于现有流程。

智能体多模态视频论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

基于泰勒级数的时间突变帧选择算法

该研究提出Swift Sampling，一种免训练的视频帧选择算法。其灵感源自人脑的预测编码机制，将视频建模为视觉潜在空间中的可微轨迹，计算特征的速度与加速度，并通过泰勒展开预测后续帧的预期路径。算法识别出大幅偏离预测轨迹的帧，即“时间信息突变帧”，作为包含关键信息的帧进行采样。该方法极其轻量，仅增加0.02倍计算开销，比主流方法低30倍。在长视频问答的多个基准测试中，它均优于均匀采样等方法，在帧预算有限时尤为有效，准确率最高可提升12.5个百分点。

arXiv 数据/训练视频论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

伯尼尼：基于潜在语义规划的视频扩散模型

本文提出了Bernini，一个用于视频生成与编辑的统一框架。该框架创新性地将多模态大语言模型与扩散模型分工协作：MLLM负责在ViT嵌入空间预测目标语义表示，扩散模型则依据此语义规划及文本特征合成像素。为处理多视觉输入，模型引入了分段感知三维旋转位置编码，并结合思维链推理，显著提升了从理解到生成的转化能力。该架构支持模块化训练与轻量协同优化，在多项视频生成与编辑基准测试中均取得最优表现。

Hugging Face 多模态视频论文/研究

08:13

Berryxia.AI@berryxia

苹果数字人面部捕捉技术再突破，逼真度迈向新高

苹果Persona团队在WWDC26前发布新论文，展示了面部捕捉与动画技术的最新进展。从演示来看，其在眼部微表情、头部细微动作和皮肤质感等细节上实现了显著提升，使数字形象的真实感进一步增强，已超越简单“数字头像”，趋近于可信的“数字分身”。这类突破对AR/VR、游戏和远程协作等领域的沉浸式体验至关重要，能够有效打破虚拟交互中的“不真实感”。苹果持续重仓该技术赛道，相关论文与演示视频已公开。

Jonathan Cooper: Apple's Persona team continuing to do amazing work with face capture and animation. New paper released ahead of WWDC26 h...

多模态视频论文/研究