5月2日

04:48

Luma@LumaLabsAI

每个营销活动都有一个核心真相。确保视觉设计能证明它。定义洞察。设定方向。Luma Agents 由此构建每个营销活动的视觉内容。立即构建 → http://lumalabs.ai/app

产品更新视频

02:17

Luma@LumaLabsAI

能力越大，责任越大。还有一个雷打不动的欢乐时光惯例。通过贯穿每个场景的角色身份和电影级细节，引导你的超级英雄从拯救城市转向享用鸡翅。由Luma制作。开始创作 → http://lumalabs.ai/app

产品更新图像生成视频

02:16

PixVerse@PixVerse_

疯狂的机甲变形！🤩 你用这个V6动力的机甲碾压了它！@UminekoStudio

UMINEKO STUDIO: PixVerseV6が登場! 変形ロボ動画もご覧の通り! いかがでしょうか? #PixVerseV6 #V6PowerUp @PixVerse_

产品更新图像生成视频

00:16

PixVerse@PixVerse_

这段美人鱼追逐戏简直是点睛之笔🤌 你在PixVerse上用Seedance特效展现的魔法太绝了，@Vampirosapien15！请继续保持这种史诗级氛围 🔥

cyborg.digitalart: The mermaid chase 🌊🌊 Seedance 1080p on PixVerse @PixVerse_ #pixverse #seedance2 #vfx

图像生成行业动态视频

5月1日

23:19

Runway@runwayml

并非每位英雄都有城市需要拯救。或者，清楚该如何拯救。现在，介绍Power项目。立即提交你的#RunwayBigPitchContest试播集。现金奖励高达10万美元。提交截止日期为5月4日。通过下方链接了解更多信息。

行业动态视频

11:16

Kling AI@Kling_ai

旧照片变得如4K般清晰。静态影像化作动态记忆。一段视频。胜过千言万语。🎞️

产品更新图像生成多模态视频

11:14

HuggingFace Daily Papers（社区热门论文）

PhyCo：学习生成运动中的可控物理先验

现代视频扩散模型擅长外观合成，但物理一致性不足，如物体漂移、碰撞不真实。PhyCo框架引入连续、可解释且基于物理的控制，整合三个核心组件：包含超过10万条模拟视频的大规模数据集，系统改变摩擦、恢复系数等属性；基于像素对齐物理属性图的ControlNet，对预训练扩散模型进行物理监督微调；以及VLM引导的奖励优化，通过微调视觉语言模型评估视频并提供可微分反馈。该方法使模型能通过调整物理属性生成物理一致且可控的视频，无需推理时模拟或几何重建。在Physics-IQ基准测试中，PhyCo显著提升物理真实感，人类研究证实其控制更清晰、更忠实。

多模态视频论文/研究

11:14

HuggingFace Daily Papers（社区热门论文）

MoCapAnything V2：面向任意骨骼的端到端运动捕捉框架

MoCapAnything V2 提出了首个完全端到端的单目视频运动捕捉框架，用于驱动任意骨骼。该框架将视频到姿态、姿态到旋转两个模块设计为可学习且联合优化，解决了传统分解流程中旋转模糊与不可微逆运动学带来的限制。通过引入目标资产的参考姿态-旋转对与休息姿态，明确定义了旋转坐标系，将旋转预测转化为条件良好的问题。模型直接从视频预测关节位置，无需依赖网格中间表示，提升了鲁棒性与效率。实验表明，该方法在多个数据集上将旋转误差从约17度显著降低至约10度，在未见骨骼上可达6.54度，且推理速度比基于网格的方法快约20倍。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

UniVidX：基于扩散先验的统一多模态视频生成框架

UniVidX是一个利用视频扩散模型先验的统一多模态视频生成框架。它将像素对齐任务统一为共享多模态空间中的条件生成，核心设计包括：随机条件掩码，实现全向条件生成；解耦门控LoRA，为各模态引入独立适配器以保留骨干网络先验；跨模态自注意力，通过共享键值促进模态间信息交换。该框架在两个领域实例化：UniVid-Intrinsic用于RGB视频及其内在属性图；UniVid-Alpha用于混合RGB视频及其RGBA分层。实验表明，即使在少于1000个视频的小数据集上训练，模型也能在多种任务上达到先进性能，并能稳健地泛化到真实场景。

多模态视频论文/研究

01:42

Chubby♨️@kimmonismus

现在您可以使用LTX-2.3将现有的SDR素材升级至HDR。因为它基于MP4压缩伪影进行训练，所以能实际应用于真实世界的压缩视频。它输出场景线性EXR格式，为DaVinci Resolve提供真实的浮点数据，而非在调色中容易损坏的脆弱图像。

教程/实践视频

4月30日

22:14

Runway@runwayml

实现宏大创意无需封锁街道。只需精彩的叙事。从构想到执行，这个短片概念由一位创作者仅用一天时间通过Runway完成。点击下方链接亲自尝试。#MadeWithRunway

教程/实践视频

20:11

PixVerse@PixVerse_

停。HappyHorse 转为免费会员制 + 0 积分截止至太平洋夏令时间5月7日00：00--在PixVerse让它真正快乐之后。转发+关注+回复=300积分（仅限72小时）

产品更新视频

16:09

IT之家（RSS）

清理违规视频 11000 余条，4 月"AI 魔改"视频治理成果公布

国家广播电视总局公布4月“AI魔改”视频治理成果，重点网络视听平台共清理违规视频11000余条、处置违规账号10余个。此前，总局于今年1月开展了为期一个月的专项治理，清理违规视频23000余条、处置账号100余个。自2月1日起，治理工作转为常态化、制度化长效机制，各平台需深化主体责任，加强审核与日常排查，并按月发布治理成果接受社会监督。

政策/监管视频

14:52

Alibaba Cloud@alibaba_cloud

精选68

阿里云发布HappyHorse，实现秒级AI视频生成

阿里云推出最新AI视频生成模型HappyHorse。该模型具备多项突破性功能：可生成影院级1080p高清画质；原生实现精准的音画同步，确保口型与声音对齐；在复杂场景和镜头切换中保持多镜头角色一致性；支持从文本提示到视频成片的秒级即时生成。用户现可免费试用。

多模态模型发布视频

推荐理由：阿里云终于放出视频生成模型，1080p+音频同步+秒级生成，功能直指 Sora 的短板。如果 demo 没修图，国产视频工具又多一个靠谱选择。

13:37

阿绎 AYi@AYi_AInotes

内容运营和生图生视频通常依赖多个工具，但GPT Image 2的出现使旧工作流过时。作者尝试使用flowith，发现它能将提示词直接转化为完整输出：生成多个瑜伽动作分镜，并整合分镜图与人物图生成图片，再通过可灵模型制作视频，全部在一个工具内完成。Agent模式支持联网，能自动生成日期准确的海报日历。flowith作为一站式生图agent，简化了工作流，提高了效率。

铁锤人: 做内容运营,生图生视频,你现在还在跑好几个工具吗? 被朋友拉去做瑜伽图,搭了无数工作流 GPT Image 2 出来后,发现全废了得重新规划一套,但这几天身体不舒服,没心思搞随手把提示词扔进 flowith 试了一下以为偷懒的结果会很...

智能体图像生成教程/实践视频

13:03

公众号：生数科技（Vidu·视频）

生数科技与星尘智能达成战略合作，共同推进具身世界模型落地

生数科技与星尘智能正式宣布达成战略合作，双方将共同推进具身世界模型落地。

具身智能行业动态视频

11:14

Kling AI@Kling_ai

🔍 放大。每一个你曾错过的微小细节。 Kling 4K 不眨眼。你也不会。

产品更新视频

11:00

公众号：可灵AI（快手·视频）

可灵AI灵感工坊·4K零距片场（北京电影主题专场）活动回顾

可灵AI在北京举办灵感工坊·4K零距片场电影主题专场活动，现场展示4K级视频创作体验。活动详情与精彩瞬间已在官方渠道发布。

行业动态视频

10:42

HuggingFace Daily Papers（社区热门论文）

基于视频先验与异步去噪的统一4D世界动作建模

研究团队提出X-WAM，一个统一4D世界模型，首次在单一框架内整合了实时机器人动作执行与高保真4D世界合成。该模型通过预测多视角RGB-D视频来想象未来世界，并采用轻量级结构适配器复制预训练扩散Transformer的末端模块，形成专用深度预测分支以高效获取空间信息。其核心创新异步噪声采样技术，在推理时采用异步去噪调度，能以更少步数快速解码动作实现实时执行，同时保留完整步数生成高保真视频。模型在超过5800小时机器人数据上预训练，在RoboCasa和RoboTwin 2.0基准测试中分别达到79.2%和90.7%的平均成功率，其4D重建与生成质量在视觉和几何指标上均超越现有方法。

具身智能视频论文/研究

10:00

公众号：火山引擎

巨日禄AI×火山引擎：Seedance2.0让量产"精品"成为可能

巨日禄AI与火山引擎合作推出Seedance2.0，旨在实现“精品”内容的规模化生产。

产品更新视频

09:11

AK@_akhaliq

OmniShotCut 基于Shot-Query Transformer的整体关系性镜头边界检测论文： https://huggingface.co/papers/2604.24762

视频论文/研究

08:41

TestingCatalog News 🗞@testingcatalog

XAI 🚨：全新的 Imagine Agent 正在 Grok 网页版 Beta 测试中推出！ Imagine Agent 可以在开放画布视图中生成图像和视频。它能执行相当复杂的任务，例如"生成一部1分钟的电影"、"生成 UGC 产品故事"、"生成完整的漫画集"等等。这是一个相当重大的发布！你也用上了吗？

xAI 产品更新图像生成视频

08:00

OpenRouter：Announcements（RSS）

OpenRouter 四月发布亮点：视频生成、工作区、Agent SDK、重排序模型与前沿模型

OpenRouter 四月发布涵盖视频生成、工作区（workspaces）、Agent SDK、重排序模型（reranker models）以及一批前沿模型（frontier model）的推出。

智能体产品更新视频

08:00

OpenRouter：Announcements（RSS）

OpenRouter 四月更新：视频生成、工作区、Agent SDK、Reranker 模型及前沿模型发布

OpenRouter 在四月推出多项更新，涵盖视频生成、工作区功能、Agent SDK、Reranker 模型以及一批前沿模型。

智能体产品更新视频

06:21

Luma@LumaLabsAI

优质内容值得拥有全球观众。上传你的视频。设置语言。Luma Agents 会处理翻译、唇形同步和针对每个市场的本地化工作。无需重新拍摄。无需单独制作流程。只需你的内容，触达所有需要的地方。走向全球 → http://lumalabs.ai/app

智能体产品更新多模态视频

04:21

Luma@LumaLabsAI

你的主体拍得很棒。背景却不尽人意。几秒钟内搞定它。上传你的参考图，设定场景，让Luma Agents将你的主体无缝融入任何环境，光照一致。结果看起来就像它本就该在那里。更换场景 → http://lumalabs.ai/app

产品更新图像生成视频

01:51

Luma@LumaLabsAI

刀锋背后。一览狐狸武士如何通过Luma获得生命。角色。动作。电影风格。从最初构想到最终画面，每个元素如何融合的过程在此呈现。开始创作 → http://lumalabs.ai/app

教程/实践视频

01:41

TestingCatalog News 🗞@testingcatalog

Mistral AI宣布其Le Chat平台现已直接集成Mistral Vide功能。同时，平台推出了处于预览阶段的Work Mode，这是一个能够处理复杂、长期任务的智能体。该模式专为研究、分析和跨连接工具执行操作等场景设计，默认开启连接器，可自动从文档、电子邮件和日历中获取上下文信息。任务会话会持续进行，直至任务完成。

Mistral Vibe: Last, but not least, don't sleep on this one: Le Chat now has Work mode (Preview) - a powerful agent for complex long-ho...

智能体产品更新视频

4月29日

22:33

Runway@runwayml

精选63

用Runway将你的相机胶卷变成视觉特效引擎。只需选择照片或视频，输入你想要的效果，就这么简单。万物皆可创作，通过下方链接开始使用。

产品更新图像生成视频

推荐理由：Runway 把特效制作的门槛降到了选图+打字，对短视频创作者是个直击痛点的更新，虽然算不上重大发布，但实用度拉满。但它不是新模型，别期待太高。

16:11

Kling AI@Kling_ai

720p看见叶子，但4K看见露珠里的整个世界。💧 在Kling 4K中查看更多。

产品更新视频

14:49

Alibaba Cloud@alibaba_cloud

精选64

HappyHorse 1.0 现已在 @fal 上线。去构建吧。【引用 @fal】：Happy Horse 1.0 is live on fal， day 0 🐎 🎬 一流的运动质量 🎧 原生1080p，音频同步一步完成 🔗 音视频联合生成，非拼接 🔓 限制更少，商业用途更广 ⚡ 为生产规模而构建

fal: Happy Horse 1.0 is live on fal, day 0 🐎 🎬 Best-in-class motion quality 🎧 Native 1080p with synced audio in one pass �...

多模态模型发布视频

推荐理由：阿里云不声不响丢了个跟 Sora 对标的视频生成模型，音画同步一镜出片，直播带货团队可以立刻试试。

14:41

Kling AI@Kling_ai

这是弗里德里希两百年前在《雾海上的漫游者》中描绘的预言 🎨 一个拒绝露面的背影，任何人都能代入的主体位置。本视频中每个场景均由Kling 4K生成。感谢Kling AI创作者@wildpusa

其他图像生成视频

10:38

HuggingFace Daily Papers（社区热门论文）

视频生成的系统性后训练框架

研究团队提出一个系统性后训练框架，旨在弥合大规模视频扩散模型预训练性能与实际部署需求之间的差距。该框架包含四个协同阶段：首先通过监督微调将基础模型转化为稳定的指令跟随策略；随后采用专为视频扩散定制的新型群组相对策略优化方法进行基于人类反馈的强化学习，以提升感知质量和时间连贯性；接着集成专用语言模型进行提示词增强以优化用户输入；最后通过推理优化提升系统效率。实验表明，该统一流程能有效减少常见伪影，显著提升可控性和视觉美感，同时严格遵守采样成本限制。

数据/训练视频论文/研究

10:38

HuggingFace Daily Papers（社区热门论文）

互促学习：面向快速自回归音视频角色生成的双模式自演进框架

本文提出Mutual Forcing框架，用于实现长时序音视频同步的快速自回归生成。该框架采用两阶段训练，先训练单模态生成器，再耦合为统一模型进行联合训练。其核心创新在于直接基于原生自回归模型，将少步与多步生成集成于单一权重共享模型中，通过自蒸馏提升训练-推理一致性。相比此前需要约50采样步的方法，本方法仅需4至8步即可达到或超越基线性能，在效率与质量上均具优势。该方法无需额外双向教师模型，支持更灵活的训练序列长度，并可直接从真实配对数据中学习。

多模态视频论文/研究

02:33

Runway@runwayml

学习如何在Runway中通过参考素材、角色设定表和提示技巧，生成角色与声音一致的视频。

图像生成教程/实践视频

00:08

AK@_akhaliq

微软推出 World-R1 强化文本到视频生成的3D约束论文： https://huggingface.co/papers/2604.24764

Microsoft 视频论文/研究

4月28日

23:08

TestingCatalog News 🗞@testingcatalog

xAI 正在 Grok 网页版上推出可共享的 Imagine 模板功能。用户现在可以通过 3 种不同选项创建自定义模板 - 照片 &gt；视频 - 照片 &gt；风格编辑 - 照片 &gt；编辑 &gt；视频此外，"图像参考"模板类型也正在开发中。

产品更新图像生成视频

22:33

Runway@runwayml

他是山羊。这就是节目。今天提交你的 #RunwayBigPitchContest 参赛作品。现金奖高达10万美元。比赛截止日期为5月4日。通过下方链接了解更多信息并提交作品。

行业动态视频

21:35

阿绎 AYi@AYi_AInotes

GPT-image-2加Seedance2.0做的美女换装视频，丝滑到离谱😍

利用GPT-image-2与Seedance2.0生成AI美女换装或跳舞视频，已成为抖音、小红书等平台快速起号的低门槛路径。该方法无需真人出镜与实拍，通过调整提示词即可产出不同风格的高质量视频，成本极低且易于上手。目前平台提供流量分成，可覆盖成本并盈利；粉丝增长后还可承接品牌商单，是一条处于红利期的变现副业赛道。

阿绎 AYi: 很多人总说AI没用,我觉得那是因为你光刷不用,真正能赚钱的人早就闷声发大财了。分享一个用 AI 做副业的路子, 有点野,基本上算零门槛,见钱快(`・ω・ ́)💰 为啥说零门槛: 首先不用囤货不用开店不用露脸,一台电脑就能干,成本低到可以...

图像生成教程/实践视频

20:46

公众号：可灵AI（快手·视频）

可灵AI超创亮相北京国际电影节，多部作品入围AIGC单元斩获大奖

可灵AI超创亮相北京国际电影节，多部作品入围AIGC单元并斩获大奖。

多模态行业动态视频