5月10日

00:51

Alibaba Cloud@alibaba_cloud

基准测试排名第一。闪电速度。原生音视频同步。排队等待AI视频的时代结束了。HappyHorse现已在阿里云Model Studio上线。当别人还在渲染时，你已完成。立即构建：https://int.alibabacloud.com/m/1000412167/

多模态模型发布视频

00:32

IT之家（RSS）

两台 Figure AI 人形机器人大秀新技能：不到两分钟铺好一张床

Figure AI发布视频展示两台人形机器人协作完成整理卧室任务。它们能挂外套、合电脑、铺床单，并在不到两分钟内协同铺好一张床。此次演示基于升级后的Helix 02模型，机器人完全通过视觉（如点头）进行协调，无需显式通信或远程操控。公司指出，处理柔软变形的床单、实时理解同伴动作以及在多任务间切换是技术难点。Figure AI目前估值约390亿美元，但未公布消费者产品的上市时间。

具身智能行业动态视频

5月9日

16:50

PixVerse@PixVerse_

作者在母亲节与 @DYJ_Science 共同呈现短片 The Other Side of Mother。该短片聚焦悲伤、身体与母女之间的复杂关系，灵感来自导演的真实经历。主角Xiaoci的情感源于导演在母亲病床旁的感受，核心是渴望回到母亲子宫以逃避死亡，呈现了成为母亲的恐怖可能性。短片由 @PixVerse_ 参与制作，旨在纪念母亲节和女儿的记忆。

DYJ Science: The Other Side of Mother - For Mother's Day, and For Daughter's Memory The Other Side of Mother is a short film about gr...

行业动态视频

13:29

IT之家（RSS）

索尼 AI 新专利，自动化记录 / 制作你的游戏高光时刻

索尼互动娱乐获批一项PlayStation相关AI专利，旨在自动生成玩家游戏中的个性化高光时刻集锦。该系统利用AI和机器学习，实时分析游戏事件（如击杀、击败Boss、逆转取胜等），并参考玩家技术水平与习惯进行筛选。它能自动将精彩瞬间制作成风格化卡片、短视频或3D收藏等内容，省去了手动录制、剪辑和后期制作的繁琐流程，方便玩家在社交平台分享专属高光时刻。

多模态行业动态视频

10:49

PixVerse@PixVerse_

妈妈，我们做到了。我们的标识现在大到能在旧金山车流中被清晰看见！感谢@Cloudflare，延迟表现从未如此出色。

行业动态视频

08:00

HuggingFace Daily Papers（社区热门论文）

MuSS：一个用于多镜头视频及主体视频生成的大规模数据集与电影叙事基准

研究团队发布了MuSS，一个专为多镜头视频及主体视频生成设计的大规模双轨数据集。该数据集源自3000多部电影，明确支持复杂的蒙太奇转场和以主体为核心的叙事。其构建采用了一种渐进式标注流程，先确保局部镜头级准确性，再强化全局叙事连贯性，以消除时空文本-视频对齐冲突。数据集还引入了跨镜头匹配机制，从根本上解决了S2V生成中常见的“复制-粘贴”难题。同时提出的电影叙事基准包含视觉-逻辑驱动的评估范式和一个新颖的抗复制-粘贴方差指标，用于严格评估连续叙事能力和3D结构一致性。实验表明，当前基线模型难以处理连续叙事逻辑或退化为简单的2D贴图生成器，而基于MuSS增强的模型在叙事效果和跨镜头身份保持上达到了最先进水平。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

CollabVR：视觉语言模型与视频生成模型的协作视频推理

CollabVR提出一种闭环协作框架，在步骤级别将视觉语言模型（VLM）与视频生成模型（VGM）耦合，以解决VGM在多步任务中的长视野漂移和中间片段错误累积问题。该框架中，VLM负责规划即时动作并检查VGM生成的视频片段，再将验证诊断直接融入后续提示以修正错误。在Gen-ViRe和VBVR-Bench基准测试中，该方法在同等计算条件下显著提升了开源与闭源VGM的性能，尤其在困难任务上增益最大，且能与推理微调的VGM进一步结合，实现性能叠加。

多模态推理视频论文/研究

00:17

Chubby♨️@kimmonismus

我终于花时间体验了阿里云视频服务，效果非常有趣。我直接用同平台生成的图像作为烹饪动画参考。最出色的是稳定性--完全没出现食材重叠的常见故障。所有元素都很扎实，尤其是水物理效果和蒸汽对热度的反应。

教程/实践视频

5月8日

23:33

歸藏(guizang.ai)@op7418

抖音"法天象地"特效：从图片生成到视频优化的突破

抖音近期流行的“法天象地”户外照片特效多基于图片生成，但实际测试表明直接生成视频效果更佳。作者通过优化提示词实现了这一改进，关键采用了 GPT-Image-2.0 与 C-Down 3.0 技术组合，并将优化后的图片提示词附在视频内容后供参考。这一方法提升了特效的动态表现力与视觉冲击力。

图像生成教程/实践视频

17:26

HuggingFace Daily Papers（社区热门论文）

Sparkle：通过解耦引导实现生动的指令引导视频背景替换

近年来，视频编辑在自然语言指令引导下发展迅速，但背景替换任务因需合成全新、时间一致场景并保持前景-背景交互，面临高质量数据匮乏的挑战，导致现有模型生成静态、不自然背景。为此，研究团队设计可扩展数据生成流程，以解耦方式分别生成前景与背景引导，并实施严格质量过滤，构建了Sparkle数据集（包含约14万视频对，覆盖五种常见背景更换主题）及迄今最大的专项评估基准Sparkle-Bench。实验表明，基于该数据训练的模型在OpenVE-Bench和Sparkle-Bench上均显著优于现有基线。数据集、基准与模型已全部开源。

arXiv 多模态开源/仓库视频

12:13

SenseTime@SenseTime_AI

商汤科技在新加坡展示城市安全与智慧化AI方案

商汤科技在新加坡MTX-Millipol TechX展览中展示了其前沿的视觉AI创新，旨在提升城市安全与智能化水平。其解决方案基于SenseFoundry单体算法模型生产平台和由SenseNova驱动的多模态视频理解智能体，涵盖从火灾检测到交通事故监测等公共安全领域。公司表示将与新加坡合作伙伴紧密协作，共同加速数字化转型，构建开放、包容且繁荣的本地AI生态系统。

多模态行业动态视频

11:22

HuggingFace Daily Papers（社区热门论文）

SwiftI2V：通过条件分段生成实现高效高分辨率图像到视频生成

SwiftI2V是一个针对高分辨率图像到视频生成的高效框架，旨在解决2K分辨率下的效率与保真度难题。它采用两阶段设计：首先生成低分辨率运动参考以降低计算负担，随后进行强图像条件的2K合成以恢复输入细节。其核心创新是条件分段生成技术，通过分段合成控制每步令牌预算，并利用双向上下文交互提升片段连贯性与输入保真度。在VBench-I2V基准测试中，该框架在2K分辨率下性能与端到端基线相当，同时将总GPU时间大幅减少202倍，使得在单张数据中心或消费级GPU上实现实用的2K图像到视频生成成为可能。

图像生成视频论文/研究

10:22

HuggingFace Daily Papers（社区热门论文）

先思考后评分：视频奖励建模中的解耦推理与评分

为提升视频奖励模型的泛化能力与训练效率，研究团队提出DeScore模型。它采用“先思考后评分”的解耦范式：首先由多模态大语言模型生成显式思维链推理，再由专用判别式评分模块预测最终奖励。模型通过两阶段框架优化：第一阶段结合随机掩码进行判别式冷启动，确保评分稳健性；第二阶段通过双目标强化学习，独立优化推理质量并校准奖励，使更优的推理直接转化为更好的性能。该方法旨在克服现有判别式模型易陷于捷径学习、生成式模型因推理与评分耦合而存在优化瓶颈的问题。

arXiv 推理视频论文/研究

08:06

Luma@LumaLabsAI

最佳的联名营销不仅是合并两个标志。而是创造全新事物。定义品牌身份。设定美学风格。 Luma Agents 从此处理所有联名资产。立即构建 → http://lumalabs.ai/app

智能体产品更新视频

08:00

HuggingFace Daily Papers（社区热门论文）

Implicit Preference Alignment for Human Image Animation

针对人体图像动画中高自由度、复杂的手部动作生成难题，研究者提出了隐式偏好对齐框架。该方法无需构建严格配对的偏好数据，通过最大化自生成高质量样本的似然并惩罚与预训练先验的偏差来实现模型对齐。框架还引入了手部感知局部优化机制，以显式引导手部区域的生成质量。实验表明，该方法能有效优化手部生成质量，同时大幅降低了构建偏好数据的门槛。相关代码已开源。

arXiv GitHub 图像生成视频

04:36

Luma@LumaLabsAI

你已有标语。现在将其变为广告。输入你的标语。定义美学风格。Luma Agents 将据此构建广告。赋予它生命 → http://lumalabs.ai/app

智能体产品更新视频

01:42

Suno@suno

一位四次获得格莱美提名的制作人如何使用Suno来构建节拍

教程/实践视频

5月7日

23:04

AK@_akhaliq

Stream-R1 面向流式视频生成的可靠性-困惑度感知奖励蒸馏论文： https://huggingface.co/papers/2605.03849

Hugging Face 多模态视频论文/研究

22:41

TestingCatalog News 🗞@testingcatalog

GOOGLE 🚨： Flow平台正在准备全新的智能体模式，用于处理完整的视频制作流程！用户将能够： - 规划场景 - 讨论进行中的项目变更 - 触发生成工作流 - 管理项目级和应用级的创意工具 - 直接通过聊天界面更新项目状态万物皆可智能体 👀

智能体 Google 产品更新视频

20:33

PixVerse@PixVerse_

4K超分功能现已上线！在一处增强您的图像和视频。获得3次免费使用机会，之后享受35%的积分折扣。限时活动：5月7日至14日，UTC时间08：00。转发+关注+回复=私信领取300积分（仅限72小时）。

产品更新图像生成视频

20:01

Chubby♨️@kimmonismus

1/ 这有点疯狂。同一张脸在不同角度、不同剪辑和不同表情下，没有出现那种导致AI视频崩坏的常见漂移现象。

现象/趋势视频

17:38

swyx 🌉@swyx

祝贺 @mattpocockuk 的两场分享在不到两周内获得超100万次观看--这是 @aidotengineer 历史上最快的"破百万速度"记录。

AI Engineer: We're excited to end the week with a @mattpocockuk special double header! - AI Coding for Real Engineers - full workshop...

教程/实践编码视频

17:16

IT之家（RSS）

群晖推出 AI 监控摄像头 BC510 / TC510，支持 IP6X 防尘

群晖科技发布两款AI监控摄像头BC510和TC510。新品具备IP66/IP67防尘防水等级，支持录制2880×1620分辨率、30帧/秒的视频，提供110°水平广角视野和30米夜视距离。摄像头搭载边缘AI功能，可在本地运行人流与车辆计数、入侵侦测等分析任务。它们设计用于深度整合群晖现有监控架构及即将推出的VSaaS平台，并兼容第三方环境。

产品更新端侧视频

16:16

IT之家（RSS）

精选70

全国首例 AI 短剧侵权刑事案一审宣判：盗录超 1700 部牟利获刑，构成侵犯著作权罪

全国首例AI短剧侵权刑事案一审宣判。被告人盗录某公司AI工具生成的短剧超过1700部，并在二手平台以66.66元打包出售牟利，构成侵犯著作权罪。法院认定，这些短剧由用户输入原创剧本、情节等提示词生成，体现了独创性表达，属于受著作权法保护的作品。被告人被判处有期徒刑八个月，缓刑一年两个月，并处罚金人民币六千元。涉案公司平台已累计生成超7000部AI短剧，单价数元至十几元，热门剧销量可达上千份。

政策/监管视频

推荐理由：AI短剧首例刑事案落槌，法院认定了提示词创作的独创性，以后靠盗录AI赚快钱的路子要被堵死，做内容生意的都得认真看。

12:22

HuggingFace Daily Papers（社区热门论文）

基于上下文稀疏注意力的闪电式统一视频编辑

针对上下文学习视频编辑中的计算瓶颈，研究团队提出首个近无损稀疏框架ISA。该框架基于上下文令牌显著性低、查询锐度与近似误差相关两项发现，采用预选择策略修剪冗余上下文，并通过动态查询分组机制，将高误差查询路由至完整注意力、低误差查询路由至高效的零阶泰勒稀疏注意力。结合新建的170万高质量视频数据集，团队构建了LIVEditor模型。实验表明，该模型在注意力模块延迟降低约60%的同时，在多个评测基准上超越现有先进方法，实现了近无损加速并保持了视觉保真度。

arXiv 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MACE-Dance：基于运动-外观级联专家的音乐驱动舞蹈视频生成

针对音乐驱动舞蹈视频生成任务，本文提出了MACE-Dance框架。该框架采用级联专家混合模型，包含运动专家与外观专家两个核心模块。运动专家基于BiMamba-Transformer混合架构的扩散模型及免引导训练策略，从音乐生成高表现力且运动学合理的3D舞蹈动作。外观专家通过解耦的运动-美学微调策略，在动作驱动下合成具有时空一致性和视觉身份保持的视频。研究同时构建了大规模数据集与评估标准，实验表明该框架在3D舞蹈生成与姿态驱动图像动画两项任务上均达到了最先进性能。代码已开源。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

HumanNet：将人类中心视频学习扩展到百万小时

HumanNet是一个百万小时规模的人类中心视频数据集，涵盖第一和第三人称视角，包含精细活动、人-物交互、工具使用及长期行为。它提供交互中心标注，如描述文本、动作说明及身体信号，支持动作与交互感知学习。数据构建强调人类中心筛选、时序结构化、视角多样性和标注增强，将互联网视频转化为可扩展学习基础。实验表明，用其1000小时第一人称视频训练Qwen VLM模型，效果优于100小时真实机器人数据，提示人类视频可作为机器人数据的可扩展且经济高效替代。该项目旨在探索通过人类视频扩展具身基础模型。

arXiv 具身智能数据/训练视频

07:07

karminski-牙医@karminski3

字节跳动Doubao-Seed-2.0-Lite集成AI电竞教练框架

作者开发的AI电竞教练框架“Harness Agent”被字节跳动官方采用。该框架能分析CS2游戏录屏中的走位、身法、对枪、经济等多维度数据，并提供改进建议。字节跳动将其与自家的Doubao-Seed-2.0-Lite模型结合，进行了长达25小时的不间断对局分析演示，该演示已成为Doubao-Seed-2.0-Lite的官方宣传案例。具体的项目细节视频仍在制作中。

智能体行业动态视频

06:34

Luma@LumaLabsAI

在正确的时间，将正确的信息传递给正确的人。现在你可以构建它的每个版本。定义受众。设置变量。Luma Agents 由此生成每个定向广告。触达所有受众 → http://lumalabs.ai/app

智能体产品更新视频

04:34

Luma@LumaLabsAI

品牌焕新并非从头开始，而是为了更好呈现。定义演进方向，确立发展路径。Luma Agents由此构建新品牌形象的每个元素。立即构建 → http://lumalabs.ai/app

产品更新视频

04:01

Chubby♨️@kimmonismus

约25分钟后Anthropic的YouTube频道将播出对Dario Amodei和Daniela Amodei的访谈可能值得一看

Anthropic 行业动态视频

01:03

Luma@LumaLabsAI

欢迎来卡尔弗城参加AI on the Lot会议。 5月27-28日，为期两天，超过2000名参会者。这是聚焦娱乐产业的最大规模AI媒体会议。通过我们的链接可享九折优惠：https://my.aionthelot.com/invite/LUMA10

行业动态视频

00:02

宝玉@dotey

把视频变成图文博客：Agent + 豆包 Seed2.0 lite 重做 Karpathy 两年前的工作流

作者利用豆包Seed2.0-lite全模态理解模型，重新实践了将长视频自动转换为图文博客的工作流。传统ASR+LLM方案因信息丢失严重而效果不佳，新方案的核心在于模型能同时理解视频的音频、画面和屏幕文字，进行联合推理，从而保留技术视频中的关键视觉信息（如代码、图表）。通过将多模态能力封装为可复用的Agent Skill，并采用四步最佳实践——视频切片、生成结构化素材、反查关键帧配图、生成终稿——解决了传统流程的上下文割裂问题，使输出更接近人类技术编辑的整理成果。

智能体多模态教程/实践视频

5月6日

19:00

公众号：可灵AI（快手·视频）

可灵AI：8所高校AI创作工坊开课，优秀作品直通釜山电影节

可灵AI联合8所高校启动AI创作工坊，课程已正式开课。工坊中的优秀作品将获得直通釜山电影节的参展机会。

行业动态视频

17:28

Alibaba Cloud@alibaba_cloud

报名延期！用AI重现历史，赢取精彩奖品

阿里云新加坡推出“被发掘的故事：WAN AI视频挑战赛”，邀请参与者使用其WAN模型创作AI视频，重新构想新加坡文化遗产。活动注册期已延长，参与者需选择主题、讲述故事并制作视频，优胜者有机会赢取奖品。为激发创意，可参考ArCH Square的遗产展览获取灵感。该活动旨在推动AI技术与文化遗产的创新结合，涉及技术包括人工智能、大语言模型和通义千问等。立即报名，用科技重现历史。

多模态行业动态视频

16:58

Alibaba Cloud@alibaba_cloud

报名延期！用AI重现历史，赢取精彩奖品

阿里巴巴云新加坡宣布延长“故事发掘：WAN AI视频挑战赛”的注册时间，邀请参与者利用其WAN模型创作AI视频，重新构想新加坡文化遗产。参赛者需选择主题，将故事转化为视频，优秀作品可获奖励。ArCH Square的展览为创作提供灵感来源。活动涉及AI、大语言模型和Qwen等技术，旨在推动创新。参与者可通过指定链接完成注册，确认邮件将随后发送。@Fooyo和@HeritageSG为本次合作方。

行业动态视频

16:37

小互@xiaohu

Runway推出可实时对话的视频角色生成功能

Runway推出Runway Characters功能，用户上传参考图即可生成能实时对话的视频角色。该角色支持高清视频流，可注视摄像头或屏幕共享内容，并允许配置声音、性格与知识库。其核心突破在于将视频生成从预渲染推进至实时交互，使角色能理解对话、依据资料回答问题，并能调用工具执行网页操作或数据查询，支持通过API等方式集成至自有产品。