AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 453 条
全部一手资讯X论文
标签「视频」清除
5月14日周四
08:00HuggingFace Daily Papers(社区热门论文)44EverAnimate:通过潜在流修复实现分钟级人类动画
08:00HuggingFace Daily Papers(社区热门论文)48视频模型可通过可验证奖励进行推理
08:00HuggingFace Daily Papers(社区热门论文)54KVPO: 基于KV语义探索的ODE原生自回归视频对齐GRPO方法
5月13日周三
10:44HuggingFace Daily Papers(社区热门论文)66CausalCine:用于多镜头视频叙事的实时自回归生成框架
5月12日周二
12:44HuggingFace Daily Papers(社区热门论文)70精选WorldReasonBench:面向未来世界状态预测的视频生成器人类对齐压力测试
08:00HuggingFace Daily Papers(社区热门论文)62TrackCraft3R:将视频扩散Transformer改造为前馈式密集3D跟踪器
08:00HuggingFace Daily Papers(社区热门论文)61PresentAgent-2:迈向通用多模态演示智能体
5月11日周一
23:35IT之家(RSS)61快手可灵被传将以 200 亿美元估值融资,谋求"单飞"上市
08:00Thinking Machines Lab:官方博客(RSS)59精选Thinking Machines Lab发布Interaction Models研究预览
5月10日周日
00:32IT之家(RSS)64两台 Figure AI 人形机器人大秀新技能:不到两分钟铺好一张床
5月9日周六
13:29IT之家(RSS)54索尼 AI 新专利,自动化记录 / 制作你的游戏高光时刻
08:00HuggingFace Daily Papers(社区热门论文)57MuSS:一个用于多镜头视频及主体视频生成的大规模数据集与电影叙事基准
08:00HuggingFace Daily Papers(社区热门论文)53CollabVR:视觉语言模型与视频生成模型的协作视频推理
5月8日周五
17:26HuggingFace Daily Papers(社区热门论文)51Sparkle:通过解耦引导实现生动的指令引导视频背景替换
11:22HuggingFace Daily Papers(社区热门论文)69SwiftI2V:通过条件分段生成实现高效高分辨率图像到视频生成
10:22HuggingFace Daily Papers(社区热门论文)66先思考后评分:视频奖励建模中的解耦推理与评分
08:00HuggingFace Daily Papers(社区热门论文)55Implicit Preference Alignment for Human Image Animation
5月7日周四
17:16IT之家(RSS)34群晖推出 AI 监控摄像头 BC510 / TC510,支持 IP6X 防尘
16:16IT之家(RSS)70精选全国首例 AI 短剧侵权刑事案一审宣判:盗录超 1700 部牟利获刑,构成侵犯著作权罪
12:22HuggingFace Daily Papers(社区热门论文)56基于上下文稀疏注意力的闪电式统一视频编辑
08:00HuggingFace Daily Papers(社区热门论文)58MACE-Dance:基于运动-外观级联专家的音乐驱动舞蹈视频生成
08:00HuggingFace Daily Papers(社区热门论文)57HumanNet:将人类中心视频学习扩展到百万小时
5月6日周三
19:00公众号:可灵AI(快手·视频)39可灵AI:8所高校AI创作工坊开课,优秀作品直通釜山电影节
08:00HuggingFace Daily Papers(社区热门论文)51FaithfulFaces:面向文本到视频生成的面部姿态忠实身份保持
5月5日周二
17:32Runway:News(网页)80精选从单张图像构建实时视频智能体:Runway Characters技术解析
09:14IT之家(RSS)30128 年校庆,北大发布首部 AI 宣传片
08:00HuggingFace Daily Papers(社区热门论文)59Audio-Visual Intelligence in Large Foundation Models
08:00HuggingFace Daily Papers(社区热门论文)56参数高效的多视角技能熟练度估计:从判别式分类到生成式反馈
08:00HuggingFace Daily Papers(社区热门论文)59Stream-R1:面向流式视频生成的可靠性-困惑度感知奖励蒸馏框架
5月4日周一
08:00HuggingFace Daily Papers(社区热门论文)63基于预测性隐变量的视频生成
5月3日周日
14:12IT之家(RSS)59国内首部院线 AI 原生动画电影将至,《三星堆:未来往事》获颁"龙标"
11:12IT之家(RSS)669.8 万余个自媒体账号被处置,网信部门严管"自媒体"未规范标注信息来源行为
08:00HuggingFace Daily Papers(社区热门论文)64面向高效自回归视频生成的运动感知缓存框架
5月2日周六
12:11IT之家(RSS)54AI 短剧《霍去病》导演澄清:3000 元仅是算力成本,80 集、5 亿播放实属夸大
08:11IT之家(RSS)56奥斯卡明确规定:AI 演员和剧本没资格获奖
08:00HuggingFace Daily Papers(社区热门论文)51TT4D:基于单目视频的乒乓球4D重建流程与数据集
5月1日周五
11:14HuggingFace Daily Papers(社区热门论文)62PhyCo:学习生成运动中的可控物理先验
11:14HuggingFace Daily Papers(社区热门论文)51MoCapAnything V2:面向任意骨骼的端到端运动捕捉框架
08:00HuggingFace Daily Papers(社区热门论文)62UniVidX:基于扩散先验的统一多模态视频生成框架
4月30日周四
16:09IT之家(RSS)51清理违规视频 11000 余条,4 月"AI 魔改"视频治理成果公布
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月14日
08:00
HuggingFace Daily Papers(社区热门论文)
44
EverAnimate:通过潜在流修复实现分钟级人类动画

EverAnimate是一种高效的后训练方法,用于解决长动画视频生成中因分块处理导致的背景质量下降与角色身份不一致问题。该方法通过引入持久的潜在上下文记忆来恢复漂移的流轨迹,包含两个核心机制:持久潜在传播在跨片段间传播身份与动作以减轻时间遗忘;恢复式流匹配在采样时引入隐式修复目标,通过速度调整提升片段内保真度。该方法仅通过轻量级LoRA微调,在短时和长时动画设置下均超越现有最优方案,在10秒和90秒动画上均取得了显著的指标提升。

arXiv图像生成视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
视频模型可通过可验证奖励进行推理

研究人员提出VideoRLVR方法,利用基于规则的反馈优化视频扩散模型,使其具备可验证的推理能力。该方法将视频推理建模为生成可验证的视觉轨迹,核心包括SDE-GRPO优化骨干、密集分解奖励以及Early-Step Focus策略。其中,Early-Step Focus策略通过将优化集中在早期去噪阶段,减少约40%训练延迟并保持性能。在Maze、FlowFree和Sokoban三个程序化生成任务中,VideoRLVR显著优于监督微调基线,尤其在成功率较低时效果突出。该模型在可验证推理基准和域外测试中也优于多个商用及开源模型,表明可验证强化学习能推动视频模型实现更可靠的规则一致视觉推理。

推理视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
KVPO: 基于KV语义探索的ODE原生自回归视频对齐GRPO方法

针对流式自回归视频生成器与人类偏好对齐的挑战,现有方法依赖噪声探索和SDE策略,与蒸馏模型的ODE动态不匹配。本文提出KVPO框架,引入因果语义探索范式,将变异源从随机噪声转移至历史键值缓存,构建语义多样的生成分支;同时提出基于轨迹速度能量的速度场代理策略,在流匹配速度空间量化分支可能性,形成与ODE一致的奖励加权对比目标。实验表明KVPO在视觉质量、运动质量和文本-视频对齐方面均有提升。

arXiv视频论文/研究
5月13日
10:44
HuggingFace Daily Papers(社区热门论文)
66
CausalCine:用于多镜头视频叙事的实时自回归生成框架

研究团队提出CausalCine,一个将多镜头视频生成转化为在线导演过程的交互式自回归框架。该框架能跨越镜头边界进行因果生成、实时响应动态提示,并复用历史上下文。其核心是内容感知记忆路由(CAMR)机制,该机制依据注意力相关性动态检索历史关键信息,而非依赖时间邻近性,从而在有限内存下保持跨镜头连贯性。团队首先训练因果基础模型学习复杂镜头转换,再将其蒸馏为少步生成器以实现实时交互。实验表明,CausalCine显著优于自回归基线,并接近双向模型能力,同时解锁了流式交互性。

arXiv多模态视频论文/研究
5月12日
12:44
HuggingFace Daily Papers(社区热门论文)
精选70
WorldReasonBench:面向未来世界状态预测的视频生成器人类对齐压力测试

研究团队发布WorldReasonBench基准,旨在直接评估视频生成模型作为“世界模拟器”的推理能力。该基准包含436个测试案例,涵盖物理、社会、逻辑和信息四大维度及22个子类,要求模型根据初始状态与动作生成状态演化一致的未来视频。评估采用人类对齐的双部分方法:过程感知推理验证通过结构化问答检测时序与因果错误;多维质量评估则对推理质量、时序一致性和视觉美学进行评分。测试发现,当前先进模型在视觉合理性与世界推理能力间存在显著差距,生成的视频可能看似逼真却违反动态、因果或信息守恒规律。相关资源已开源。

多模态视频论文/研究

推荐理由:视频生成越来越像真的,但逻辑和因果一塌糊涂,这个基准把问题量化了,想做世界模拟器的团队可以拿来测测自己的模型到底懂不懂世界。
08:00
HuggingFace Daily Papers(社区热门论文)
62
TrackCraft3R:将视频扩散Transformer改造为前馈式密集3D跟踪器

TrackCraft3R首次将预训练的视频扩散Transformer改造为前馈式密集3D跟踪器。该方法通过双潜在表征(几何潜在与跟踪潜在)和时序RoPE对齐两项核心设计,将视频DiT的逐帧生成范式转换为以参考帧为锚点的跟踪范式,仅需LoRA微调。给定单目视频及其逐帧重建点云图,模型能单次前向传播预测出以首帧为锚点的跟踪点云图及其可见性。该方法在标准3D跟踪基准上实现了最优性能,同时以1.3倍的速度和仅需1/4.6的峰值内存运行,并对大幅运动和长视频保持鲁棒性。

arXiv多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
PresentAgent-2:迈向通用多模态演示智能体

PresentAgent-2 是一个从用户查询生成端到端演示视频的智能体框架。它首先将开放式查询总结为聚焦主题,并从演示友好型来源进行深度研究,收集文本、图像、GIF和视频等多模态资源。随后构建演示幻灯片,生成特定模式的脚本,并将幻灯片、音频和动态媒体合成为完整视频。该框架统一支持三种独立演示模式:单人演示(单解说员)、讨论式演示(多演讲者结构化角色)和交互式演示(基于生成内容回答观众问题)。研究团队构建了涵盖三种场景的多模态演示基准,并制定了内容质量、媒体相关性、动态媒体使用等评估标准,从而将演示生成从文档依赖的幻灯片创建扩展到查询驱动、研究基础的多模态视频生成。

智能体arXiv多模态视频
5月11日
23:35
IT之家(RSS)
61
快手可灵被传将以 200 亿美元估值融资,谋求"单飞"上市

快手科技计划分拆旗下AI视频业务可灵,寻求以200亿美元估值进行Pre-IPO融资,目标明年独立上市。可灵是快手自主研发的视频生成大模型,2024年6月上线,2025年1月推出升级版3.0系列。财务数据显示,2025年第四季度可灵营业收入达3.4亿元,12月单月收入突破2000万美元,年化收入运行率已超过3亿美元。公司对可灵在2026年实现收入同比翻倍增长保持较强信心。

行业动态视频
08:00
Thinking Machines Lab:官方博客(RSS)
精选59
Thinking Machines Lab发布Interaction Models研究预览

Thinking Machines Lab发布interaction models研究预览。该模型从零训练,原生处理音频、视频和文本,采用多流微回合设计实现实时响应,无需外部脚手架。研究预览展示了全新的交互能力,并在智能性与响应性上取得综合SOTA表现。

智能体多模态模型发布视频

推荐理由:Thinking Machines 把实时交互训进了模型本身,不再是外挂脚手架,微轮次架构和 benchmark 数据很硬,做语音/视频助手的可以认真看看,虽然还是研究预览,但方向值得盯着。
5月10日
00:32
IT之家(RSS)
64
两台 Figure AI 人形机器人大秀新技能:不到两分钟铺好一张床

Figure AI发布视频展示两台人形机器人协作完成整理卧室任务。它们能挂外套、合电脑、铺床单,并在不到两分钟内协同铺好一张床。此次演示基于升级后的Helix 02模型,机器人完全通过视觉(如点头)进行协调,无需显式通信或远程操控。公司指出,处理柔软变形的床单、实时理解同伴动作以及在多任务间切换是技术难点。Figure AI目前估值约390亿美元,但未公布消费者产品的上市时间。

具身智能行业动态视频
5月9日
13:29
IT之家(RSS)
54
索尼 AI 新专利,自动化记录 / 制作你的游戏高光时刻

索尼互动娱乐获批一项PlayStation相关AI专利,旨在自动生成玩家游戏中的个性化高光时刻集锦。该系统利用AI和机器学习,实时分析游戏事件(如击杀、击败Boss、逆转取胜等),并参考玩家技术水平与习惯进行筛选。它能自动将精彩瞬间制作成风格化卡片、短视频或3D收藏等内容,省去了手动录制、剪辑和后期制作的繁琐流程,方便玩家在社交平台分享专属高光时刻。

多模态行业动态视频
08:00
HuggingFace Daily Papers(社区热门论文)
57
MuSS:一个用于多镜头视频及主体视频生成的大规模数据集与电影叙事基准

研究团队发布了MuSS,一个专为多镜头视频及主体视频生成设计的大规模双轨数据集。该数据集源自3000多部电影,明确支持复杂的蒙太奇转场和以主体为核心的叙事。其构建采用了一种渐进式标注流程,先确保局部镜头级准确性,再强化全局叙事连贯性,以消除时空文本-视频对齐冲突。数据集还引入了跨镜头匹配机制,从根本上解决了S2V生成中常见的“复制-粘贴”难题。同时提出的电影叙事基准包含视觉-逻辑驱动的评估范式和一个新颖的抗复制-粘贴方差指标,用于严格评估连续叙事能力和3D结构一致性。实验表明,当前基线模型难以处理连续叙事逻辑或退化为简单的2D贴图生成器,而基于MuSS增强的模型在叙事效果和跨镜头身份保持上达到了最先进水平。

多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
CollabVR:视觉语言模型与视频生成模型的协作视频推理

CollabVR提出一种闭环协作框架,在步骤级别将视觉语言模型(VLM)与视频生成模型(VGM)耦合,以解决VGM在多步任务中的长视野漂移和中间片段错误累积问题。该框架中,VLM负责规划即时动作并检查VGM生成的视频片段,再将验证诊断直接融入后续提示以修正错误。在Gen-ViRe和VBVR-Bench基准测试中,该方法在同等计算条件下显著提升了开源与闭源VGM的性能,尤其在困难任务上增益最大,且能与推理微调的VGM进一步结合,实现性能叠加。

多模态推理视频论文/研究
5月8日
17:26
HuggingFace Daily Papers(社区热门论文)
51
Sparkle:通过解耦引导实现生动的指令引导视频背景替换

近年来,视频编辑在自然语言指令引导下发展迅速,但背景替换任务因需合成全新、时间一致场景并保持前景-背景交互,面临高质量数据匮乏的挑战,导致现有模型生成静态、不自然背景。为此,研究团队设计可扩展数据生成流程,以解耦方式分别生成前景与背景引导,并实施严格质量过滤,构建了Sparkle数据集(包含约14万视频对,覆盖五种常见背景更换主题)及迄今最大的专项评估基准Sparkle-Bench。实验表明,基于该数据训练的模型在OpenVE-Bench和Sparkle-Bench上均显著优于现有基线。数据集、基准与模型已全部开源。

arXiv多模态开源/仓库视频
11:22
HuggingFace Daily Papers(社区热门论文)
69
SwiftI2V:通过条件分段生成实现高效高分辨率图像到视频生成

SwiftI2V是一个针对高分辨率图像到视频生成的高效框架,旨在解决2K分辨率下的效率与保真度难题。它采用两阶段设计:首先生成低分辨率运动参考以降低计算负担,随后进行强图像条件的2K合成以恢复输入细节。其核心创新是条件分段生成技术,通过分段合成控制每步令牌预算,并利用双向上下文交互提升片段连贯性与输入保真度。在VBench-I2V基准测试中,该框架在2K分辨率下性能与端到端基线相当,同时将总GPU时间大幅减少202倍,使得在单张数据中心或消费级GPU上实现实用的2K图像到视频生成成为可能。

图像生成视频论文/研究
10:22
HuggingFace Daily Papers(社区热门论文)
66
先思考后评分:视频奖励建模中的解耦推理与评分

为提升视频奖励模型的泛化能力与训练效率,研究团队提出DeScore模型。它采用“先思考后评分”的解耦范式:首先由多模态大语言模型生成显式思维链推理,再由专用判别式评分模块预测最终奖励。模型通过两阶段框架优化:第一阶段结合随机掩码进行判别式冷启动,确保评分稳健性;第二阶段通过双目标强化学习,独立优化推理质量并校准奖励,使更优的推理直接转化为更好的性能。该方法旨在克服现有判别式模型易陷于捷径学习、生成式模型因推理与评分耦合而存在优化瓶颈的问题。

arXiv推理视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
Implicit Preference Alignment for Human Image Animation

针对人体图像动画中高自由度、复杂的手部动作生成难题,研究者提出了隐式偏好对齐框架。该方法无需构建严格配对的偏好数据,通过最大化自生成高质量样本的似然并惩罚与预训练先验的偏差来实现模型对齐。框架还引入了手部感知局部优化机制,以显式引导手部区域的生成质量。实验表明,该方法能有效优化手部生成质量,同时大幅降低了构建偏好数据的门槛。相关代码已开源。

arXivGitHub图像生成视频
5月7日
17:16
IT之家(RSS)
34
群晖推出 AI 监控摄像头 BC510 / TC510,支持 IP6X 防尘

群晖科技发布两款AI监控摄像头BC510和TC510。新品具备IP66/IP67防尘防水等级,支持录制2880×1620分辨率、30帧/秒的视频,提供110°水平广角视野和30米夜视距离。摄像头搭载边缘AI功能,可在本地运行人流与车辆计数、入侵侦测等分析任务。它们设计用于深度整合群晖现有监控架构及即将推出的VSaaS平台,并兼容第三方环境。

产品更新端侧视频
16:16
IT之家(RSS)
精选70
全国首例 AI 短剧侵权刑事案一审宣判:盗录超 1700 部牟利获刑,构成侵犯著作权罪

全国首例AI短剧侵权刑事案一审宣判。被告人盗录某公司AI工具生成的短剧超过1700部,并在二手平台以66.66元打包出售牟利,构成侵犯著作权罪。法院认定,这些短剧由用户输入原创剧本、情节等提示词生成,体现了独创性表达,属于受著作权法保护的作品。被告人被判处有期徒刑八个月,缓刑一年两个月,并处罚金人民币六千元。涉案公司平台已累计生成超7000部AI短剧,单价数元至十几元,热门剧销量可达上千份。

政策/监管视频

推荐理由:AI短剧首例刑事案落槌,法院认定了提示词创作的独创性,以后靠盗录AI赚快钱的路子要被堵死,做内容生意的都得认真看。
12:22
HuggingFace Daily Papers(社区热门论文)
56
基于上下文稀疏注意力的闪电式统一视频编辑

针对上下文学习视频编辑中的计算瓶颈,研究团队提出首个近无损稀疏框架ISA。该框架基于上下文令牌显著性低、查询锐度与近似误差相关两项发现,采用预选择策略修剪冗余上下文,并通过动态查询分组机制,将高误差查询路由至完整注意力、低误差查询路由至高效的零阶泰勒稀疏注意力。结合新建的170万高质量视频数据集,团队构建了LIVEditor模型。实验表明,该模型在注意力模块延迟降低约60%的同时,在多个评测基准上超越现有先进方法,实现了近无损加速并保持了视觉保真度。

arXiv多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
58
MACE-Dance:基于运动-外观级联专家的音乐驱动舞蹈视频生成

针对音乐驱动舞蹈视频生成任务,本文提出了MACE-Dance框架。该框架采用级联专家混合模型,包含运动专家与外观专家两个核心模块。运动专家基于BiMamba-Transformer混合架构的扩散模型及免引导训练策略,从音乐生成高表现力且运动学合理的3D舞蹈动作。外观专家通过解耦的运动-美学微调策略,在动作驱动下合成具有时空一致性和视觉身份保持的视频。研究同时构建了大规模数据集与评估标准,实验表明该框架在3D舞蹈生成与姿态驱动图像动画两项任务上均达到了最先进性能。代码已开源。

多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
HumanNet:将人类中心视频学习扩展到百万小时

HumanNet是一个百万小时规模的人类中心视频数据集,涵盖第一和第三人称视角,包含精细活动、人-物交互、工具使用及长期行为。它提供交互中心标注,如描述文本、动作说明及身体信号,支持动作与交互感知学习。数据构建强调人类中心筛选、时序结构化、视角多样性和标注增强,将互联网视频转化为可扩展学习基础。实验表明,用其1000小时第一人称视频训练Qwen VLM模型,效果优于100小时真实机器人数据,提示人类视频可作为机器人数据的可扩展且经济高效替代。该项目旨在探索通过人类视频扩展具身基础模型。

arXiv具身智能数据/训练视频
5月6日
19:00
公众号:可灵AI(快手·视频)
39
可灵AI:8所高校AI创作工坊开课,优秀作品直通釜山电影节

可灵AI联合8所高校启动AI创作工坊,课程已正式开课。工坊中的优秀作品将获得直通釜山电影节的参展机会。

行业动态视频
08:00
HuggingFace Daily Papers(社区热门论文)
51
FaithfulFaces:面向文本到视频生成的面部姿态忠实身份保持

现有身份保持文本到视频生成方法在面部姿态变化或遮挡时常出现身份失真。为此,研究团队提出FaithfulFaces框架,其核心是一个姿态共享身份对齐器,通过姿态共享字典与姿态变化-身份不变性约束,在不同视角间对齐面部姿态,并将单视角输入映射为包含显式欧拉角嵌入的全局面部姿态表示,为生成模型提供忠实的面部先验。团队还构建了一个包含丰富姿态变化的高质量视频数据集用于训练。实验表明,该框架在动态复杂场景中实现了最先进的性能,能有效保持身份一致性与结构清晰度。

arXiv视频论文/研究
5月5日
17:32
Runway:News(网页)
精选80
从单张图像构建实时视频智能体:Runway Characters技术解析

Runway公司推出“Characters”实时视频智能体,它能将任意单张参考图像(如真人、卡通或幻想生物照片)实时转化为具有自然对话表现力的视频角色。该技术基于其通用世界模型GWM-1,无需微调即可生成每秒24帧的高清视频,并同步口型、表情和头部运动。其核心突破在于通过自回归逐帧生成、流程优化与并行化,实现了每帧仅37毫秒的模型处理时间,以及从用户停止说话到角色开始响应仅1.75秒的服务器端延迟,从而满足了实时交互对话的严苛要求。

智能体产品更新视频

推荐理由:把单张图变成实时对话角色这件事,Runway 做到了 24fps 且 1.75 秒响应。不是预录,是真实时,还带了知识库和工具调用,做虚拟角色产品的可以直接拿来集成。
09:14
IT之家(RSS)
30
128 年校庆,北大发布首部 AI 宣传片

北京大学在建校128周年之际,发布了首部AI生成的校庆宣传片《举火》。该片回顾了学校自1898年创办以来的重要历史事件、知名校友及科研成果,例如在23位“两弹一星”元勋中,有12位是北大校友。视频以“举火”为主题,展现了从历史传承到当代青年接续奋斗的脉络,标志着北大在利用人工智能技术进行形象传播方面迈出新的一步。

行业动态视频
08:00
HuggingFace Daily Papers(社区热门论文)
59
Audio-Visual Intelligence in Large Foundation Models

音频-视觉智能已成为人工智能的核心前沿领域,旨在让机器能够感知、生成并交互于多模态现实世界。在大模型时代,音频与视觉的联合建模愈发关键,不仅用于理解,更支持对动态时序信号的可控生成与推理。Meta MovieGen、Google Veo-3等最新进展凸显了业界与学界对统一音视频架构的关注。然而,该领域研究仍较为分散,任务多样、分类不一致、评估方法各异,阻碍了系统化比较与知识整合。本综述首次从大模型视角全面回顾音频-视觉智能,建立了统一的任务分类体系,涵盖理解、生成与交互三大方向,并综合了模态标记化、跨模态融合、自回归与扩散生成、大规模预训练等核心方法。同时,研究梳理了代表性数据集、基准与评估指标,指出同步性、空间推理、可控性与安全性等开放挑战。

多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
参数高效的多视角技能熟练度估计:从判别式分类到生成式反馈

评估人的动作完成质量(熟练度)对教学、康复等领域至关重要,但其挑战在于细微的时空差异分布于多视角视频中。本文针对Ego-Exo4D数据集提出三种创新方法:SkillFormer采用参数高效的判别式架构实现选择性多视角融合;PATS通过保留基础动作的局部密集片段来改进时序采样;ProfVLM则将任务重构为条件语言生成,通过门控跨视角投影器和紧凑语言模型,同时输出熟练度标签与专家风格反馈。这些方法仅需比视频Transformer基线少20倍的可训练参数和少3倍的训练周期,即达到最优准确率,推动了该任务从封闭集分类向可解释反馈生成的范式转变。

具身智能多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
59
Stream-R1:面向流式视频生成的可靠性-困惑度感知奖励蒸馏框架

针对流式视频扩散模型的分布匹配蒸馏方法普遍均等对待所有输出,限制了质量提升。Stream-R1框架提出统一的奖励引导机制,从两个层面自适应重加权蒸馏目标:在序列间,依据预训练奖励分数对损失进行重缩放,让高可靠性序列主导优化;在序列内,利用同一奖励模型的反向传播生成像素级时空权重,将优化集中于预期增益最大的区域和帧。该方法在标准基准测试中,于视觉质量、运动质量和文本对齐方面均持续优于基线,且无需改变架构或增加推理开销。

多模态视频论文/研究
5月4日
08:00
HuggingFace Daily Papers(社区热门论文)
63
基于预测性隐变量的视频生成

视频变分自编码器(VAE)通过隐空间建模提升生成效率,但重建优化未必改善生成性能。为此,本研究受预测性世界建模启发,提出预测性视频VAE(PV-VAE),引入统一的预测性重建目标。该方法在训练时随机丢弃未来帧,仅编码部分过去观测,并让解码器同时重建已观测帧与预测未来帧,从而使隐空间编码更具时间预测性的结构,增强对视频动态的连贯理解。在UCF101数据集上,PV-VAE相比Wan2.2 VAE收敛速度提升52%,FVD指标改善34.42。分析表明,该模型具有良好的可扩展性,其隐空间能有效捕捉时间连贯性与运动先验,在下游视频理解任务中也带来一致性能提升。

多模态视频论文/研究
5月3日
14:12
IT之家(RSS)
59
国内首部院线 AI 原生动画电影将至,《三星堆:未来往事》获颁"龙标"

国内首部AI原生动画院线电影《三星堆:未来往事》已获得公映许可证,即将登陆全国影院。该片深度结合三星堆古蜀文明与AI技术,以AI呈现文物,构建连接过去与未来的科幻世界。其概念预告片已在香港国际影视展亮相,创作脉络可追溯至2024年上线的同系列AI科幻短剧《三星堆·未来启示录》第一季,该短剧全网播放量已达1.6亿次。

多模态行业动态视频
11:12
IT之家(RSS)
66
9.8 万余个自媒体账号被处置,网信部门严管"自媒体"未规范标注信息来源行为

近期,网信部门针对“自媒体”未规范标注信息来源的行为展开严管,处置违规账号9.8万余个。主要问题包括发布国内外时事、公共政策等信息时不标注来源,使用AI生成内容不添加标识,以及虚构演绎内容不标注标签,这些行为误导公众、破坏网络生态。典型案例涉及抖音、快手、哔哩哔哩等多个平台账号,内容涵盖国际时事、公共政策、AI生成视频和虚构剧情。网信部门将指导平台把规范标注设为短视频发布的必经环节,并要求创作者主动规范标注,确保信息真实完整。

政策/监管视频
08:00
HuggingFace Daily Papers(社区热门论文)
64
面向高效自回归视频生成的运动感知缓存框架

自回归视频生成因顺序去噪计算负担重而面临部署挑战。现有缓存重用方法采用粗粒度的块级跳过,无法捕捉细粒度像素动态。为此,研究提出MotionCache运动感知缓存框架,其核心是利用帧间差异作为像素级运动特征的轻量级代理。该方法采用从粗到细的策略:初始预热阶段建立语义连贯性,随后根据运动权重动态调整每个令牌的缓存更新频率。在SkyReels-V2和MAGI-1等先进模型上的实验表明,MotionCache分别实现了6.28倍和1.64倍的显著加速,同时有效保持了生成质量(VBench指标下降分别仅为1%和0.01%)。该框架代码已开源。

GitHub视频论文/研究
5月2日
12:11
IT之家(RSS)
54
AI 短剧《霍去病》导演澄清:3000 元仅是算力成本,80 集、5 亿播放实属夸大

AI短剧《霍去病》导演杨涵涵澄清,此前引发关注的“3000元成本、48小时制作、80集、5亿播放”等说法存在夸大。3000元仅为算力成本,不包含人力;48小时指纯工作时间;实际作品只有4分钟MV和6分钟正片两个版本,5亿播放量源于未经核实数据。团队3人属实,项目于2026年1月底启动,每天工作约12小时,4天完成。导演的B站账号曾使用夸大标题,被质疑自我炒作。

行业动态视频
08:11
IT之家(RSS)
56
奥斯卡明确规定:AI 演员和剧本没资格获奖

奥斯卡奖发布新规,明确禁止人工智能生成的表演和剧本获奖。美国电影艺术与科学学院规定,从2027年3月举行的下一届颁奖典礼开始生效。规则指出,电影制作中虽可使用AI工具,但“合成”表演者不能获得任何奖项,获奖剧本必须是“人类创作的”。学院可要求提交作品提供更多信息,以验证人类创作身份。这一变化旨在维护奖项对人类创意的认可,回应行业对AI替代演员的担忧。

行业动态视频
08:00
HuggingFace Daily Papers(社区热门论文)
51
TT4D:基于单目视频的乒乓球4D重建流程与数据集

TT4D是一个大规模高保真乒乓球数据集,包含超过140小时从单目转播视频重建的单打与双打比赛数据,提供高质量相机标定、精确3D球位、球旋转、时间分割以及随时间变化的3D人体网格等多模态标注。该数据集通过新颖的重建流程实现规模与精度的结合:传统方法依赖2D球轨进行时间分割,易受遮挡和多视角影响;TT4D则首先通过学习的提升网络将未分割的2D球轨全程提升至3D,再基于3D轨迹可靠分割时间,并能推断球旋转、处理漏检,在高遮挡情况下成功重建轨迹。该流程是目前唯一能从通用视角单目转播视频重建乒乓球比赛的方法。数据集已应用于球拍击球姿态速度估计、竞技对抗回合生成模型训练等下游任务。

数据/训练视频论文/研究
5月1日
11:14
HuggingFace Daily Papers(社区热门论文)
62
PhyCo:学习生成运动中的可控物理先验

现代视频扩散模型擅长外观合成,但物理一致性不足,如物体漂移、碰撞不真实。PhyCo框架引入连续、可解释且基于物理的控制,整合三个核心组件:包含超过10万条模拟视频的大规模数据集,系统改变摩擦、恢复系数等属性;基于像素对齐物理属性图的ControlNet,对预训练扩散模型进行物理监督微调;以及VLM引导的奖励优化,通过微调视觉语言模型评估视频并提供可微分反馈。该方法使模型能通过调整物理属性生成物理一致且可控的视频,无需推理时模拟或几何重建。在Physics-IQ基准测试中,PhyCo显著提升物理真实感,人类研究证实其控制更清晰、更忠实。

多模态视频论文/研究
11:14
HuggingFace Daily Papers(社区热门论文)
51
MoCapAnything V2:面向任意骨骼的端到端运动捕捉框架

MoCapAnything V2 提出了首个完全端到端的单目视频运动捕捉框架,用于驱动任意骨骼。该框架将视频到姿态、姿态到旋转两个模块设计为可学习且联合优化,解决了传统分解流程中旋转模糊与不可微逆运动学带来的限制。通过引入目标资产的参考姿态-旋转对与休息姿态,明确定义了旋转坐标系,将旋转预测转化为条件良好的问题。模型直接从视频预测关节位置,无需依赖网格中间表示,提升了鲁棒性与效率。实验表明,该方法在多个数据集上将旋转误差从约17度显著降低至约10度,在未见骨骼上可达6.54度,且推理速度比基于网格的方法快约20倍。

多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
UniVidX:基于扩散先验的统一多模态视频生成框架

UniVidX是一个利用视频扩散模型先验的统一多模态视频生成框架。它将像素对齐任务统一为共享多模态空间中的条件生成,核心设计包括:随机条件掩码,实现全向条件生成;解耦门控LoRA,为各模态引入独立适配器以保留骨干网络先验;跨模态自注意力,通过共享键值促进模态间信息交换。该框架在两个领域实例化:UniVid-Intrinsic用于RGB视频及其内在属性图;UniVid-Alpha用于混合RGB视频及其RGBA分层。实验表明,即使在少于1000个视频的小数据集上训练,模型也能在多种任务上达到先进性能,并能稳健地泛化到真实场景。

多模态视频论文/研究
4月30日
16:09
IT之家(RSS)
51
清理违规视频 11000 余条,4 月"AI 魔改"视频治理成果公布

国家广播电视总局公布4月“AI魔改”视频治理成果,重点网络视听平台共清理违规视频11000余条、处置违规账号10余个。此前,总局于今年1月开展了为期一个月的专项治理,清理违规视频23000余条、处置账号100余个。自2月1日起,治理工作转为常态化、制度化长效机制,各平台需深化主体责任,加强审核与日常排查,并按月发布治理成果接受社会监督。

政策/监管视频
‹ 上一页
1…678910…12
下一页 ›