全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 451 条

全部一手资讯 X 论文

标签「视频」清除

今天7月3日周五

01:08Apple Machine Learning Research（RSS）56精选VideoFlexTok：可变长度粗到细视频分词

00:06IT之家（RSS）71精选快手可灵AI获初始投资者20.28亿美元注资，投后估值180亿美元

7月2日周四

22:00公众号：可灵AI（快手·视频）49可灵AI广告斩获戛纳金狮：两部作品获1银2铜

20:45The Decoder：AI News（RSS）42Google 为 NotebookLM 引入 TikTok 风格短视频

10:03IT之家（RSS）68消息称快手可灵 AI 将完成 30 亿美元融资：投后估值 180 亿美元，腾讯参投

7月1日周三

11:28HuggingFace Daily Papers（社区热门论文）38MemLearner：为视频世界模型学习查询上下文记忆

01:38The Decoder：AI News（RSS）59Google 发布 Nano Banana 2 Lite 图像模型与 Gemini Omni Flash 视频模型

6月30日周二

23:28TechCrunch：AI（RSS）44Riverside 推出新闻通讯功能，支持 AI 转换播客视频为内容

20:38The Decoder：AI News（RSS）58美国竞选全面融入AI，欧洲以AI Act反向监管

16:20公众号：可灵AI（快手·视频）50戛纳国际创意节首设AI Craft子赛道，可灵AI参与作品获奖

12:26HuggingFace Daily Papers（社区热门论文）37NeuWorld：通过神经隐式场景实现交互式世界探索

12:26HuggingFace Daily Papers（社区热门论文）46DreamForge-World 0.1 Preview：低算力实时可控世界模型预览版

11:02IT之家（RSS）4562 岁香港演员吴启华卖肖像权拍 AI 电影，"重回"20 岁样貌

6月29日周一

19:01IT之家（RSS）55创作者自制 AI 动画被搬运至优酷收费观看，相关剧集已下架

17:51公众号：豆包（字节）29豆包携手人教社发起「经典课文名师AI共创计划」，用 Seedance 视频模型还原课文场景

17:01IT之家（RSS）62做视频不花钱、一句话搞定大纲分镜，Agnes AI推全新免费视频创作平台Pavo

08:00HuggingFace Daily Papers（社区热门论文）44AVTok：面向整体音频-视频生成的一维统一分词器

6月28日周日

08:00HuggingFace Daily Papers（社区热门论文）55基于通用关键帧提取连接视频问答与视频引导智能体任务

6月26日周五

08:00HuggingFace Daily Papers（社区热门论文）53Video-MME-Logical：视频时间逻辑推理的受控诊断基准

08:00HuggingFace Daily Papers（社区热门论文）47PhysisForcing：面向机器人操作的物理增强世界模拟器

02:41Runway：News（网页）65精选Runway发布Agent 2.0

6月25日周四

22:58IT之家（RSS）56Adobe 宣布收购 Topaz Labs 强化 AI 视频与图像布局，交易预计 2026 年下半年完成

21:58IT之家（RSS）58广电总局发布 AI 微短剧分类分层标准，7 月 1 日起施行

21:37TechCrunch：AI（RSS）64Adobe 收购图像与视频增强工具开发商 Topaz Labs

19:30公众号：百度智能云（文心）48百度智能云联合五家伙伴，加速AIGC内容工业化生产

19:20公众号：生数科技（Vidu·视频）38生数科技与极豆科技达成战略合作，共建汽车行业AIGC解决方案

16:12HuggingFace Daily Papers（社区热门论文）43MVTrack4Gen：多视角点跟踪作为4D视频生成的几何监督

14:40公众号：京东JoyAI55JoyAI 上线「欢乐足球季」：上传照片一键生成足球主题动态视频

12:12HuggingFace Daily Papers（社区热门论文）41TryOnCrafter：通过可渲染4D试穿代理释放相机轨迹实现真实视频虚拟试穿

11:12HuggingFace Daily Papers（社区热门论文）70精选Causal-rCM：自回归视频扩散蒸馏的统一教师强制与自强制开源方案

11:12HuggingFace Daily Papers（社区热门论文）52DomainShuttle：面向开放域主题驱动的文本到视频生成

08:00HuggingFace Daily Papers（社区热门论文）47SAM2Matting：通用图像和视频抠图

08:00HuggingFace Daily Papers（社区热门论文）51LiveEdit：面向实时扩散的流式视频编辑

08:00HuggingFace Daily Papers（社区热门论文）48LISA：基于似然分数对齐的视觉条件可控生成正则化方法

6月24日周三

21:58IT之家（RSS）47今年圣诞节前，伦敦警方拟将实时面部识别技术推广至市中心

14:42IT之家（RSS）67国家广播电视总局：使用 AI 技术生成的微短剧应在每集明显位置添加提示标识

08:00HuggingFace Daily Papers（社区热门论文）48Physics Question Scene Graph：文本到视频生成物理合理性细粒度评估方法

07:07Hacker News 热门（buzzing.cc 中文翻译）48Lift4D：协调单视图3D估计与4D重建的真实场景框架

00:03HuggingFace Daily Papers（社区热门论文）44Vera：用于内容保留视频编辑的分层扩散模型

6月23日周二

23:00公众号：昆仑万维（天工）49DramaWave张薇：AI拍剧代替的是流程，不是故事 | 上海电视节白玉兰论坛

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

7月3日

01:08

Apple Machine Learning Research（RSS）

精选56

VideoFlexTok：可变长度粗到细视频分词

VideoFlexTok提出一种可变长度token序列的视频表示方法，采用粗到细结构——首个token捕捉语义和运动等抽象信息，后续token添加精细细节，生成流解码器支持任意token数量的视频重建。相比传统3D网格分词，该结构允许根据下游需求调整token数，在相同预算下编码更长视频。在类别和文本到视频生成任务中，VideoFlexTok以1.1B参数（5.2B的1/5）达到可比生成质量（gFVD和ViCLIP Score）。训练一个处理10秒81帧视频的文本到视频模型仅需672个token，比同等3D网格分词器少8倍。

数据/训练视频论文/研究

推荐理由：把视频 tokenization 从固定网格改成变长 coarse-to-fine，训练效率提升明显，还能做更长的视频。研究角度挺漂亮，但离产品落地还有距离，做视频生成的可以追一下。

00:06

IT之家（RSS）

精选71

快手可灵AI获初始投资者20.28亿美元注资，投后估值180亿美元

快手在港交所公告，21名初始投资者同意以138.24亿元人民币（20.28亿美元）现金注资北京可灵，后者将持有可灵AI相关资产。同日15名额外投资者追加出资52.235亿元人民币（7.6639亿美元），认购总上限为204.471亿元（30亿美元），对应北京可灵扩大后注册资本的16.67%。投后估值180亿美元。快手预计未来12个月内启动可灵AI赴港上市，募资用于扩充算力、建设数据中心及人才引进。

行业动态视频

推荐理由：可灵AI这轮180亿美元估值融资，是AI视频赛道迄今最重量级的资本动作之一，也是中国AI公司分拆上市的标杆事件，值得关注后续上市进程。

7月2日

22:00

公众号：可灵AI（快手·视频）

49

可灵AI广告斩获戛纳金狮：两部作品获1银2铜

戛纳国际创意节今年首设AI Craft子赛道，两部使用可灵AI生成的广告获奖：《L'Ultimo Uomo Reale》获Classic单元Film银奖及Craft单元Film铜奖，《Lorem Ipsum》获Classic单元Film铜奖。前者为二手奢侈品平台The RealReal的愚人节广告，几乎全由AI生成，仅手提包为实拍，展现人物一致性和复杂视觉奇观；后者由Purga Films制作，全片角色用拉丁文假文对话，风格迥异但情绪推进精准。两部作品标志可灵已产出商业交付级广告，获全球最高级别广告创意殿堂认可。

多模态行业动态视频

20:45

The Decoder：AI News（RSS）

42

Google 为 NotebookLM 引入 TikTok 风格短视频

Google 为 NotebookLM 新增视频概览功能，可将上传的源文件转换为 60 秒竖屏短视频，分解特定主题。该功能目前正在移动端和网页端向 Google AI Ultra 和 Pro 订阅者推出，免费用户即将获得访问权限。NotebookLM 是 Google 的 AI 笔记工具，能分析多源内容并以不同格式重新打包。

Google 产品更新视频

10:03

IT之家（RSS）

68

消息称快手可灵 AI 将完成 30 亿美元融资：投后估值 180 亿美元，腾讯参投

快手旗下可灵 AI 即将完成 30 亿美元融资，投后估值 180 亿美元，腾讯参投。快手今年 4 月首次计划分拆时估值目标 200 亿美元，后下调至 180 亿。公司预计未来 12 个月内启动赴港上市，资金用于扩充算力、建设数据中心、引进人才。可灵 AI 今年 3 月年化收入运行率达 5 亿美元，一季度收入 6.5 亿元同比增长 300%，全球用户突破 1 亿，约四分之三收入来自海外。今年 2 月发布的 3.0 系列模型增强了视频生成中的叙事控制力和一致性。

行业动态视频

7月1日

11:28

HuggingFace Daily Papers（社区热门论文）

38

MemLearner：为视频世界模型学习查询上下文记忆

视频世界模型在长时段生成中缺乏记忆，导致场景不一致。MemLearner 提出基于学习的自适应上下文查询方法，利用 query tokens 桥接上下文与预测 token，并借助视频生成模型自身的预训练视觉先验进行上下文查询，无需从头训练额外模块。团队收集了带场景遮挡和动态物体的长视频数据集，辅以相机位姿标注，并采用多数据集训练策略同时利用标注渲染视频和无标注真实视频。实验表明，MemLearner 在场景一致性和记忆方面显著优于以往视频世界模型，尤其在遮挡和动态场景下。

arXiv 视频论文/研究

01:38

The Decoder：AI News（RSS）

59

Google 发布 Nano Banana 2 Lite 图像模型与 Gemini Omni Flash 视频模型

Google 推出两款新生成式 AI 模型。Nano Banana 2 Lite 可在 4 秒内生成图像，每张成本 0.034 美元（1K 分辨率），API 名称为 gemini-3.1-flash-lite-image。Gemini Omni Flash 允许开发者通过文本提示在 API 中生成和编辑最长 10 秒的视频，每秒输出价格 0.10 美元。Google 推荐将两个模型链式使用：先用 Nano Banana 2 Lite 生成图像，再传递给 Gemini Omni Flash 转化为视频。两者均使用 SynthID 水印，已通过 Google AI Studio、Gemini API 和 Gemini Enterprise Agent Platform 提供。

Google 图像生成多模态模型发布

6月30日

23:28

TechCrunch：AI（RSS）

44

Riverside 推出新闻通讯功能，支持 AI 转换播客视频为内容

视频与播客录制工具 Riverside 新增新闻通讯发布功能，用户可通过 AI 助手将已有视频和播客内容自动转换为新闻通讯，也可在应用内从头创建并直接发送。Riverside 同时更新录制套件，支持多机位录制和远程嘉宾添加。新版 AI 功能还包括自动生成录制初稿、为社交媒体创建钩子与内容，以及基于对话视频播客训练的 AI 视频增强功能，可改善光线、深度和锐度。Riverside 已累计融资超 6000 万美元。

产品更新多模态视频

20:38

The Decoder：AI News（RSS）

58

美国竞选全面融入AI，欧洲以AI Act反向监管

《纽约时报》报道，美国两党竞选团队已将AI融入候选人审查、选民微定向等环节，87%策略师每日使用AI。民主党团体Swing Left用AI分析选民对话，American Bridge 21st Century用AI审查约250名共和党候选人。共和党更依赖私营公司，民主党偏向非营利模式且选民对AI更怀疑。欧洲则不同：2025年10月起欧盟政治广告须明确标注出资方等信息，禁止使用敏感数据画像；AI Act于2026年8月2日生效，要求对涉及公共利益的深度伪造和AI内容显著标注。德国2025年联邦选举中，多数党签署公平协议承诺标注AI内容，但AfD和BSW未签署。

政策/监管视频

16:20

公众号：可灵AI（快手·视频）

50

戛纳国际创意节首设AI Craft子赛道，可灵AI参与作品获奖

本届戛纳国际创意节首次设立“AI Craft”子赛道。可灵AI参与制作的两部广告获奖：《L’Ultimo Uomo Reale》获Classic单元Film银奖及Craft单元Film Craft铜奖；《Lorem Ipsum》获Classic单元Film铜奖。这标志着AI创作正式进入全球最高级别广告创意奖评审体系。

行业动态视频

12:26

HuggingFace Daily Papers（社区热门论文）

37

NeuWorld：通过神经隐式场景实现交互式世界探索

NeuWorld提出场景中心范式Walking in the Implicit，将交互式视频生成的滚动变量从帧级潜变量替换为固定长度的可渲染隐式状态NIS。模型利用Transformer VAE从稀疏有姿态帧学习局部锚定的NIS，并通过扩散Transformer根据未来相机轨迹和几何感知历史演化NIS。通过复用VAE编码器作为统一条件器，将相机、参考图像和历史线索映射到同一NIS模态，避免外部异构编码器。模型在公开姿态视图数据上从头训练，未使用预训练视频骨干或3D重建器，实现了强长程一致性和有利推理效率。

arXiv 视频论文/研究

12:26

HuggingFace Daily Papers（社区热门论文）

46

DreamForge-World 0.1 Preview：低算力实时可控世界模型预览版

DreamForge-World 0.1 Preview 是一款低算力实时交互世界模型预览版，基于 LongLive 1 自回归视频栈（源自 Wan2.1-T2V-1.3B）和 Matrix-Game 系列的残差动作路径。支持实时键盘鼠标控制、多模态初始化、中流重提示及双视角操作。在单张 RTX 4090 上以原生 480p 分辨率达到 14-15 FPS，内存占用低，展示了在消费级 GPU 上实现实时可控世界模型预览的低算力路线。

开源生态视频论文/研究

11:02

IT之家（RSS）

45

62 岁香港演员吴启华卖肖像权拍 AI 电影，"重回"20 岁样貌

62 岁香港演员吴启华近日卖出肖像权拍摄 AI 电影，制片方用其 20 岁样貌制作影片，本人无需出演。他看过成品后满意，认为 AI 不会冲击演员工作，反而开辟新路线，并透露酬劳不错。多位同行持相反观点：马修·麦康纳警告 AI 取代人类从业者，尼古拉斯·凯奇抨击 AI 改变表演是“死胡同”，演员王劲松感叹 AI 生成视频真假难辨。此外，伦敦“AI 女演员”Tilly Norwood 引发争议，美国演员工会 SAG-AFTRA 明确反对合成演员。

现象/趋势视频

6月29日

19:01

IT之家（RSS）

55

创作者自制 AI 动画被搬运至优酷收费观看，相关剧集已下架

据《正在新闻》报道，舒先生制作的 AI 动画被搬运至优酷平台，剧集《小企鹅咕嘎冒险记》更新至29集，最新一集来自舒先生5月1日发布的作品。前4集免费，后续需VIP。舒先生称动画由AI生成并剪辑，未在任何平台备案，也不清楚备案号来源。优酷客服表示该剧是站内官方少儿节目，非私人上传，但无法查询备案号，侵权问题需通过知识产权投诉平台处理。目前该剧集已无法在优酷搜索到，从搜索引擎进入会提示“版权受限暂无可播源”。

多模态行业动态视频

17:51

公众号：豆包（字节）

29

豆包携手人教社发起「经典课文名师AI共创计划」，用 Seedance 视频模型还原课文场景

近日，豆包与人民教育出版社合作发起「经典课文名师AI共创计划」，邀请康震、蒙曼、骆玉明、梁永安、苏德超五位名师讲解，使用 Seedance 视频模型还原经典文本中的场景、人物与情境。同时，豆包旗下教育产品豆包爱学上线“豆包课堂”专区，同样基于 Seedance 视频模型呈现经典古诗文。该计划旨在以AI视频生成技术让经典课文“活”起来。

产品更新视频

17:01

IT之家（RSS）

62

做视频不花钱、一句话搞定大纲分镜，Agnes AI推全新免费视频创作平台Pavo

新加坡公司Sapiens AI旗下Agnes AI推出免费视频创作平台Pavo。用户提供一句话初始需求，平台自动生成需求、大纲、角色场景道具设计、分镜、关键帧及分镜视频，用户逐环节微调确认即可成片。Pavo免费使用Agnes自研模型，包括文本模型Agnes-2.0-Flash、图片模型Agnes-Image-2.1-Flash、视频模型Agnes-Video-2.0。即将上线的Agnes-Video-2.5-Preview在动作、角色、相机移动和场景连贯性上接近Veo 3。

产品更新多模态视频

08:00

HuggingFace Daily Papers（社区热门论文）

44

AVTok：面向整体音频-视频生成的一维统一分词器

AVTok 是一种新颖的统一分词器，专为整体音频-视频生成设计。它采用双流 Transformer 架构，包含共享编码器-解码器和模态特定的可学习查询，将音频-视频对高效编码为紧凑的一维潜在表示并共享同一码本。为应对异质信息不平衡，研究者设计了分层训练策略，逐步重建各模态。实验表明，AVTok 在音频-视频重建及下游任务（音频到视频、视频到音频、类别条件联合生成）中均表现优异，为构建统一音视频大语言模型提供了潜在方向。

多模态视频论文/研究

6月28日

08:00

HuggingFace Daily Papers（社区热门论文）

55

基于通用关键帧提取连接视频问答与视频引导智能体任务

论文提出VG-GUIBench基准，用于评估多模态大语言模型（MLLM）的GUI智能体能否跟随视频教程完成交互任务。现有VideoQA基准侧重浅层视觉线索，而VG-GUIBench考察模型从视频中学习深层知识并泛化到长时智能体任务。同时提出TASKER关键帧提取算法，联合考虑任务相关性与场景动态筛选信息帧。实验显示，TASKER在EgoSchema全集上超出最优基线2.0%，在NExT-QA数据集上超出1.8%，展示了通用关键帧提取方法在视频理解任务中的潜力。代码与数据已公开。

智能体多模态视频论文/研究

6月26日

08:00

HuggingFace Daily Papers（社区热门论文）

53

Video-MME-Logical：视频时间逻辑推理的受控诊断基准

Video-MME-Logical围绕五种时间逻辑操作（状态跟踪、顺序计数、时序排序、动态空间性、结构组合）构建，包含25个细粒度任务类别，通过控制对象状态、转换和逻辑组合来分离评估多模态大语言模型（MLLM）的视频时间逻辑推理能力。实验表明，当前SOTA MLLM与人类之间存在显著差距，且随时间逻辑复杂度增加而扩大。即使对多达500K生成样本进行监督微调，仍无法弥合这一推理鸿沟。该基准为分析和改进MLLM的时间逻辑推理提供了可扩展的测试平台。

arXiv 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

47

PhysisForcing：面向机器人操作的物理增强世界模拟器

视频生成模型常生成物理不合理的操作。PhysisForcing 通过联合优化像素级和语义级特征，重点监督物理信息区域来强化物理一致性，包括像素级轨迹对齐损失和语义级关系对齐损失。在 R-Bench、PAI-Bench 和 EZS-Bench 上，PhysisForcing 一致提升基线模型：Wan2.2-I2V-A14B 和 Cosmos3-Nano 在 R-Bench 分别提升 22.3% 和 9.2%（优于普通微调的 7.1% 和 3.7%），Cosmos3-Nano 变体取得最佳总分。作为 WorldArena 世界模型，闭环成功率从 16.0% 提升至 24.0%，并改善下游策略。

具身智能视频论文/研究

02:41

Runway：News（网页）

精选65

Runway发布Agent 2.0

Runway发布Agent 2.0，帮助营销人员创建、测试和优化广告、视频及营销活动。品牌营销人员可在对话中开发活动概念、生成变体并自动本地化；绩效营销人员可上传创意并导入Meta、YouTube、TikTok或Google广告数据，由Agent分析后生成下一轮待测广告。社交媒体营销人员可一次性生成一周内容，自动裁切为9:16、16:9、1:1等格式；产品营销人员可借助Agent确定定位角度并构建活动资产。Agent 2.0面向所有用户开放。

智能体产品更新视频

推荐理由：Runway的Agent 2.0不只是生成视频，它试图打通从广告数据分析到全平台素材生成的闭环，做增长和社交内容的团队可以观望一下。

6月25日

22:58

IT之家（RSS）

56

Adobe 宣布收购 Topaz Labs 强化 AI 视频与图像布局，交易预计 2026 年下半年完成

Adobe 宣布与 AI 图像及视频增强工具开发商 Topaz Labs 达成最终收购协议，交易预计 2026 年下半年完成，尚需监管批准。Topaz Labs 拥有超二十年技术积累，2025 年获艾美奖，旗下有 AI 视频放大模型 Astra、图像润饰模型 Wonder 及让大型 AI 模型在消费级 GPU 本地运行的 Neurostream。收购后其 AI 模型将整合至 Adobe Firefly 及 Photoshop、Lightroom、Premiere 等 Creative Cloud 产品，现有产品仍独立运营。CEO Eric Yang 将继续领导团队。

图像生成行业动态视频

21:58

IT之家（RSS）

58

广电总局发布 AI 微短剧分类分层标准，7 月 1 日起施行

国家广电总局网络视听司6月25日发布AI微短剧分类分层标准，自2026年7月1日起施行。按投资额度和题材分为三层：投资80万元及以上或涉及政治、军事等特殊题材的，按“重点微短剧”管理；投资30万元（含）至80万元且一般题材的，按“普通微短剧”管理；不足30万元且一般题材的，按“其他微短剧”管理。旨在应对AI降低制作成本，推动行业健康发展。

政策/监管视频

21:37

TechCrunch：AI（RSS）

64

Adobe 收购图像与视频增强工具开发商 Topaz Labs

Adobe 本周四宣布收购图像与视频增强工具开发商 Topaz Labs。该公司成立已超过20年，去年凭其制作技术获艾美奖，近年推出 AI 视频升频模型 Astra 和图像修饰增强模型 Wonder，并开发了让大型视频模型在消费级 GPU 上运行的技术。Adobe 计划将 Topaz 的模型集成到 Firefly AI 应用及旗下编辑套件中，同时保留独立服务。交易预计2026年下半年完成。

图像生成行业动态视频

19:30

公众号：百度智能云（文心）

48

百度智能云联合五家伙伴，加速AIGC内容工业化生产

百度智能云携手酱油文化、VAST、炫佳科技、魔方元启、LIKEAI，将千帆、百舸等能力落地于AI漫剧、3D内容、短剧创作。酱油文化漫剧制作周期压缩90%，月产能超200部，单月营收达5000万量级，抖音破亿作品中五分之一出自其手。VAST的Tripo大模型基于百度百舸数秒生成生产级3D网格。炫佳科技Kino-AIGC模型通过网信办备案并登顶VBench，累计生成超10万分钟AI视频。魔方元启制作周期缩短50%-80%。LIKEAI实现7-10人班组单周单部短剧交付，代表作《哎呀，我的娘亲是女帝》上线24小时播放量超2亿。

图像生成行业动态视频

19:20

公众号：生数科技（Vidu·视频）

38

生数科技与极豆科技达成战略合作，共建汽车行业AIGC解决方案

6月24日，生数科技与极豆科技签署战略合作协议。双方将整合生数科技多模态大模型（Vidu等）与极豆科技汽车AI解决方案、AI中台及车规级研发能力，围绕座舱内容、车主服务等场景打造汽车行业AIGC解决方案。重点探索个性化欢迎、亲子互动、旅途影像等场景，通过模型接入与场景编排将内容生成从预置供给升级为实时动态生成。同时将AIGC延伸至通勤、补能、车辆服务等环节，探索API、SDK及私有化部署等交付方式。极豆科技已与30余家车企合作，累计量产装车超1400万辆。

图像生成多模态行业动态视频

16:12

HuggingFace Daily Papers（社区热门论文）

43

MVTrack4Gen：多视角点跟踪作为4D视频生成的几何监督

MVTrack4Gen提出运动感知训练框架，将多视角点跟踪作为额外几何与运动监督信号，用于仅依赖相机条件的新视角视频扩散模型。关键发现是特定注意力层编码了跨视角和时序上的几何对应关系，对齐偏差会导致运动不一致。通过将这些特征路由到辅助多视角跟踪头并联合训练点跟踪目标，MVTrack4Gen增强运动感知对应，使模型更好地保持参考视角的运动和跨视角几何一致性。在多个基准上，该方法达到最优几何一致性和有竞争力的相机精度。

多模态视频论文/研究

14:40

公众号：京东JoyAI

55

JoyAI 上线「欢乐足球季」：上传照片一键生成足球主题动态视频

JoyAI APP 上线「欢乐足球季」主题活动，用户上传一张人像照片即可生成沉浸式赛场动态视频，支持近 20 款视频模板（看台抓拍、进球巅峰时刻、足球手势舞等），内置全景推进、特写定格等多类运镜逻辑，人物动作与表情自然拟合，赛场光影与人群动效同步渲染。同时上线近 50 款足球主题 AI 智能体，覆盖战术复盘、趣味评球、互动陪伴等方向。活动上线首周日均互动增长率超 158%。

产品更新图像生成视频

12:12

HuggingFace Daily Papers（社区热门论文）

41

TryOnCrafter：通过可渲染4D试穿代理释放相机轨迹实现真实视频虚拟试穿

TryOnCrafter是首个面向相机可控视频虚拟试穿（CaM-VVT）的统一DiT框架。它引入可渲染4D试穿代理，将高保真2D试穿先验蒸馏为基于3DGS的服装化身，再由SMPL-X序列驱动动画并度量对齐至重建背景点云，实现人体与环境的显式解耦。基于该代理作为几何锚点，Proxy-Anchored Video DiT生成严格遵循指定相机轨迹和物理形变的光照真实视频。该框架还支持人体重定位、子弹时间效果和360度轨道观看等应用。

图像生成视频论文/研究

11:12

HuggingFace Daily Papers（社区热门论文）

精选70

Causal-rCM：自回归视频扩散蒸馏的统一教师强制与自强制开源方案

Causal-rCM将扩散蒸馏框架rCM扩展至自回归视频扩散，提出教师强制(TF)与自强制(SF)互补训练范式，并发布统一开源算法与基础设施。通过自定义掩码FlashAttention-2 JVP内核，首次实现基于教师强制的连续时间一致性模型(sCM/MeanFlow)用于自回归视频扩散，收敛速度比离散时间版本快10倍。蒸馏后的2步因果Wan2.1-1.3B模型在仅1或2步采样下取得VBench-T2V分数84.63，仅使用合成数据即达到帧级和块级流式视频生成SOTA。该方法还应用于Cosmos 3全模态世界基础模型，实现动作条件生成的交互式世界模型。

arXiv 推理视频论文/研究

推荐理由：把自回归视频扩散蒸馏到1-2步采样，VBench冲到84.63，这个配方让实时视频生成和交互世界模型从论文走进了工程落地，做视频产品的该看。

11:12

HuggingFace Daily Papers（社区热门论文）

52

DomainShuttle：面向开放域主题驱动的文本到视频生成

DomainShuttle 提出一种面向开放域主题驱动文本到视频生成（S2V）的方法，支持域内（高保真保留参考主体特征）和跨域（允许主体无关属性随文本提示灵活变化）两种场景。该方法引入 Domain-MoT 模块，通过解耦视频与参考特征并采用域感知 AdaLN 进行主体特定建模；提出 Video-Reference DualRoPE 方案，将参考图像 token 与视频 token 置于独立 RoPE 空间实现主体级空间建模；设计 Cross-Pair Consistent Loss 提取不受无关特征干扰的内在主体特征。实验表明，DomainShuttle 在多种开放域场景中相比现有方法实现显著提升，兼具高主体保真度与生成灵活性。

arXiv 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

47

SAM2Matting：通用图像和视频抠图

SAM2Matting 是一种追踪器到抠图的框架，通过为基础追踪器（如 SAM2、SAM3）添加区域提议桥和专用抠图头，将视频对象分割追踪器扩展为高保真视频抠图系统。它解耦了高层时序理解与底层细粒度细节处理。尽管仅使用图像训练，SAM2Matting 在视频抠图上实现了新 SOTA，支持多种提示类型，保持强时间一致性，并在人物及野外场景中展现出鲁棒的泛化能力。

数据/训练视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

LiveEdit：面向实时扩散的流式视频编辑

流式视频编辑面临背景保持与低延迟两大瓶颈。LiveEdit提出因果逐帧编辑框架，通过三阶段蒸馏将双向基础模型的编辑能力迁移至单向流式编辑器，实现稳定长时编辑。引入面向AR的掩码缓存跨帧复用区域计算，将推理速度提升至12.66 FPS，在流式基线中取得最优视觉质量，适用于交互式与增强现实场景。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

48

LISA：基于似然分数对齐的视觉条件可控生成正则化方法

LISA是一种针对视觉条件可控生成的训练正则化方法。它将双分支范式（预训练主网络+侧网络）重新解释为基于分数的生成建模：主网络提供无条件先验分数，侧网络隐式贡献似然分数。LISA通过轻量解码器将侧网络指定层中间特征投影到分数隐空间，与构造的近似似然分数目标计算距离作为正则化损失，并与标准扩散损失联合优化。实验表明，LISA能一致加速训练收敛并提升合成质量，使侧网络特征更解耦，且几乎不增加训练成本、零额外推理成本。

arXiv 图像生成视频论文/研究

6月24日

21:58

IT之家（RSS）

47

今年圣诞节前，伦敦警方拟将实时面部识别技术推广至市中心

伦敦警察厅计划扩大实时面部识别（LFR）的使用范围，圣诞节前率先在市中心西区部署固定摄像头，明年再扩展至另外六个地区。系统扫描路过人脸，与通缉嫌疑人观察名单比对。警方称克罗伊登六个月试点期间，摄像头扫描47万张人脸，促成173人被捕，仅1人被错误识别且未实施逮捕。警方已降低算法敏感度，称偏差“几乎已消除”，约80%伦敦居民支持该技术。每次启用前会提前通知，无匹配数据“几乎”立即删除。

政策/监管视频

14:42

IT之家（RSS）

67

国家广播电视总局：使用 AI 技术生成的微短剧应在每集明显位置添加提示标识

国家广播电视总局就《微短剧发展管理办法（征求意见稿）》公开征求意见。征求意见稿提出，微短剧按投资额度、题材分为一类、二类、三类，分类实行备案公示和发行许可制度。使用人工智能技术生成、制作的微短剧，制作机构和播出单位应在每集明显位置添加提示标识。此外，征求意见稿还支持外向型微短剧创作，为境外主创人员参与提供便利，鼓励优秀微短剧境内外同步播出。

政策/监管视频

08:00

HuggingFace Daily Papers（社区热门论文）

48

Physics Question Scene Graph：文本到视频生成物理合理性细粒度评估方法

论文提出 Physics Question Scene Graph (PQSG)，一种层级问题图评估方法，利用 VLM 生成带逻辑依赖的问题图，从对象、动作和物理定律三个维度细粒度检查生成视频。为验证方法，构建了 FinePhyEval 数据集，包含来自 Sora 2、Veo 3 和 Wan 2.1 的生成视频及人工标注。PQSG 的细粒度评分与人类判断相关性优于以往方法，且闭源模型物理真实性排名高于 Wan 2.1。此外，FinePhyEval 标注可用于子任务评估：两个强 VLM 能生成类人问题，但回答准确率仍不及人类。

视频论文/研究评测/基准

07:07

Hacker News 热门（buzzing.cc 中文翻译）

48

Lift4D：协调单视图3D估计与4D重建的真实场景框架

Lift4D是一个测试时优化框架，从单目视频重建动态物体的完整几何、外观和变形，包括相机从未观察到的区域。它通过因果潜在条件化使单视图3D重建模型（图像到3D DiT）生成时间一致的逐帧预测，作为可变形3D高斯泼溅表示的初始化；随后结合遮挡感知优化与视图条件扩散先验，恢复可见表面细节并补全被遮挡及未观测部分。在合成和真实场景中，Lift4D在严重遮挡与非刚性运动下显著优于先前4D重建方法。

图像生成视频论文/研究

00:03

HuggingFace Daily Papers（社区热门论文）

44

Vera：用于内容保留视频编辑的分层扩散模型

Vera 是一种分层扩散模型，专为内容保留视频编辑设计。它生成编辑层及 alpha 遮罩，与源视频合成，从而分离创意编辑与内容保留。架构采用混合 Transformer（MoT），各层独立 DiT 通过联合自注意力交互。训练使用高质量分层数据集，含精确 alpha 遮罩和多样场景。定量基准和人类偏好显示，Vera 在内容保留上优于开源模型，编辑质量有竞争力，仅使用 486K 帧分层训练数据。

视频论文/研究

6月23日

23:00

公众号：昆仑万维（天工）

49

DramaWave张薇：AI拍剧代替的是流程，不是故事 | 上海电视节白玉兰论坛

昆仑万维旗下短剧业务DramaWave内容负责人张薇在6月22日上海电视节白玉兰论坛上分享海外微短剧市场洞察。DramaWave采取付费和免费双轨运营，海外月活用户超亿，年度经常性收入达6亿美金。AI技术极大提升了内容产能——男频玄幻类AI短剧填补了真人拍摄成本高、难度大的空白，平台目前一个月可上线200余部AI剧。张薇指出，AI作为工具代替的是制作环节而非故事内核，99%的观众只关心故事是否好看。合作模式包括成品剧上传、合拍等，平台持续欢迎好剧本。

现象/趋势视频

‹ 上一页

12 3…12