AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「视频」清除
6月4日周四
17:11IT之家(RSS)55周星驰入股苏州互动之星:合作打造 AI 剧集,后者手握《凡人修仙传》等 IP
16:18The Decoder:AI News(RSS)55xAI 更新 Grok Imagine 至 1.5,新增 720p 图像转视频生成
14:28🚨 AI News | TestingCatalog63HeyGen 推出 FRAME.md:将品牌指南转为视频生成规范
14:00歸藏(guizang.ai)71又发现一个 Codex 好用的点! 我发这个视频,抖音说我违规,我实在不知道哪句话违规了。 然后就让 Codex 直接根据我的视频和我的字幕,帮我视频剪一个不违规的版本,牛逼,果然过审了。
12:37Elon Musk43Grok Imagine 1.5 视频榜登顶
12:00DogeDesigner65Grok Imagine Video 1.5 登顶视频排行
10:42HuggingFace Daily Papers(社区热门论文)79精选Echo-Infinity:学习演化记忆实现实时无限视频生成
10:29DogeDesigner39Grok Imagine 1.5 视频质量惊艳
09:36Josh Woodward25Gemini Omni 用真实镜头制造意外转折
09:28xAI:News(网页)75精选xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)
09:06Elon Musk72同事件精选Grok Imagine视频生成上线Vercel同一事件,精选展示《xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)》
09:06Elon Musk73同事件精选Grok Imagine 1.5制作《伊利亚特》预告片同一事件,精选展示《xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)》
08:00HuggingFace Daily Papers(社区热门论文)40RhymeFlow:异步去噪流调度实现训练无关视频生成加速
08:00HuggingFace Daily Papers(社区热门论文)56PhaseLock:两步推理锁定运动先验,避免视觉细化阶段擦除物理一致性
06:59DogeDesigner70Grok Imagine Video 1.5 预览版上线 API
00:09Runway73Runway Aleph 2.0 视频秒变绿幕资产
6月3日周三
22:42HuggingFace Daily Papers(社区热门论文)60ByG:无需配对数据的流匹配图像/视频编辑框架
21:31fofr55修改屏幕显示FaceTime通话
20:16PixVerse55PixVerse CPP 2.0 创作者计划上线
16:39Alibaba Cloud30阿里云Wan 2.7模型登陆AskVenice平台
16:38向阳乔木65xAI前视频多模态负责人Ethan He访谈:视频模型的天花板,其实是语言模型
16:09IT之家(RSS)64消息称字节 Seedance 2.0 模型单月营收已超 10 亿元,且仍在爬升期
15:16PixVerse26PixVerse发起儿童视角创作挑战
15:09IT之家(RSS)61快手旗下可灵AI正进行Pre-IPO轮融资,投前估值180亿美元,计划2027年赴港上市
14:59歸藏(guizang.ai)49看来快手确实要分拆可灵单独上市了了。 其实早就该搞,太晚了现在。
13:39Alibaba Cloud47Picsart视频产品负责人谈Wan模型影响
13:38公众号:火山引擎64精选Vibe Creating:让创作回归「表达」本身
11:45Saining Xie67VSTAT:多模态大模型视频视觉状态跟踪基准测试
10:41HuggingFace Daily Papers(社区热门论文)68视觉状态追踪基准VSTAT:评估多模态大语言模型的视频理解能力
08:00HuggingFace Daily Papers(社区热门论文)55VideoKR:面向知识与推理密集型视频理解
04:06Runway73同事件精选Runway API 推出 Aleph 2.0 视频编辑功能同一事件,精选展示《Aleph 2.0 与 Edit Studio》
01:00ViggleAI27Viggle AI助力创作者实现角色动捕与重定向流程
6月2日周二
23:22Kling AI21可灵AI推出世界杯主题舞蹈视频生成
20:14公众号:可灵AI(快手·视频)55截稿在即|可灵AI NEXTGEN高校AIGC创作大赛评委阵容揭晓
19:56ginobefun55Cursor+Remotion+FFmpeg实现Markdown转视频
17:44Rohan Paul65多数视频模型看起来比它们实际理解的要好
14:40HuggingFace Daily Papers(社区热门论文)68LongLive-RAG:用于长视频生成的通用检索增强框架
11:40HuggingFace Daily Papers(社区热门论文)69VLM作为视频推理教师:通过自适应测试时优化实现
08:00HuggingFace Daily Papers(社区热门论文)48Steady-Forcing:长时序自然视频扩散中空间持久性与运动连续性的平衡
08:00HuggingFace Daily Papers(社区热门论文)52AAD-1:用于单步自回归视频生成的不对称对抗蒸馏框架
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月4日
17:11
IT之家(RSS)
55
周星驰入股苏州互动之星:合作打造 AI 剧集,后者手握《凡人修仙传》等 IP

周星驰旗下比高集团战略入股苏州互动之星,双方围绕 AI 剧集、互动影游、真人影视、IP 全产业链运营展开深度合作。互动之星手握 20 余部顶级 IP 全版权,涵盖《凡人修仙传》《绍宋》《悟空传》等。合作重点发力 AI 剧集核心赛道,联合打造 AI 漫剧、AI 拟真人剧。互动影游《绍宋》定档暑期上线,多部横屏 AI 剧集已在制作中,一批真人中剧、短剧进入前期筹备。

行业动态视频
16:18
The Decoder:AI News(RSS)
55
xAI 更新 Grok Imagine 至 1.5,新增 720p 图像转视频生成

xAI 发布 grok-imagine-video-1.5-preview 图像转视频模型,能将静态图片转换为最高 720p 分辨率的影视级视频,支持文本提示控制,多个片段可拼接为更长的场景。

xAI图像生成模型发布视频
14:28
🚨 AI News | TestingCatalog@testingcatalog
63
HeyGen 宣布了新的 FRAME.md 格式,可将品牌指南文件 DESIGN.md 转换为专为视频和动态设计的规范。原有 DESIGN.md 适用于静态屏幕,但应用到视频时,AI 智能体会误将其解读为网页和幻灯片。FRAME.md 教会智能体如何生成真正的品牌视频。该项目已以开源仓库发布,任何品牌均可使用,通过 FRAME.md 文件来引导视频生成智能体。

HeyGen: Introducing frame.md, a spec built for videos & motion design.md kept your brand consistent across screens but when appl...

智能体产品更新开源生态视频
14:00
歸藏(guizang.ai)@op7418
71
又发现一个 Codex 好用的点! 我发这个视频,抖音说我违规,我实在不知道哪句话违规了。 然后就让 Codex 直接根据我的视频和我的字幕,帮我视频剪一个不违规的版本,牛逼,果然过审了。
OpenAI教程/实践视频
12:37
Elon Musk@elonmusk
43
Grok Imagine Video 1.5 在视频竞技场排行榜上位列第一。 主推文:Grok Imagine 1.5 排名第一。

DogeDesigner: Grok Imagine Video 1.5 is now ranked #1 on the Video Arena Leaderboard. 🥇

xAI多模态行业动态视频
12:00
DogeDesigner@cb_doge
65
Grok Imagine Video 1.5 现在在 Video Arena 排行榜上排名第一。🥇

Elon Musk: Iliad (Troy) trailer made by Grok Imagine 1.5, which was just released

多模态模型发布视频
10:42
HuggingFace Daily Papers(社区热门论文)
精选79
Echo-Infinity:学习演化记忆实现实时无限视频生成

Echo-Infinity 是一个自回归(AR)框架,用于实时无限视频生成。它用可学习的演化记忆替代人工缓存策略,通过注意力机制和门控更新 Memory Query,与视频扩散 Transformer(DiTs)端到端优化,支持任意压缩比且计算量不随视频长度增加。同时引入 Unified Relative RoPE Recipe,锚定 sink 帧从 id 0 开始、最新帧 id 不超过预训练最大时间 RoPE id,解除有限 RoPE 约束并缩小外推差距。在长/短视频生成中达到 SOTA,首次实现 24 小时(超 130 万帧)实时滚动生成。

arXiv视频论文/研究

推荐理由:论文把长视频生成的记忆机制从手动压缩换成了可学习的动态演化,首次做到24小时实时无限生成,这对视频生成走出‘短视频玩具’阶段是个决定性的信号。
10:29
DogeDesigner@cb_doge
39
Grok Imagine 1.5 视频质量确实令人印象深刻。🔥
xAI图像生成大佬观点视频
09:36
Josh Woodward@joshwoodward
25
这些太有趣了! 我们当前最喜欢的 Gemini Omni 趋势:使用真实世界镜头创造意想不到的转折。试试自己做一个!🧵

Google Flow: Our current favorite Gemini Omni trend: creating a surprising twist using real world footage. Try creating your own! 🧵

Google大佬观点视频
09:28
xAI:News(网页)
精选75
xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)

xAI 通过 API 发布了图像转视频模型 grok-imagine-video-1.5-preview(Grok Imagine 1.5 预览版)。该模型能将单张静态图片转为流畅的电影感视频,用户提供起始帧和描述运动的提示词后,模型可生成包含相机移动、氛围和物理效果的动画,并保持对源图像的忠实。支持生成 720p 片段,可使用自然语言指令控制镜头、节奏和音效,并支持逐帧拼接成长场景。模型目前通过 xAI API 提供预览使用。

xAI多模态模型发布视频
关联讨论 4 条X:Elon Musk (@elonmusk, xAI)X:阿易 AI Notes (@AYi_AInotes)X:cb_doge (@cb_doge)xAI:News(网页)
推荐理由:xAI的新视频模型从单张图像生成电影级短片,支持自然语言控制运镜和氛围,对视频创作者和开发者是个值得一试的工具。
09:06
Elon Musk@elonmusk
同事件精选72
Vercel 的 AI Gateway 上现已推出 Grok Imagine Video 1.5。该服务支持图生视频并同步音频,一次性完成。示例代码: `await generateVideo({ model: 'xai/grok-imagine-video-1.5-preview', prompt: 'a rabbit sprinting through nyc' });`

Vercel Developers: Grok Imagine Video 1.5 on AI Gateway. Image-to-video generation with synced audio in one pass. await generateVideo({ mod...

xAI图像生成模型发布视频
同一事件,精选展示《xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)》
推荐理由:Grok Imagine Video 1.5 把同步音频塞进了图生视频,一条 prompt 直接出带声短片,做短视频和创意的可以换上这条流水线了。
09:06
Elon Musk@elonmusk
同事件精选73
伊利亚特(特洛伊)预告片由刚刚发布的 Grok Imagine 1.5 制作
xAI多模态模型发布视频
同一事件,精选展示《xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)》
推荐理由:Elon 亲自演示 Grok Imagine 1.5,生成的《伊利亚特》预告片质感让我觉得视频生成赛道又要卷一轮,做短片的可以盯一下。
08:00
HuggingFace Daily Papers(社区热门论文)
40
RhymeFlow:异步去噪流调度实现训练无关视频生成加速

基于扩散Transformer(DiT)的视频生成模型因3D注意力平方复杂度导致高推理延迟。现有加速方法在每个去噪步骤内减少计算,但仍要求所有帧经历完整稠密去噪。RhymeFlow提出训练无关框架,解耦不同帧的去噪轨迹:仅对稀疏关键帧执行逐步骤稠密去噪以保持结构完整性,非关键帧逐步跳过步骤降低计算;同时引入潜在轨迹投影模块,使关键帧与完整时序一致的序列表示交互,避免视觉退化。在现有DiT视频生成模型上,RhymeFlow实现了更高推理速度和更好视觉质量。

视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
PhaseLock:两步推理锁定运动先验,避免视觉细化阶段擦除物理一致性

图像到视频扩散模型常生成违反物理定律的运动。研究发现,同一模型的两步生成比50步生成物理一致性更好。频谱分析表明,去噪过程中相位退化约18%,幅度保持稳定。基于此,提出无需训练的PhaseLock框架,从仅两步推理提取运动先验,通过Latent Delta Guidance施加到高保真生成。PhaseLock有效缓解相位退化,在多种模型上平均提升物理一致性6.2点,同时保持视觉保真度,额外开销仅1.06倍时间和1.02倍内存,并减少对外部昂贵引导方法的依赖(约5倍时间)。

多模态视频论文/研究
06:59
DogeDesigner@cb_doge
70
SpaceXAI 不断刷新标准。🔥 Grok Imagine Video 1.5 预览版现已上线 API,效果看起来极为电影感。📽️ 去亲自试试吧。💻 祝 SpaceXAI 好运。🚀
多模态模型发布视频
00:09
Runway@runwayml
73
使用 Aleph 2.0 将任何视频转换为绿幕资产或干净底板,无需旋转描摹。通过今天的 Runway Academy 学习操作方法。
产品更新教程/实践视频
关联讨论 2 条X:Runway (@runwayml)Runway:News(网页)
6月3日
22:42
HuggingFace Daily Papers(社区热门论文)
60
ByG:无需配对数据的流匹配图像/视频编辑框架

提出 Bootstrap Your Generator (ByG) 框架,用于非配对训练流匹配图像/视频编辑模型。方法从冻结的基础模型中提取指令遵循线索,结合循环一致性保持结构;通过梯度路由将下游损失反向传播到噪声训练状态,弥合训练-推理差距。在数据稀缺的图像和视频编辑任务上达到 SOTA,泛化到未见领域,性能优于用百万级配对样本训练的监督基线。实验表明,从基础模型提取的语义线索提供了稳健的训练信号,无需外部奖励模型。

arXiv图像生成视频论文/研究
21:31
fofr@fofrAI
55
更改屏幕,使其显示她在FaceTime通话中。
图像生成教程/实践视频
20:16
PixVerse@PixVerse_
55
PixVerse CPP 2.0 已上线。 全球创作者计划,含会员、积分,以及每周 2500 美元现金奖池。 AI 视频发展迅速--我们正在奖励引领者。 关注 + 回复 + 转发,私信获取快速访问。
产品更新视频
16:39
Alibaba Cloud@alibaba_cloud
30
Wan 2.7现已在@AskVenice上线!您的积分在每次生成中能发挥更大价值。

Venice: Your credits go further on every generation. Same model, same quality, more videos. Wan 2.7 is a powerful, next-generati...

行业动态视频
16:38
向阳乔木@vista8
65
xAI前视频多模态负责人Ethan He访谈:视频模型的天花板,其实是语言模型

xAI前视频多模态负责人Ethan He在离职转向语言模型研究时表示,视频模型最大的瓶颈是语言模型。他曾在NVIDIA参与Cosmos模型开发,并在加入xAI后三个月内从零搭建出Grok Imagine 0.9。他指出训练视频模型成本高昂,例如存储10亿个视频需5PB,仅AWS月费就达数百万人民币。视频模型需先预训练图像模型,再通过VLM生成合成字幕以解决数据对齐问题。当前模型在生成长视频时上下文容易爆炸,而他认为扩散模型对文本的理解过于字面化,对语言意图的深层理解才是突破关键。

xAI多模态大佬观点视频
16:09
IT之家(RSS)
64
消息称字节 Seedance 2.0 模型单月营收已超 10 亿元,且仍在爬升期

据报道,字节跳动旗下视频创作模型 Seedance 2.0 的单月 API 收入已超过10亿元,且仍处于增长期。这一成绩是在其海外 API 尚未正式全量上线的情况下实现的。该模型在多项指标上超越了海外顶尖视频模型 Veo 3 与 Sora 2。此外,即将发布的 Seedance 2.1 版本生成质量预计将比 2.0 提升20%。受此推动,字节火山引擎的 MaaS 业务 2026 年营收目标已上调至150亿元,是其 2025 年全年约15亿元收入的10倍。

行业动态视频
15:16
PixVerse@PixVerse_
26
🥰 【引用 @pinkshihtzu】:当导火索到达雪山山顶时… 像孩子一样看世界。用PixVerse创作它🎈✨ @PixVerse_ #PixVerseChallenge #pixverse

pink shih tzu ponta: 雪山の山頂に導火線が到着すると・・・ See the world like a child. Create it with PixVerse🎈✨ @PixVerse_ #PixVerseChallenge #pixverse

其他视频
15:09
IT之家(RSS)
61
快手旗下可灵AI正进行Pre-IPO轮融资,投前估值180亿美元,计划2027年赴港上市

快手旗下视频生成模型可灵AI正在进行分拆后的首轮融资,投前估值为180亿美元(约合1220.14亿元人民币)。此轮为Pre-IPO轮融资,内部计划于2027年年初递交港股上市申报材料。财报显示,可灵AI单季收入超6.5亿元,同比增长超300%,2026年3月年化收入运行率(ARR)近5亿美元。其投前估值约相当于快手当前市值的66%。

行业动态视频
14:59
歸藏(guizang.ai)@op7418
49
看来快手确实要分拆可灵单独上市了了。 其实早就该搞,太晚了现在。
行业动态视频
13:39
Alibaba Cloud@alibaba_cloud
47
Narek Hayrapetyan,Picsart视频产品负责人 推出HappyHorse和Wan模型后,视频生成量激增72%,用户每月创建超过100万个资产,并使用超过600万Picsart积分。
图像生成行业动态视频
13:38
公众号:火山引擎
精选64
Vibe Creating:让创作回归「表达」本身

火山引擎 Seedance 2.0 提出 AI 视频创作新范式 Vibe Creating,核心是让创作者放下技术负担,用故事表达代替复杂 Prompt 参数。该范式强调用富有画面感的语言描述场景、情绪和叙事,模型自行理解意图并完成景别、光影、节奏的诠释,避免过度规定镜头调度。适用于文学作品可视化、影视预演等场景,并配套发布《Vibe Creating 实践手册》及可执行的 Prompt Skill,从创意到高质量提示词一步到位。

教程/实践视频

推荐理由:火山引擎把 Seedance 2.0 的用法提炼成「Vibe Creating」方法论,核心是教人用故事感代替镜头术语,虽然不涉及模型升级,但附带可直接套用的手册和 Skill,做 AI 短视频的可以当成 Prompt 指南。
11:45
Saining Xie@sainingxie
67
研究团队推出VSTAT基准测试,用于评估多模态大语言模型(MLLMs)在视频中追踪动态状态的能力。测试任务看似简单,包括计数杯子、识别键入的文字、统计翻页次数等,人类可以轻松完成,但当前MLLMs表现欠佳。该测试旨在推动视觉状态跟踪这一前沿方向的发展,解决模型从不完整、有噪声的视觉观察中建立和更新内部世界状态的核心挑战。

Sihyun Yu: Can MLLMs actually track what's happening in a video? Introducing VSTAT 🎯, our new benchmark for visual state tracking....

多模态视频评测/基准
10:41
HuggingFace Daily Papers(社区热门论文)
68
视觉状态追踪基准VSTAT:评估多模态大语言模型的视频理解能力

研究者提出了视觉状态追踪基准VSTAT,用于诊断多模态大语言模型在视频理解中持续追踪实体与状态的能力。该基准包含834个来自合成与真实视频的片段,并配有1500个必须通过连续感知才能回答的问题。测试发现,现有顶尖多模态大语言模型在VSTAT上的表现远低于人类,仅略高于随机答案基线。分析表明,模型的文本推理能力尚可,但视觉感知所必需的事件追踪能力存在不足。初步评估也显示,包括智能体在内的现有方法也未能有效解决这一问题。

多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
VideoKR:面向知识与推理密集型视频理解

VideoKR是首个专为强化知识与推理密集型视频理解设计的大规模训练语料,包含315K个视频推理示例,覆盖145K个新收集的CC许可专家领域视频。研究开发了一种人机协同、面向技能的示例生成管道,并构建了专家标注基准VideoKR-Eval。实验表明,在标准SFT→GRPO流水线下,基于VideoKR后训练的模型在知识密集型视频推理上超越先前方法,同时在通用视频推理上保持竞争力。消融实验进一步证实了数据设计的驱动作用。

多模态数据/训练视频论文/研究
04:06
Runway@runwayml
同事件精选73
Aleph 2.0 现已通过 Runway API 提供。将精准视频编辑直接集成到您的应用、产品和平台中。支持在多镜头序列中编辑最长 30 秒、1080p 分辨率的视频,仅修改您想要的部分。 请通过以下链接开始使用。
产品更新视频
同一事件,精选展示《Aleph 2.0 与 Edit Studio》
推荐理由:Runway把Aleph 2.0的视频编辑能力放到了API里,做视频工具的同学可以直接拿来用了,1080p 30秒还支持多镜头,以前要写一堆处理逻辑的功能现在一个API调用搞定。
01:00
ViggleAI@ViggleAI
27
从角色创建到动捕和重定向,看到创作者们用@Viggle_PINOC将想法转化为可玩体验,真是太棒了。期待接下来的发展!

独立开发者William: 🤓rig+mocap+retarget整个流程走通了。 下一步是完善游戏的controller,做state machine 然后明天开始演戏当动捕演员了🤓 准备给我的游戏设计几个酷炫的技能 想想就好激动。

教程/实践视频
6月2日
23:22
Kling AI@Kling_ai
21
你最喜欢的世界杯球队是哪支?为他们生成一段助威舞蹈视频吧!🎉
产品更新图像生成视频
20:14
公众号:可灵AI(快手·视频)
55
截稿在即|可灵AI NEXTGEN高校AIGC创作大赛评委阵容揭晓

可灵AI NEXTGEN高校AIGC创作大赛评审委员会正式官宣,评委包括清华大学双聘教授沈阳、浙江传媒学院教授陈奕、中国美术学院教授杜海滨、中国传媒大学主任丛芳君,以及可灵AI超级创作者汗青、陈升亮。作品征集时间为3月16日至6月7日,获奖名单将于6月18日公示。目前征稿进入最后5天冲刺阶段,优秀获奖作品有机会在首尔电影中心及釜山国际电影节期间展映。

行业动态视频
19:56
ginobefun@hongming731
55
从 Markdown 文稿到视频:Cursor + Remotion + FFmpeg

Kent C. Dodds 🏹: In case you missed it, I published a video last week that was 100% edited by @cursor_ai + @Remotion + @FFmpeg turning th...

教程/实践编码视频
17:44
Rohan Paul@rohanpaul_ai
65
多数视频模型看起来比它们实际理解的要好

美团LongCat发布视频世界模型评测基准WBench。该基准将测试重点从画面美观转向控制、多轮记忆、指令遵循和物理合理性等核心能力。它包含289个案例、1058个交互轮次,评估了20个模型在导航、主体动作、事件编辑等5个维度的表现,共使用22项自动指标。研究发现,没有任何模型能在所有维度上占据主导,这表明现有系统尚未将高质量渲染、可靠控制、长期记忆与物理规则遵循整合为稳定能力。WBench的设计能区分失败是源于渲染、场景设置、控制还是物理问题,并指出导航能力与视觉质量基本无关。

多模态视频评测/基准
14:40
HuggingFace Daily Papers(社区热门论文)
68
LongLive-RAG:用于长视频生成的通用检索增强框架

LongLive-RAG旨在解决自回归(AR)视频扩散模型在长视频生成中面临的错误累积与身份漂移问题。该方法将长视频生成建模为检索增强生成(RAG)问题,不再仅依赖滑动窗口,而是把之前生成的潜在变量视为可检索的动态历史记录。在每个新生成块中,它通过查询嵌入检索相关历史潜在变量,使生成器能够利用非局部上下文。为提升检索效果,框架引入了Window Temporal Delta Loss。实验表明,该框架能提升长视频生成质量,在多个AR骨干和生成长度上于VBench-Long基准取得了最佳平均排名。代码已开源。

多模态视频论文/研究
11:40
HuggingFace Daily Papers(社区热门论文)
69
VLM作为视频推理教师:通过自适应测试时优化实现

本研究提出一种新范式,将视觉语言模型的角色从问题“求解者”转变为指导视频生成模型的“教师”。现有VLM作为求解器效果不佳,但其感知能力强,可评估任务规则满足度。新方法利用VLM提取任务规则,构建可微分奖励,并通过测试时在线优化轻量级LoRA模块,引导视频生成模型推理。在VBVR-Bench和RULER-Bench两个视频推理基准上,该方法平均性能提升16.7分,显著优于其他基线方法。

多模态推理视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
Steady-Forcing:长时序自然视频扩散中空间持久性与运动连续性的平衡

Steady-Forcing 提出记忆与训练框架,结合持久视觉锚点(V-Sink)、指数移动平均运动记忆(EMA-Sink)、块相对时序编码、周期性缓存净化以及经运动奖励先验的 Wan2.1-14B 教师模型知识蒸馏,在多分钟自回归生成中保持背景身份并维持视觉合理的流体动力学。七个基线评估显示该方法提升了长时序背景一致性和成像质量,盲测表明用户感知的稳定性和运动连续性更强。研究还发现 VBench 综合评分未有效惩罚固定相机伪影,而是将漂移引起的光流奖励为动态程度,却未直接惩罚纹理硬化或流动停滞。

arXiv视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
52
AAD-1:用于单步自回归视频生成的不对称对抗蒸馏框架

AAD-1提出一种不对称对抗蒸馏框架,用于单步自回归图像到视频生成。现有对抗蒸馏方法存在运动崩溃和训练不稳定问题,导致生成静态视频。AAD-1在架构上打破生成器与判别器的对称性:生成器保持因果性以保留自回归采样能力,判别器则双向关注完整时空上下文,为整个视频序列输出一个整体真实性分数,从而有效检测全局时间失败和长程漂移。训练采用分阶段策略,先用分布匹配预热使单步生成器接近教师分布,再开始对抗蒸馏。在VBench上,AAD-1取得单步自回归视频生成的最先进性能。

arXiv图像生成视频论文/研究
‹ 上一页
1…910111213…28
下一页 ›