AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「视频」清除
6月27日周六
22:19歸藏(guizang.ai)43Seedance 2.0 4K 文字清晰度惊艳,重制宣传片材质质感飙升
17:29小互64Wan Streamer v0.1:首个端到端Transformer实时音视频对话模型
17:16AYi57免费替代剪映SVIP,6个2026年顶级AI视频Skills
15:19歸藏(guizang.ai)38Seedance 2.0 重制 Codepilot 宣传片
10:28小互38AI实时换脸:拖入照片即换直播摄像头人物
03:52Runway49Runway 2026 AI电影节获奖名单公布
03:19PixVerse69PixVerse Seedance 2.0 简化电影级VFX制作
6月26日周五
23:13Kling AI9可灵AI:你的可爱来了
18:57Alibaba Cloud34阿里云HappyHorse 1.1成Creative Fabrica Studio默认视频模型
16:20Berryxia.AI60AI实时世界杯解说员项目开源
13:56Alibaba Cloud44HappyHorse 1.1 将提示词转为精美视频
13:26Alibaba Cloud46阿里云 HappyHorse 1.1 发布:智能视频创作
10:26Alibaba Cloud50阿里云Model Studio上线HappyHorse 1.1
09:16PixVerse65Seedance 2.0 在 PixVerse 支持原生 4K
08:00HuggingFace Daily Papers(社区热门论文)53Video-MME-Logical:视频时间逻辑推理的受控诊断基准
08:00HuggingFace Daily Papers(社区热门论文)47PhysisForcing:面向机器人操作的物理增强世界模拟器
05:53DogeDesigner40Grok Imagine登顶Vercel AI视频模型榜首
02:41Runway:News(网页)65精选Runway发布Agent 2.0
02:19Artificial Analysis57Artificial Analysis 发布 AI 视频编辑排行榜,HappyHorse-1.0 夺冠
00:54AK36Wan-Streamer v0.1 实时交互基础模型
6月25日周四
22:58IT之家(RSS)56Adobe 宣布收购 Topaz Labs 强化 AI 视频与图像布局,交易预计 2026 年下半年完成
21:58IT之家(RSS)58广电总局发布 AI 微短剧分类分层标准,7 月 1 日起施行
21:37TechCrunch:AI(RSS)64Adobe 收购图像与视频增强工具开发商 Topaz Labs
20:18Berryxia.AI39Grok 视频制作便捷,对比 Google Omni 版权问题
19:30公众号:百度智能云(文心)48百度智能云联合五家伙伴,加速AIGC内容工业化生产
19:20公众号:生数科技(Vidu·视频)38生数科技与极豆科技达成战略合作,共建汽车行业AIGC解决方案
18:45PixVerse25PixVerse 追车片段节奏出色获赞
16:12HuggingFace Daily Papers(社区热门论文)43MVTrack4Gen:多视角点跟踪作为4D视频生成的几何监督
15:45PixVerse30PixVerse推直播互动:观众选角秒换形象
15:35Chubby♨️29Dreamina Octo的Vibe Create工作流制短片
14:54Alibaba Cloud65HappyHorse 1.1 在 ComfyUI 以 Partner Node 上线
14:54Alibaba Cloud50Happy Horse 1.1 迎来 Fal 加入生态系统
14:54Alibaba Cloud67Replicate 上线阿里 HappyHorse 1.1
14:40公众号:京东JoyAI55JoyAI 上线「欢乐足球季」:上传照片一键生成足球主题动态视频
12:12HuggingFace Daily Papers(社区热门论文)41TryOnCrafter:通过可渲染4D试穿代理释放相机轨迹实现真实视频虚拟试穿
11:12HuggingFace Daily Papers(社区热门论文)70精选Causal-rCM:自回归视频扩散蒸馏的统一教师强制与自强制开源方案
11:12HuggingFace Daily Papers(社区热门论文)52DomainShuttle:面向开放域主题驱动的文本到视频生成
08:00HuggingFace Daily Papers(社区热门论文)47SAM2Matting:通用图像和视频抠图
08:00HuggingFace Daily Papers(社区热门论文)51LiveEdit:面向实时扩散的流式视频编辑
08:00HuggingFace Daily Papers(社区热门论文)48LISA:基于似然分数对齐的视觉条件可控生成正则化方法
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月27日
22:19
歸藏(guizang.ai)@op7418
43
Seedance 2.0 4K 文字清晰度惊艳,重制宣传片材质质感飙升

用户用 Seedance 2.0 以原生 4K 分辨率重新生成 Codepilot 宣传片,文字清晰度极高,材质质感远超 1080P 超分效果。Seedance 2.0 在文字渲染和视觉细节上实现显著提升。

歸藏(guizang.ai): 用 Seedance 2.0 重新做了一下 Codepilot 的宣传片

视频评测/基准
17:29
小互@xiaohu
64
Wan Streamer v0.1:首个端到端Transformer实时音视频对话模型

阿里通义实验室Wan团队发布Wan Streamer v0.1,首个端到端Transformer实现实时音视频对话。模型侧响应延迟约200ms,总延迟约550ms,25fps下流式处理单元160ms,分辨率192p。同步生成语音与面部视频,支持全双工打断,取消外部ASR/TTS/动画模块,通过thinker-performer部署压至200ms。官方称唯一单模型同步音视频且延迟<1秒的方案。目前为技术验证,未开放使用。

arXiv多模态模型发布视频
17:16
AYi@AYi_AInotes
57
免费替代剪映SVIP,6个2026年顶级AI视频Skills

推文指出,现在用AI做视频已变得极为简单,无需支付700多元的剪映SVIP。只需安装6个2026年最顶级的插件和Skills,提供安装链接,可直接交给AI Agent(如Claude Code、Cursor、Hermes、OpenClaw等)自动安装。具体链接和使用建议可在评论区自取。

AYi: http://x.com/i/article/2069352641423896576

智能体教程/实践视频
15:19
歸藏(guizang.ai)@op7418
38
用 Seedance 2.0 重新做了一下 Codepilot 的宣传片
教程/实践视频
10:28
小互@xiaohu
38
开发者 @miyumiyuna5 制作了一款实时换脸AI工具,支持直接拖拽任意人物照片到界面,瞬间将直播摄像头中的人物替换为目标形象。该工具无需重新加载模型即可流畅运行,实现低延迟的实时换脸效果,甚至能让大叔秒变美少女。

みゅみゅ: Webcamのリアルタイムの映像を画像をドラック&ドロップでその人になれるものを作ってみた。 モデルを読み直さなくても、さくさく動くように改変 おっさんが美少女になる日も近い

产品更新图像生成视频
03:52
Runway@runwayml
49
恭喜 Runway 2026 AI 电影节的获奖者。请通过下方链接查看所有影片、"最佳"奖项得主以及 Ron Howard、Roger Avary、Gala Avary、Joel Kuwahara 和 Girish Balakrishnan 参与的专题讨论。
行业动态视频
03:19
PixVerse@PixVerse_
69
从绿幕和单个盒子到完整的电影级场景。 Seedance 2.0 保留原始运动和构图,同时无缝生成场景其余部分。 电影级视觉特效,如今大大简化。
产品更新图像生成视频
6月26日
23:13
Kling AI@Kling_ai
9
你的可爱来了!🐾
其他视频
18:57
Alibaba Cloud@alibaba_cloud
34
阿里云HappyHorse 1.1成Creative Fabrica Studio默认视频模型

阿里云宣布HappyHorse 1.1即日起成为Creative Fabrica Studio的默认AI视频生成模型。为纪念此次升级,平台提供为期一周的视频生成50%折扣,适用于设计师、营销人员和内容创作者。附试用链接及模型详情页。

行业动态视频
16:20
Berryxia.AI@berryxia
60
AI实时世界杯解说员项目开源

开发者@zicohacks利用AI构建了一个实时世界杯解说员。系统像观众一样观看直播,采样最新帧,让GPT-5.4-mini理解比赛内容并生成解说词,再通过ElevenLabs以体育解说员语气播报。整个过程端到端实时调用,已能较自然跟上比赛节奏,支持英语和法语切换。项目已开源,目前主要挑战是延迟和解说精准度,但方向明确——AI正从辅助内容变为实时内容生产者。

Zico: i tried building an AI commentator for the World Cup it watches the live stream as the viewers, samples the newest frame...

多模态开源/仓库视频
13:56
Alibaba Cloud@alibaba_cloud
44
从动漫风格的世界到电影级动作场景,HappyHorse 1.1 将详细的提示词转化为视觉效果惊艳的视频。 精准创建风格化的环境、动态的镜头运动、沉浸式的光照和流畅的动作,将你想象中的每一帧变为现实。 限时发布享 40% 折扣 API 限时发布特惠:https://int.alibabacloud.com/m/1000414698/ #HappyHorse #阿里云 #ModelStudio #生成式AI
模型发布视频
13:26
Alibaba Cloud@alibaba_cloud
46
别再拍摄了。用 #HappyHorse 1.1 开始创作吧。 通过智能叙事、富有表现力的动作、精细的细节和沉浸式音频体验,制作引人注目的品牌和商业视频。 为追求速度又不愿牺牲质量的创作者而打造。 发布优惠:节省 40% https://int.alibabacloud.com/m/1000414698/ #HappyHorse #AlibabaCloud #ModelStudio #GenerativeAI
产品更新多模态视频
10:26
Alibaba Cloud@alibaba_cloud
50
HappyHorse 1.1 正在推动下一波AI视频创作。 从 @ComfyUI、@runware 到 @fal、@replicate 和 @Picsart,领先平台已在使用它构建应用。 现已在阿里云Model Studio上可用。 立即开始创作:https://int.alibabacloud.com/m/1000412436/ #HappyHorse #阿里云 #ModelStudio #AI视频 #生成式AI
多模态模型发布视频
09:16
PixVerse@PixVerse_
65
Seedance 2.0 现已在 PixVerse 上支持原生 4K 难点不在于分辨率,而在于快速运动中保持细节清晰。 看看巨龙掠过海面时,鳞片和水花是如何保持清晰的。
产品更新多模态视频
08:00
HuggingFace Daily Papers(社区热门论文)
53
Video-MME-Logical:视频时间逻辑推理的受控诊断基准

Video-MME-Logical围绕五种时间逻辑操作(状态跟踪、顺序计数、时序排序、动态空间性、结构组合)构建,包含25个细粒度任务类别,通过控制对象状态、转换和逻辑组合来分离评估多模态大语言模型(MLLM)的视频时间逻辑推理能力。实验表明,当前SOTA MLLM与人类之间存在显著差距,且随时间逻辑复杂度增加而扩大。即使对多达500K生成样本进行监督微调,仍无法弥合这一推理鸿沟。该基准为分析和改进MLLM的时间逻辑推理提供了可扩展的测试平台。

arXiv多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
PhysisForcing:面向机器人操作的物理增强世界模拟器

视频生成模型常生成物理不合理的操作。PhysisForcing 通过联合优化像素级和语义级特征,重点监督物理信息区域来强化物理一致性,包括像素级轨迹对齐损失和语义级关系对齐损失。在 R-Bench、PAI-Bench 和 EZS-Bench 上,PhysisForcing 一致提升基线模型:Wan2.2-I2V-A14B 和 Cosmos3-Nano 在 R-Bench 分别提升 22.3% 和 9.2%(优于普通微调的 7.1% 和 3.7%),Cosmos3-Nano 变体取得最佳总分。作为 WorldArena 世界模型,闭环成功率从 16.0% 提升至 24.0%,并改善下游策略。

具身智能视频论文/研究
05:53
DogeDesigner@cb_doge
40
重磅:Grok Imagine 现已成为 Vercel AI Gateway 上排名第一的 AI 视频模型。 • 约 51% 的视频生成来自 Grok。 • 份额超过其他所有顶级视频模型的总和。 • Grok Imagine Video 1.5 Preview 也位列前五。 Grok 正在绝对主导 AI 视频领域。
xAI行业动态视频
02:41
Runway:News(网页)
精选65
Runway发布Agent 2.0

Runway发布Agent 2.0,帮助营销人员创建、测试和优化广告、视频及营销活动。品牌营销人员可在对话中开发活动概念、生成变体并自动本地化;绩效营销人员可上传创意并导入Meta、YouTube、TikTok或Google广告数据,由Agent分析后生成下一轮待测广告。社交媒体营销人员可一次性生成一周内容,自动裁切为9:16、16:9、1:1等格式;产品营销人员可借助Agent确定定位角度并构建活动资产。Agent 2.0面向所有用户开放。

智能体产品更新视频

推荐理由:Runway的Agent 2.0不只是生成视频,它试图打通从广告数据分析到全平台素材生成的闭环,做增长和社交内容的团队可以观望一下。
02:19
Artificial Analysis@ArtificialAnlys
57
Artificial Analysis 发布 AI 视频编辑排行榜,HappyHorse-1.0 夺冠

Artificial Analysis 发布最新 AI 视频编辑排行榜,HappyHorse-1.0 综合实力第一,Seedance 2.0 第二,Wan 2.7 第三。榜单基于约 8 万次人工盲评,从视觉效果编辑、物理与世界模拟、声音与语音编辑、对象编辑、复杂编辑五个能力维度评分。HappyHorse-1.0 是唯一在所有五个能力中均进入前三的模型,并在其中四个能力排名第一或并列第一。Kling 3.0 总排名第五,但在视觉效果编辑上排名第一。

多模态视频评测/基准
00:54
AK@_akhaliq
36
Wan-Streamer v0.1 端到端实时交互式基础模型
模型发布视频
6月25日
22:58
IT之家(RSS)
56
Adobe 宣布收购 Topaz Labs 强化 AI 视频与图像布局,交易预计 2026 年下半年完成

Adobe 宣布与 AI 图像及视频增强工具开发商 Topaz Labs 达成最终收购协议,交易预计 2026 年下半年完成,尚需监管批准。Topaz Labs 拥有超二十年技术积累,2025 年获艾美奖,旗下有 AI 视频放大模型 Astra、图像润饰模型 Wonder 及让大型 AI 模型在消费级 GPU 本地运行的 Neurostream。收购后其 AI 模型将整合至 Adobe Firefly 及 Photoshop、Lightroom、Premiere 等 Creative Cloud 产品,现有产品仍独立运营。CEO Eric Yang 将继续领导团队。

图像生成行业动态视频
21:58
IT之家(RSS)
58
广电总局发布 AI 微短剧分类分层标准,7 月 1 日起施行

国家广电总局网络视听司6月25日发布AI微短剧分类分层标准,自2026年7月1日起施行。按投资额度和题材分为三层:投资80万元及以上或涉及政治、军事等特殊题材的,按“重点微短剧”管理;投资30万元(含)至80万元且一般题材的,按“普通微短剧”管理;不足30万元且一般题材的,按“其他微短剧”管理。旨在应对AI降低制作成本,推动行业健康发展。

政策/监管视频
21:37
TechCrunch:AI(RSS)
64
Adobe 收购图像与视频增强工具开发商 Topaz Labs

Adobe 本周四宣布收购图像与视频增强工具开发商 Topaz Labs。该公司成立已超过20年,去年凭其制作技术获艾美奖,近年推出 AI 视频升频模型 Astra 和图像修饰增强模型 Wonder,并开发了让大型视频模型在消费级 GPU 上运行的技术。Adobe 计划将 Topaz 的模型集成到 Firefly AI 应用及旗下编辑套件中,同时保留独立服务。交易预计2026年下半年完成。

图像生成行业动态视频
20:18
Berryxia.AI@berryxia
39
Grok 现在制作这种视频真的好方便,而且基本可以一次性搞定,而Google Omni 就触发版权问题。
GooglexAI多模态视频
19:30
公众号:百度智能云(文心)
48
百度智能云联合五家伙伴,加速AIGC内容工业化生产

百度智能云携手酱油文化、VAST、炫佳科技、魔方元启、LIKEAI,将千帆、百舸等能力落地于AI漫剧、3D内容、短剧创作。酱油文化漫剧制作周期压缩90%,月产能超200部,单月营收达5000万量级,抖音破亿作品中五分之一出自其手。VAST的Tripo大模型基于百度百舸数秒生成生产级3D网格。炫佳科技Kino-AIGC模型通过网信办备案并登顶VBench,累计生成超10万分钟AI视频。魔方元启制作周期缩短50%-80%。LIKEAI实现7-10人班组单周单部短剧交付,代表作《哎呀,我的娘亲是女帝》上线24小时播放量超2亿。

图像生成行业动态视频
19:20
公众号:生数科技(Vidu·视频)
38
生数科技与极豆科技达成战略合作,共建汽车行业AIGC解决方案

6月24日,生数科技与极豆科技签署战略合作协议。双方将整合生数科技多模态大模型(Vidu等)与极豆科技汽车AI解决方案、AI中台及车规级研发能力,围绕座舱内容、车主服务等场景打造汽车行业AIGC解决方案。重点探索个性化欢迎、亲子互动、旅途影像等场景,通过模型接入与场景编排将内容生成从预置供给升级为实时动态生成。同时将AIGC延伸至通勤、补能、车辆服务等环节,探索API、SDK及私有化部署等交付方式。极豆科技已与30余家车企合作,累计量产装车超1400万辆。

图像生成多模态行业动态视频
18:45
PixVerse@PixVerse_
25
这个节奏很棒!镜头全程跟上动作。在推进追车格式方面做得很不错。

VaL greGory: Tried making a more advanced chase sequence this time The fast-paced camera movement and continuous action make it feel ...

行业动态视频
16:12
HuggingFace Daily Papers(社区热门论文)
43
MVTrack4Gen:多视角点跟踪作为4D视频生成的几何监督

MVTrack4Gen提出运动感知训练框架,将多视角点跟踪作为额外几何与运动监督信号,用于仅依赖相机条件的新视角视频扩散模型。关键发现是特定注意力层编码了跨视角和时序上的几何对应关系,对齐偏差会导致运动不一致。通过将这些特征路由到辅助多视角跟踪头并联合训练点跟踪目标,MVTrack4Gen增强运动感知对应,使模型更好地保持参考视角的运动和跨视角几何一致性。在多个基准上,该方法达到最优几何一致性和有竞争力的相机精度。

多模态视频论文/研究
15:45
PixVerse@PixVerse_
30
让虚拟直播更具互动性的更好方式。 让观众选择外观,几秒内切换角色,并将结果发布为短视频。 转发 + 关注 + 回复 = 免费使用 + 150 积分(私信发放)。
产品更新视频
15:35
Chubby♨️@kimmonismus
29
这最初是一个用传统工具制作起来不现实的短片构思。 我最初的想法非常模糊,但在Dreamina Octo网页平台上尝试了新的Vibe Create工作流,最终输出效果非常好。以下是最终成片:
产品更新图像生成视频
14:54
Alibaba Cloud@alibaba_cloud
65
HappyHorse 1.1 现已作为 Partner Node 集成于 ComfyUI,一次渲染即可支持原生音频、多角色一致性与电影级构图。新版本提升动态表现力(运动更流畅);增强 R2V,每次最多使用 9 张参考图;实现多角色造型零串扰,背景变化时角色仍保持一致;指令遵循能力增强,可处理超 2500 字符的提示词,单次生成 6-8 个场景;修复皮肤反光和过度锐化;对话与音效同步更紧密。

ComfyUI: HappyHorse 1.1 is now available in ComfyUI as a Partner Node. Native audio. Multi-character consistency. Cinematic frami...

多模态模型发布视频
14:54
Alibaba Cloud@alibaba_cloud
50
Happy Horse 1.1 的又一个激动人心的里程碑! #Fal 加入了不断壮大的生态系统,为创作者带来先进的 #AIVideo 创作;解锁更丰富的叙事、原生音频和更强的创作控制。

fal: Happy Horse 1.1 is now live on fal! Generate video with synchronized native audio and multilingual lip-sync Text to Vide...

产品更新图像生成视频
14:54
Alibaba Cloud@alibaba_cloud
67
全球创作者的重大胜利。 自豪地看到 #Replicate 支持 #HappyHorse 1.1,帮助更多故事讲述者获得视频创作、音频及角色驱动叙事的强大工具。

Replicate: Happyhorse 1.1 from Alibaba is up on Replicate! -Text, image, and reference to video options with multilingual lip-sync ...

模型发布视频
14:40
公众号:京东JoyAI
55
JoyAI 上线「欢乐足球季」:上传照片一键生成足球主题动态视频

JoyAI APP 上线「欢乐足球季」主题活动,用户上传一张人像照片即可生成沉浸式赛场动态视频,支持近 20 款视频模板(看台抓拍、进球巅峰时刻、足球手势舞等),内置全景推进、特写定格等多类运镜逻辑,人物动作与表情自然拟合,赛场光影与人群动效同步渲染。同时上线近 50 款足球主题 AI 智能体,覆盖战术复盘、趣味评球、互动陪伴等方向。活动上线首周日均互动增长率超 158%。

产品更新图像生成视频
12:12
HuggingFace Daily Papers(社区热门论文)
41
TryOnCrafter:通过可渲染4D试穿代理释放相机轨迹实现真实视频虚拟试穿

TryOnCrafter是首个面向相机可控视频虚拟试穿(CaM-VVT)的统一DiT框架。它引入可渲染4D试穿代理,将高保真2D试穿先验蒸馏为基于3DGS的服装化身,再由SMPL-X序列驱动动画并度量对齐至重建背景点云,实现人体与环境的显式解耦。基于该代理作为几何锚点,Proxy-Anchored Video DiT生成严格遵循指定相机轨迹和物理形变的光照真实视频。该框架还支持人体重定位、子弹时间效果和360度轨道观看等应用。

图像生成视频论文/研究
11:12
HuggingFace Daily Papers(社区热门论文)
精选70
Causal-rCM:自回归视频扩散蒸馏的统一教师强制与自强制开源方案

Causal-rCM将扩散蒸馏框架rCM扩展至自回归视频扩散,提出教师强制(TF)与自强制(SF)互补训练范式,并发布统一开源算法与基础设施。通过自定义掩码FlashAttention-2 JVP内核,首次实现基于教师强制的连续时间一致性模型(sCM/MeanFlow)用于自回归视频扩散,收敛速度比离散时间版本快10倍。蒸馏后的2步因果Wan2.1-1.3B模型在仅1或2步采样下取得VBench-T2V分数84.63,仅使用合成数据即达到帧级和块级流式视频生成SOTA。该方法还应用于Cosmos 3全模态世界基础模型,实现动作条件生成的交互式世界模型。

arXiv推理视频论文/研究

推荐理由:把自回归视频扩散蒸馏到1-2步采样,VBench冲到84.63,这个配方让实时视频生成和交互世界模型从论文走进了工程落地,做视频产品的该看。
11:12
HuggingFace Daily Papers(社区热门论文)
52
DomainShuttle:面向开放域主题驱动的文本到视频生成

DomainShuttle 提出一种面向开放域主题驱动文本到视频生成(S2V)的方法,支持域内(高保真保留参考主体特征)和跨域(允许主体无关属性随文本提示灵活变化)两种场景。该方法引入 Domain-MoT 模块,通过解耦视频与参考特征并采用域感知 AdaLN 进行主体特定建模;提出 Video-Reference DualRoPE 方案,将参考图像 token 与视频 token 置于独立 RoPE 空间实现主体级空间建模;设计 Cross-Pair Consistent Loss 提取不受无关特征干扰的内在主体特征。实验表明,DomainShuttle 在多种开放域场景中相比现有方法实现显著提升,兼具高主体保真度与生成灵活性。

arXiv多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
SAM2Matting:通用图像和视频抠图

SAM2Matting 是一种追踪器到抠图的框架,通过为基础追踪器(如 SAM2、SAM3)添加区域提议桥和专用抠图头,将视频对象分割追踪器扩展为高保真视频抠图系统。它解耦了高层时序理解与底层细粒度细节处理。尽管仅使用图像训练,SAM2Matting 在视频抠图上实现了新 SOTA,支持多种提示类型,保持强时间一致性,并在人物及野外场景中展现出鲁棒的泛化能力。

数据/训练视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
LiveEdit:面向实时扩散的流式视频编辑

流式视频编辑面临背景保持与低延迟两大瓶颈。LiveEdit提出因果逐帧编辑框架,通过三阶段蒸馏将双向基础模型的编辑能力迁移至单向流式编辑器,实现稳定长时编辑。引入面向AR的掩码缓存跨帧复用区域计算,将推理速度提升至12.66 FPS,在流式基线中取得最优视觉质量,适用于交互式与增强现实场景。

多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
LISA:基于似然分数对齐的视觉条件可控生成正则化方法

LISA是一种针对视觉条件可控生成的训练正则化方法。它将双分支范式(预训练主网络+侧网络)重新解释为基于分数的生成建模:主网络提供无条件先验分数,侧网络隐式贡献似然分数。LISA通过轻量解码器将侧网络指定层中间特征投影到分数隐空间,与构造的近似似然分数目标计算距离作为正则化损失,并与标准扩散损失联合优化。实验表明,LISA能一致加速训练收敛并提升合成质量,使侧网络特征更解耦,且几乎不增加训练成本、零额外推理成本。

arXiv图像生成视频论文/研究
‹ 上一页
12345…28
下一页 ›