AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「视频」清除
4月22日周三
22:17TestingCatalog News 🗞AI/ML API 正在针对完整的 MiniMax 模型家族开展限时促销,涵盖 M2.7、Music 2.6、TTS 和 Video。 所有模型现已在 Playground 和 API 中开放测试。 Music 免费 7 天。TTS 和 Video 30% 折扣。LLMs 10% 折扣。
22:16Chubby♨️AI/ML API 联合 MiniMax 推出限时模型优惠活动
22:12HuggingFace Daily Papers(社区热门论文)CityRAG:通过空间锚定视频生成步入城市
18:08IT之家(RSS)移除视频中出现的路人,小米开源 CVPR 2026 夺冠技术 SVOR
13:10HuggingFace Daily Papers(社区热门论文)AnyRecon:基于视频扩散模型的任意视角3D重建
11:10HuggingFace Daily Papers(社区热门论文)CoInteract:通过空间结构化协同生成实现物理一致的人-物交互视频合成
11:08IT之家(RSS)爱奇艺将推《灵魂摆渡》首部全 AI 生成电影,《凡人修仙传》动画电影明年上映
09:10SemiAnalysis使用新的 Vera Rubin 机架,可以比以往更快地生成 Toy Jensen 舞蹈教程的 AI 视频。视频生成推理是最受计算限制的工作负载之一。
09:07IT之家(RSS)YouTube 向娱乐行业开放人脸声纹检测技术,打击 AI 深度伪造内容
04:08swyx 🏝️@AIEmiami千万别错过。这是 @osanseviero 和 @GoogleDeepMind London Avengers 带来的疯狂收获之一。 如果你总是觉得跟不上 Imagegen 的 SOTA 进展,无论现在还是平时,这就是你在互联网上能找到的最棒的 40 分钟,绝对如此。
4月21日周二
23:43AI Notkilleveryoneism Memes ⏸️死互联网理论更新:AI内容全面占领互联网
12:11IT之家(RSS)爱奇艺 CEO 龚宇:科技永远不是为了取代人,AI 在影视行业应用目的是服务于广大观众、包括演员在内的所有创作者
11:34HuggingFace Daily Papers(社区热门论文)MultiWorld:可扩展的多智能体多视角视频世界模型
08:00HuggingFace Daily Papers(社区热门论文)ReImagine:通过图像优先合成重新思考可控高质量人体视频生成
4月20日周一
17:04IT之家(RSS)爱奇艺:AI 艺人库计划与传统真人影视项目合作流程一致,参加具体项目 / 出演具体角色都需要进行单独的商谈和授权
4月19日周日
17:37The Decoder:AI News(RSS)中期选举前AI生成网红涌入社交媒体发布亲特朗普内容
08:00HuggingFace Daily Papers(社区热门论文)自回归视频生成的推测解码
4月18日周六
08:00HuggingFace Daily Papers(社区热门论文)EasyVideoR1:面向视频理解的更简易 RL 框架
4月17日周五
18:00公众号:可灵AI(快手·视频)28可灵AI×艾菲 AIGC广告创作大赛征稿进行中!
08:00HuggingFace Daily Papers(社区热门论文)VEFX-Bench:通用视频编辑与视觉效果的综合基准
05:44Rohan PaulHyperframes开源:AI智能体可用HTML直接生成视频
03:44Rohan PaulHeyGen开源HyperFrames:AI代理可将代码转为视频
00:38AK44Seedance 2.0提升视频生成应对复杂世界
4月16日周四
22:51The Decoder:AI News(RSS)字节跳动向 100 多个国家推出 Seedance 2.0,但将美国排除在外
18:00公众号:生数科技(Vidu·视频)35红果爆款《教书五年》布局背后:Vidu&酱油动漫联手合围真人剧
17:43Deedy我用 claude code + seedance 2 api 生成了这整段45秒的电影片段(音频+视频) 仍有明显的AI痕迹,但到今年年底(veo 5)我们应该就能做出与真实电影无法区分的全长电影了
4月15日周三
18:00公众号:生数科技(Vidu·视频)30生数科技Vidu发布《AI漫剧视频模型行业白皮书V1.0》
16:01公众号:可灵AI(快手·视频)36可灵AI高校创作工坊,解锁AI创作新可能
12:04HuggingFace Daily Papers(社区热门论文)Lyra 2.0:可探索的生成式 3D 世界
12:04HuggingFace Daily Papers(社区热门论文)VideoFlexTok:灵活长度的粗到细视频Token化方法
08:00OpenRouter:Announcements(RSS)57精选宣布推出视频生成功能
00:03AK38OmniShow统一多模态条件生成人机交互视频
4月14日周二
21:58HuggingFace Daily Papers(社区热门论文)学习长期运动嵌入以实现高效运动生成
10:02DogeDesignerGrok Imagine 每天都在变得越来越好!视频真实感绝对令人震撼。 立即在 App Store 更新至 v1.3.60!
00:48Rohan PaulHeyGen发布CLI,AI视频生成可嵌入自动化工作流
00:23The Decoder:AI News(RSS)Google 向 Ultra 订阅用户开放 Veo 3.1 Lite 视频生成功能,无需额外消耗积分
4月13日周一
14:48Ethan Mollick惊讶于 Seedance 2.0 能如此出色地实现"尼安德特人与智人之间的机甲战斗"。(这正是历史上真实发生的)
08:00HuggingFace Daily Papers(社区热门论文)OmniScript:面向长电影视频的视听剧本生成
08:00HuggingFace Daily Papers(社区热门论文)像素之前的表示:语义引导的分层视频预测
08:00HuggingFace Daily Papers(社区热门论文)基于对数编码潜在空间对齐的HDR视频生成
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月22日
22:17
TestingCatalog News 🗞@testingcatalog
AI/ML API 正在针对完整的 MiniMax 模型家族开展限时促销,涵盖 M2.7、Music 2.6、TTS 和 Video。 所有模型现已在 Playground 和 API 中开放测试。 Music 免费 7 天。TTS 和 Video 30% 折扣。LLMs 10% 折扣。

AI/ML API: Minimax week on AI/ML API: - Music-2.6 is free - Video & TTS models 30% off - LLMs 10% off If you haven't tried @MiniMax...

产品更新视频语音
22:16
Chubby♨️@kimmonismus
AI/ML API 联合 MiniMax 推出限时模型优惠活动

AI/ML API 携手 MiniMax 推出为期七天的模型促销活动。MiniMax Music 及最新 music-2.6 版本免费开放,Text-to-Speech 五折,视频生成七折,LLMs 享九折优惠。平台同步上线 MiniMax 2.7 等最新模型,并在 Playground 中优先展示全部模型便于测试。此次限时优惠是开发者体验 MiniMax 最新 AI 能力的最佳窗口。

AI/ML API: Minimax week on AI/ML API: - Music-2.6 is free - Video & TTS models 30% off - LLMs 10% off If you haven't tried @MiniMax...

产品更新多模态视频
22:12
HuggingFace Daily Papers(社区热门论文)
CityRAG:通过空间锚定视频生成步入城市

CityRAG 是一种新型视频生成模型,通过利用大规模地理注册数据作为上下文,将生成内容锚定到真实物理场景。该模型采用时间未对齐的训练数据,学会从瞬态属性中语义解耦底层场景,从而在保持复杂运动和外观变化先验的同时,实现真实世界重建。实验表明,该系统可生成数分钟长的连贯视频序列,在数千帧内保持天气和光照条件的一致性,支持闭环导航和复杂轨迹重建真实地理环境。

arXiv具身智能视频论文/研究
18:08
IT之家(RSS)
移除视频中出现的路人,小米开源 CVPR 2026 夺冠技术 SVOR

小米技术宣布开源视频消除技术SVOR,可精准移除视频中的路人。该技术针对真实世界视频中掩码边缘不准、阴影残留、快速移动目标闪烁等痛点,采用MUSE窗口化联合策略、DA-Seg去噪感知分割及课程式两阶段训练方案。SVOR在CVPR 2026物理感知视频实例消除挑战赛中从18支队伍中夺冠,并在多个标准数据集上达到SOTA水平。目前相关论文与代码已开源,并提供可直接调用的skill。

开源/仓库视频
13:10
HuggingFace Daily Papers(社区热门论文)
AnyRecon:基于视频扩散模型的任意视角3D重建

AnyRecon框架通过视频扩散模型实现任意无序稀疏输入的3D重建。该方法构建持久全局场景记忆以支持长距离条件,移除时间压缩保持大视角变化下的帧级对应,并引入几何感知条件策略耦合生成与重建过程。结合4步扩散蒸馏和上下文窗口稀疏注意力降低计算复杂度,解决了传统方法仅依赖1-2帧导致的局限性,在非规则输入、大视角间隙和长轨迹场景下实现稳健可扩展的重建。

arXiv多模态视频论文/研究
11:10
HuggingFace Daily Papers(社区热门论文)
CoInteract:通过空间结构化协同生成实现物理一致的人-物交互视频合成

CoInteract框架基于Diffusion Transformer架构,支持以人物参考图像、产品图像、文本及语音为条件生成视频。其引入Human-Aware Mixture-of-Experts模块,通过空间监督路由将token分配至区域专家,以极小参数开销提升手部与面部的结构稳定性;并采用Spatially-Structured Co-Generation双流训练范式,联合建模RGB外观与HOI结构流以注入交互几何先验,避免手物穿透。训练时结构流正则化共享权重,推理时移除该分支实现零额外开销。实验表明,该方法在结构保真度、逻辑一致性与物理合理性上显著优于现有方案。

多模态视频论文/研究
11:08
IT之家(RSS)
爱奇艺将推《灵魂摆渡》首部全 AI 生成电影,《凡人修仙传》动画电影明年上映

爱奇艺在2026世界大会上发布2026-2027片单,宣布推出《灵魂摆渡》首部全AI生成电影,由原编剧小吉祥天执笔,定档2026年上映;同时公布《凡人修仙传之瀚海迷踪》动画电影将于2027年上映,由原动画团队打造。此外,杨子将继续执导并编剧《捕风追影2》。

行业动态视频
09:10
SemiAnalysis@SemiAnalysis_
使用新的 Vera Rubin 机架,可以比以往更快地生成 Toy Jensen 舞蹈教程的 AI 视频。视频生成推理是最受计算限制的工作负载之一。
行业动态视频部署/工程
09:07
IT之家(RSS)
YouTube 向娱乐行业开放人脸声纹检测技术,打击 AI 深度伪造内容

YouTube向娱乐行业开放人脸声纹检测工具,用于识别并下架未经授权的AI深度伪造内容。该技术类似Content ID系统,专门检测复制他人外貌或声音特征的AI生成视频及音频,标记后当事人可直接审核并要求移除,无需通过常规举报渠道。该工具于2024年启动测试,今年早些时候已覆盖政府官员及新闻记者,现进一步向演艺明星和娱乐从业者开放,无论其是否拥有YouTube频道。YouTube与CAA、UTA等经纪公司合作优化了该系统。

Google多模态安全/对齐视频
04:08
swyx 🏝️@AIEmiami@swyx
千万别错过。这是 @osanseviero 和 @GoogleDeepMind London Avengers 带来的疯狂收获之一。 如果你总是觉得跟不上 Imagegen 的 SOTA 进展,无论现在还是平时,这就是你在互联网上能找到的最棒的 40 分钟,绝对如此。

AI Engineer: 🆕Building Generative Image & Video models at Scale https://www.youtube.com/watch?v=xOP1PM8fwnk A lot of interest in ima...

DeepMind图像生成教程/实践视频
4月21日
23:43
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
死互联网理论更新:AI内容全面占领互联网

死互联网理论正在成为现实。数据显示,AI内容已全面渗透:Deezer上44%歌曲为AI上传,Twitch订阅第一主播也是AI;多数网络文章、四成Facebook帖子及Top 10 YouTube频道内容均由AI生成。连广告领域也充斥AI生成的虚假代言。AI正系统性替代人类创作,从音乐到视频全面入侵。

AI Notkilleveryoneism Memes ⏸️: Dead Internet Theory update: The #1 most-subscribed Twitch streamer is an AI RECAP: 1) The majority of articles on the i...

多模态现象/趋势视频
12:11
IT之家(RSS)
爱奇艺 CEO 龚宇:科技永远不是为了取代人,AI 在影视行业应用目的是服务于广大观众、包括演员在内的所有创作者

爱奇艺CEO龚宇回应"AI艺人库"争议,明确科技以人为本,AI应用旨在服务观众与创作者,而非取代人类。针对昨日公布的包含100多位艺人的AI艺人库遭张若昀、于和伟等否认授权一事,龚宇澄清该清单仅表示演员有AI创作授权意愿,实际使用需遵循与现实拍摄相同的规则:逐个项目、角色获得演员及经纪公司同意,并非一次性授权所有项目。

大佬观点数据/训练视频
11:34
HuggingFace Daily Papers(社区热门论文)
MultiWorld:可扩展的多智能体多视角视频世界模型

MultiWorld 是一个统一的多智能体多视角视频世界模型框架,突破了现有单智能体方法的局限。该框架引入多智能体条件模块实现精确控制,并通过全局状态编码器确保多视角一致性。系统支持智能体与视角数量的灵活扩展,可并行合成不同视角以提升效率。在多玩家游戏环境和多机器人操作任务中的实验表明,该模型在视频保真度、动作跟随能力和多视角一致性方面均优于基线方法。

智能体视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
ReImagine:通过图像优先合成重新思考可控高质量人体视频生成

研究团队提出ReImagine方法,采用图像优先策略解决人体视频生成中外观、运动与视角联合建模的难题。该方法将外观建模与时间一致性解耦,通过预训练图像主干学习高质量外观作为视频合成先验,结合SMPL-X运动引导与免训练的时间细化阶段,实现姿态和视角可控的高质量视频生成。团队同时发布了规范人体数据集与组合式人体图像合成辅助模型,代码与数据均已开源。

图像生成视频论文/研究
4月20日
17:04
IT之家(RSS)
爱奇艺:AI 艺人库计划与传统真人影视项目合作流程一致,参加具体项目 / 出演具体角色都需要进行单独的商谈和授权

爱奇艺在世界大会公布"AI艺人库"计划,宣布于和伟、张若昀等100多名艺人入驻纳逗Pro艺人库,旨在为AIGC创作者提供规范合作平台。随后张若昀、王楚然等多位艺人否认签署AI授权协议。爱奇艺紧急澄清,入驻仅代表艺人有接洽AI影视项目意愿,但参与具体项目或出演角色仍需单独商谈授权,流程与传统真人影视合作一致。

行业动态视频
4月19日
17:37
The Decoder:AI News(RSS)
中期选举前AI生成网红涌入社交媒体发布亲特朗普内容

数百个AI虚拟形象正在TikTok、Instagram和YouTube等平台密集发布支持特朗普的内容。部分账号已积累超过3.5万粉丝和数百万次观看,特朗普本人也曾分享相关AI生成内容。目前尚不清楚这些活动是个人行为还是协调竞选操作,这一现象正值美国中期选举前夕。

图像生成现象/趋势视频
08:00
HuggingFace Daily Papers(社区热门论文)
自回归视频生成的推测解码

本文提出SDVG框架,首次将推测解码应用于自回归视频生成。通过图像质量路由器替代token验证:1.3B draft模型生成候选块,经VAE解码后采用ImageReward worst-frame评分,高于阈值tau的块被接受至14B目标模型。关键设计包括强制拒绝首块以稳定场景构成,以及通过单一阈值平衡质量与速度。在832x480分辨率下,实现1.59倍加速(保留98.1%质量)至2.09倍加速(保留95.7%),无需训练即可集成到现有流程。

arXiv视频论文/研究部署/工程
4月18日
08:00
HuggingFace Daily Papers(社区热门论文)
EasyVideoR1:面向视频理解的更简易 RL 框架

EasyVideoR1 是一款专为视频理解任务设计的强化学习框架,通过离线预处理与张量缓存技术消除冗余视频解码,将训练吞吐量提升1.47倍。该框架支持11种视频及图像任务类型的统一奖励路由,采用离线-在线混合数据训练范式,并实现双模态联合训练与独立像素预算配置。其异步评估系统覆盖22个主流视频理解基准,复现精度与官方报告高度一致,为视觉语言模型的视频推理训练提供了完整高效的基础设施。

Hugging Face多模态数据/训练视频
4月17日
18:00
公众号:可灵AI(快手·视频)
28
可灵AI×艾菲 AIGC广告创作大赛征稿进行中!

可灵AI与艾菲奖联合发起AIGC广告创作大赛,设置潮宏基珠宝、云南白药、华帝、999澳诺四大品牌赛道。奖项包括艾菲奖杯/证书、万元品牌实物奖励及50万灵感值,每个赛道独立评奖。投稿周期即日起至5月25日。早鸟福利:可灵AI联合艾菲评选50件优秀作品,入选作品报名费用全额支持。

行业动态视频
08:00
HuggingFace Daily Papers(社区热门论文)
VEFX-Bench:通用视频编辑与视觉效果的综合基准

研究团队发布VEFX-Dataset、VEFX-Reward和VEFX-Bench三项成果,构建视频编辑标准化评估体系。数据集包含5,049个人工标注示例,覆盖9类32子类,从指令遵循、渲染质量、编辑排他性三维度标注。奖励模型通过序数回归预测各维度质量分数,比通用视觉语言模型更符合人类判断。基准测试含300个样本,评估显示当前编辑系统在视觉合理性与指令遵循方面仍存在明显差距。

arXiv数据/训练视频论文/研究
05:44
Rohan Paul@rohanpaul_ai
Hyperframes开源:AI智能体可用HTML直接生成视频

Hyperframes推出全新开源视频渲染框架,支持AI智能体通过编写HTML直接生成MP4视频。该框架无需学习新语言,仅在标准网页代码中添加data-*属性,即可让Claude Code、Cursor、Gemini CLI、Codex等编程智能体创建、预览并本地渲染视频合成内容。智能体负责编写HTML构图,Hyperframes提供浏览器预览和MP4渲染能力,实现从代码到视频的无缝转换。

Bin Liu: http://x.com/i/article/2044724546637619200

智能体开源/仓库视频
03:44
Rohan Paul@rohanpaul_ai
HeyGen开源HyperFrames:AI代理可将代码转为视频

HeyGen开源AI视频渲染框架HyperFrames,支持AI代理将HTML/CSS/JS代码转为MP4等格式。该工具摒弃传统时间线,利用数据属性控制动画时序与图层,兼容GSAP、Lottie、Three.js等Web动画库。HeyGen团队已使用Claude Code配合该框架完成官方视频制作。开发者可通过npx命令安装,实现代码到视频的自动化生成。

HeyGen: We built our launch video in Claude Code using HyperFrames. Now it's yours. Open source, agent-native framework. HTML to...

智能体开源/仓库视频
00:38
AK@_akhaliq
44
Seedance 2.0 推进视频生成以应对世界复杂性 论文: https://huggingface.co/papers/2604.14148
数据/训练视频论文/研究
4月16日
22:51
The Decoder:AI News(RSS)
字节跳动向 100 多个国家推出 Seedance 2.0,但将美国排除在外

字节跳动将其 AI 视频生成模型 Seedance 2.0 推向全球 100 多个国家,但美国不在此次发布范围内。这一排除可能源于该公司与好莱坞制片厂之间持续的版权纠纷。此次国际扩张标志着字节跳动在 AI 视频生成领域的全球布局取得进展,尽管其在美国市场仍面临法律障碍。

多模态模型发布视频
18:00
公众号:生数科技(Vidu·视频)
35
红果爆款《教书五年》布局背后:Vidu&酱油动漫联手合围真人剧

Vidu与酱油动漫合作,助力仙侠真人剧《教书五年,我教出满门妖神》热映。该剧是红果平台爆款,背后整合了AI视频生成与动漫制作资源,试图以AI赋能真人剧内容生产。

行业动态视频
17:43
Deedy@deedydas
我用 claude code + seedance 2 api 生成了这整段45秒的电影片段(音频+视频) 仍有明显的AI痕迹,但到今年年底(veo 5)我们应该就能做出与真实电影无法区分的全长电影了
智能体Anthropic现象/趋势视频
4月15日
18:00
公众号:生数科技(Vidu·视频)
30
生数科技Vidu发布《AI漫剧视频模型行业白皮书V1.0》

生数科技Vidu正式发布《AI漫剧视频模型行业白皮书V1.0》,该白皮书已上市。

图像生成行业动态视频
16:01
公众号:可灵AI(快手·视频)
36
可灵AI高校创作工坊,解锁AI创作新可能

可灵AI推出高校创作工坊,面向大学生开放AI创作体验,鼓励探索AI在内容生成中的应用,解锁创作新可能。

行业动态视频
12:04
HuggingFace Daily Papers(社区热门论文)
Lyra 2.0:可探索的生成式 3D 世界

Lyra 2.0 是一个用于生成大规模可探索 3D 世界的框架,通过生成相机控制视频并结合前馈重建技术实现。针对长轨迹生成中的空间遗忘和时间漂移问题,该框架维护每帧 3D 几何用于信息路由以检索历史帧并建立对应关系,同时采用自增强历史训练策略使模型学会纠正误差而非累积漂移。这些方法显著延长了 3D 一致的视频轨迹,进而可微调重建模型以可靠地恢复高质量 3D 场景。

arXiv具身智能视频论文/研究
12:04
HuggingFace Daily Papers(社区热门论文)
VideoFlexTok:灵活长度的粗到细视频Token化方法

VideoFlexTok提出可变长度粗到细视频token化方法,早期token捕获语义与运动等抽象信息,后期逐步添加细节。相比传统3D网格表示,该方法在保持相当生成质量(gFVD/ViCLIP)的同时,将模型规模从5.2B压缩至1.1B,实现5倍效率提升。其生成流解码器支持任意长度token重建,仅需672个token即可处理10秒81帧长视频,较同类方法减少8倍token用量,显著降低长视频生成成本。

arXiv视频论文/研究
08:00
OpenRouter:Announcements(RSS)
精选57
宣布推出视频生成功能

OpenRouter平台现已上线视频生成服务。用户可通过单一API接口,直接调用顶级的视频生成模型。这一集成简化了开发流程,使开发者无需分别对接不同厂商,即可便捷地访问和使用当前领先的视频AI模型能力。

产品更新视频部署/工程

推荐理由:OpenRouter 把视频生成塞进统一 API,对已经在用它做多模型路由的开发者来说是零成本扩展,但对大多数人只是又一个聚合入口,不算必须关注的节点。
00:03
AK@_akhaliq
38
OmniShow 统一多模态条件以生成人物-物体交互视频 论文: https://huggingface.co/papers/2604.11804
多模态视频论文/研究
4月14日
21:58
HuggingFace Daily Papers(社区热门论文)
学习长期运动嵌入以实现高效运动生成

研究团队提出了一种基于长期运动嵌入的高效运动生成方法,通过从大规模轨迹数据中学习高度压缩的运动表示,实现64倍时间压缩。该方法直接在运动潜空间上操作,而非合成完整视频,效率提升数个数量级。团队训练了条件流匹配模型,支持通过文本提示或空间戳记指定生成目标。实验表明,生成的运动分布在性能上超越了最先进的视频模型和专用任务方法,可生成长时间、真实的运动序列。

arXiv视频论文/研究
10:02
DogeDesigner@cb_doge
Grok Imagine 每天都在变得越来越好!视频真实感绝对令人震撼。 立即在 App Store 更新至 v1.3.60!
xAI产品更新视频
00:48
Rohan Paul@rohanpaul_ai
HeyGen发布CLI,AI视频生成可嵌入自动化工作流

HeyGen正式上线CLI工具,将AI视频生成转化为命令行工作流。用户通过单一命令即可实现从脚本撰写、虚拟形象生成到视频渲染与交付的全流程自动化,无需离开终端。这一功能使视频生成可被任何研究agent、报告机器人或自动化栈作为标准输出格式调用,轻松集成至cron任务、流水线及内部工具中。CLI的推出意味着AI视频生产可完全嵌入自主agent的工作流,实现从脚本到成品的无人干预端到端自动化。

HeyGen: Your AI agent can now generate and ship videos. HeyGen CLI is now live. Run one command and your agent handles it all: s...

智能体MCP/工具产品更新视频
00:23
The Decoder:AI News(RSS)
Google 向 Ultra 订阅用户开放 Veo 3.1 Lite 视频生成功能,无需额外消耗积分

Google 面向 Ultra 订阅用户推出 Veo 3.1 Lite 视频生成选项,允许用户在现有订阅权益内免费使用该功能,无需额外扣减积分。Veo 3.1 Lite 作为轻量化视频生成模型,为订阅者提供了更具成本效益的内容创作方案。此次更新降低了高级 AI 视频工具的使用门槛,Ultra 用户可直接调用该功能而无需担心积分消耗。

Google产品更新视频
4月13日
14:48
Ethan Mollick@emollick
惊讶于 Seedance 2.0 能如此出色地实现"尼安德特人与智人之间的机甲战斗"。(这正是历史上真实发生的)
模型发布视频
08:00
HuggingFace Daily Papers(社区热门论文)
OmniScript:面向长电影视频的视听剧本生成

研究团队推出80亿参数视听语言模型OmniScript,专攻长电影视频理解与新提出的视频到剧本(V2S)任务。该模型通过思维链监督微调与分段奖励强化学习训练,可生成包含角色动作、对话及音频提示的时序化分层剧本。实验显示,尽管参数规模较小,OmniScript在时间定位与语义准确性上不仅超越更大规模开源模型,更达到与Gemini 3-Pro相当的水平。

多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
像素之前的表示:语义引导的分层视频预测

研究团队推出Re2Pix分层视频预测框架,将预测任务分解为语义表示预测与表示引导的视觉合成两阶段。该方法先在冻结视觉基础模型的特征空间中预测未来场景结构,再基于这些表示通过潜在扩散模型渲染真实帧。针对训练与推理时的表示不匹配问题,引入嵌套dropout和混合监督两种条件策略。在自动驾驶等复杂动态环境基准测试中,该语义优先设计显著提升了时间语义一致性、感知质量和训练效率。

arXiv视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
基于对数编码潜在空间对齐的HDR视频生成

本文提出一种利用预训练生成模型实现HDR视频生成的方法,无需重新设计模型架构。核心发现是,对数编码可将HDR图像映射至与模型潜在空间自然对齐的分布,仅需轻量级微调即可适配,无需重新训练编码器。此外,基于相机模拟退化的训练策略使模型能从学习先验中推断缺失的高动态范围细节。实验表明,该方法在多样场景和复杂光照条件下均能生成高质量HDR视频,证明通过合适的表示对齐即可有效处理HDR内容。

arXiv视频论文/研究
‹ 上一页
1…232425262728
下一页 ›