AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 451 条
全部一手资讯X论文
标签「视频」清除
4月15日周三
12:04HuggingFace Daily Papers(社区热门论文)Lyra 2.0:可探索的生成式 3D 世界
12:04HuggingFace Daily Papers(社区热门论文)VideoFlexTok:灵活长度的粗到细视频Token化方法
08:00OpenRouter:Announcements(RSS)57精选宣布推出视频生成功能
4月14日周二
21:58HuggingFace Daily Papers(社区热门论文)学习长期运动嵌入以实现高效运动生成
00:23The Decoder:AI News(RSS)Google 向 Ultra 订阅用户开放 Veo 3.1 Lite 视频生成功能,无需额外消耗积分
4月13日周一
08:00HuggingFace Daily Papers(社区热门论文)OmniScript:面向长电影视频的视听剧本生成
08:00HuggingFace Daily Papers(社区热门论文)像素之前的表示:语义引导的分层视频预测
08:00HuggingFace Daily Papers(社区热门论文)基于对数编码潜在空间对齐的HDR视频生成
08:00HuggingFace Daily Papers(社区热门论文)3DTV:面向实时视角合成的前馈插值网络
08:00HuggingFace Daily Papers(社区热门论文)OmniShow:统一多模态条件的人与物体交互视频生成
4月11日周六
08:00HuggingFace Daily Papers(社区热门论文)Prompt Relay:面向多事件视频生成的推理时时间控制
4月10日周五
12:00公众号:生数科技(Vidu·视频)51生数科技完成近20亿元B轮融资,以通用世界模型定义下一代数字与物理世界生产力底座
00:00Runway:News(网页)Runway 扩大与 NYU Tisch 艺术学院合作
4月9日周四
19:11公众号:生数科技(Vidu·视频)51生数科技Vidu正式上线阿里云百炼
08:00HuggingFace Daily Papers(社区热门论文)ReconPhys:从单视频中重建外观与物理属性
08:00HuggingFace Daily Papers(社区热门论文)Uni-ViGU:基于扩散式视频生成器统一视频生成与理解
4月8日周三
20:37公众号:可灵AI(快手·视频)44可灵AI × 清华大学 | 高校原力计划正式启幕
4月3日周五
14:14公众号:通义实验室(千问)29Wan2.7-Video 为创作自由而来
00:00Google Blog:AI(RSS)Google Vids 支持免费创建、编辑和分享视频
4月1日周三
12:14公众号:可灵AI(快手·视频)16可灵AI清明短片引用户热议:评论区里人人都有"纸手机"
00:00Google Blog:AI(RSS)使用 Veo 3.1 Lite 构建:我们成本效益最高的视频生成模型
3月31日周二
19:03公众号:昆仑万维(天工)32昆仑万维(天工)推出「天工短剧工作台」
00:00Runway:News(网页)推出 Runway Builders 计划
00:00Runway:News(网页)Runway 推出 Runway Fund 投资基金
3月28日周六
22:34公众号:昆仑万维(天工)19昆仑万维携 SkyReels V4 与 Mureka V9 亮相2026中关村论坛,获高度赞誉
3月26日周四
12:10公众号:可灵AI(快手·视频)23周杰伦《太阳之子》AIMV创作挑战赛上线
3月25日周三
21:36Gary Marcus:The Road to AI We Can Trust(RSS)战争与 AI、Sora 的消亡,以及今日现场观看的 3 种方式
3月24日周二
15:34公众号:通义实验室(千问)51PrismAudio:声画同频,音效随行
3月23日周一
08:00OpenAI:官网动态(RSS · 排除企业/客户案例)安全使用 Sora 创作
3月20日周五
13:32公众号:生数科技(Vidu·视频)24生数科技:通用世界模型是连接数字世界与物理世界的桥梁
3月13日周五
18:07公众号:生数科技(Vidu·视频)37万兴剧厂深度集成Vidu Q3,携手生数科技开启AI漫剧创作新时代
3月12日周四
20:27公众号:生数科技(Vidu·视频)35生数科技与无界动力达成全面战略合作,共创物理AI新范式
00:00Runway:News(网页)负责任地构建交互式 AI 角色
3月11日周三
00:00Runway:News(网页)Runway 成立 Runway Labs 内部孵化器
3月10日周二
14:51公众号:生数科技(Vidu·视频)22Vidu 联合浦光星奕举办首届 AIGC 内容产业大会,聚焦 AI 短剧与视频大模型应用
3月9日周一
00:00Runway:News(网页)精选Runway 推出 Characters:单图实时生成可对话虚拟角色 API
3月6日周五
11:34公众号:生数科技(Vidu·视频)22Vidu即将亮相香港国际影视展 FILMART 30th
2月16日周一
11:52公众号:豆包(字节)41我们和贾樟柯导演合作了一支Seedance 2.0 贺岁短片
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang-Diffusion:面向生产级视频生成的高级优化
2月12日周四
12:18公众号:豆包(字节)41豆包视频生成模型Seedance 2.0上线
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月15日
12:04
HuggingFace Daily Papers(社区热门论文)
Lyra 2.0:可探索的生成式 3D 世界

Lyra 2.0 是一个用于生成大规模可探索 3D 世界的框架,通过生成相机控制视频并结合前馈重建技术实现。针对长轨迹生成中的空间遗忘和时间漂移问题,该框架维护每帧 3D 几何用于信息路由以检索历史帧并建立对应关系,同时采用自增强历史训练策略使模型学会纠正误差而非累积漂移。这些方法显著延长了 3D 一致的视频轨迹,进而可微调重建模型以可靠地恢复高质量 3D 场景。

arXiv具身智能视频论文/研究
12:04
HuggingFace Daily Papers(社区热门论文)
VideoFlexTok:灵活长度的粗到细视频Token化方法

VideoFlexTok提出可变长度粗到细视频token化方法,早期token捕获语义与运动等抽象信息,后期逐步添加细节。相比传统3D网格表示,该方法在保持相当生成质量(gFVD/ViCLIP)的同时,将模型规模从5.2B压缩至1.1B,实现5倍效率提升。其生成流解码器支持任意长度token重建,仅需672个token即可处理10秒81帧长视频,较同类方法减少8倍token用量,显著降低长视频生成成本。

arXiv视频论文/研究
08:00
OpenRouter:Announcements(RSS)
精选57
宣布推出视频生成功能

OpenRouter平台现已上线视频生成服务。用户可通过单一API接口,直接调用顶级的视频生成模型。这一集成简化了开发流程,使开发者无需分别对接不同厂商,即可便捷地访问和使用当前领先的视频AI模型能力。

产品更新视频部署/工程

推荐理由:OpenRouter 把视频生成塞进统一 API,对已经在用它做多模型路由的开发者来说是零成本扩展,但对大多数人只是又一个聚合入口,不算必须关注的节点。
4月14日
21:58
HuggingFace Daily Papers(社区热门论文)
学习长期运动嵌入以实现高效运动生成

研究团队提出了一种基于长期运动嵌入的高效运动生成方法,通过从大规模轨迹数据中学习高度压缩的运动表示,实现64倍时间压缩。该方法直接在运动潜空间上操作,而非合成完整视频,效率提升数个数量级。团队训练了条件流匹配模型,支持通过文本提示或空间戳记指定生成目标。实验表明,生成的运动分布在性能上超越了最先进的视频模型和专用任务方法,可生成长时间、真实的运动序列。

arXiv视频论文/研究
00:23
The Decoder:AI News(RSS)
Google 向 Ultra 订阅用户开放 Veo 3.1 Lite 视频生成功能,无需额外消耗积分

Google 面向 Ultra 订阅用户推出 Veo 3.1 Lite 视频生成选项,允许用户在现有订阅权益内免费使用该功能,无需额外扣减积分。Veo 3.1 Lite 作为轻量化视频生成模型,为订阅者提供了更具成本效益的内容创作方案。此次更新降低了高级 AI 视频工具的使用门槛,Ultra 用户可直接调用该功能而无需担心积分消耗。

Google产品更新视频
4月13日
08:00
HuggingFace Daily Papers(社区热门论文)
OmniScript:面向长电影视频的视听剧本生成

研究团队推出80亿参数视听语言模型OmniScript,专攻长电影视频理解与新提出的视频到剧本(V2S)任务。该模型通过思维链监督微调与分段奖励强化学习训练,可生成包含角色动作、对话及音频提示的时序化分层剧本。实验显示,尽管参数规模较小,OmniScript在时间定位与语义准确性上不仅超越更大规模开源模型,更达到与Gemini 3-Pro相当的水平。

多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
像素之前的表示:语义引导的分层视频预测

研究团队推出Re2Pix分层视频预测框架,将预测任务分解为语义表示预测与表示引导的视觉合成两阶段。该方法先在冻结视觉基础模型的特征空间中预测未来场景结构,再基于这些表示通过潜在扩散模型渲染真实帧。针对训练与推理时的表示不匹配问题,引入嵌套dropout和混合监督两种条件策略。在自动驾驶等复杂动态环境基准测试中,该语义优先设计显著提升了时间语义一致性、感知质量和训练效率。

arXiv视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
基于对数编码潜在空间对齐的HDR视频生成

本文提出一种利用预训练生成模型实现HDR视频生成的方法,无需重新设计模型架构。核心发现是,对数编码可将HDR图像映射至与模型潜在空间自然对齐的分布,仅需轻量级微调即可适配,无需重新训练编码器。此外,基于相机模拟退化的训练策略使模型能从学习先验中推断缺失的高动态范围细节。实验表明,该方法在多样场景和复杂光照条件下均能生成高质量HDR视频,证明通过合适的表示对齐即可有效处理HDR内容。

arXiv视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
3DTV:面向实时视角合成的前馈插值网络

研究团队推出3DTV前馈网络,实现实时稀疏视角插值与视图合成。该方法结合轻量级几何与深度学习,通过Delaunay三元组选择确保角度覆盖,并引入姿态感知深度模块估计多尺度深度金字塔,支持高效特征重投影与遮挡感知混合。与需要场景特定优化的方法不同,3DTV无需再训练即可前馈运行,在挑战性多视角视频数据集上质量与效率均衡,性能优于现有实时基线,适用于AR/VR、远程呈现等低延迟交互场景。

arXiv视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
OmniShow:统一多模态条件的人与物体交互视频生成

OmniShow 是一个面向人与物体交互视频生成(HOIVG)的端到端框架,支持文本、图像、音频和姿态等多模态条件输入。该方法提出统一通道级条件注入(Unified Channel-wise Conditioning)和门控局部上下文注意力(Gated Local-Context Attention)机制,在可控性与生成质量之间取得平衡,并采用解耦后联合训练策略(Decoupled-Then-Joint Training)解决数据稀缺问题。研究团队还建立了 HOIVG-Bench 基准测试。实验表明,OmniShow 在多种多模态条件下均达到行业领先的生成效果。

arXiv多模态视频论文/研究
4月11日
08:00
HuggingFace Daily Papers(社区热门论文)
Prompt Relay:面向多事件视频生成的推理时时间控制

视频扩散模型在生成多事件视频时存在时序控制不足和语义纠缠问题。Prompt Relay 是一种推理时即插即用的解决方法,无需修改模型架构或增加计算开销。该技术通过在交叉注意力机制中引入惩罚项,强制各时间段仅关注对应提示,使模型逐次呈现单一语义概念。该方法显著改善时间提示对齐,减少概念干扰,提升生成视频的视觉质量和叙事连贯性。

arXiv视频论文/研究
4月10日
12:00
公众号:生数科技(Vidu·视频)
51
生数科技完成近20亿元B轮融资,以通用世界模型定义下一代数字与物理世界生产力底座

生数科技完成近20亿元B轮融资,声称将以通用世界模型定义下一代数字与物理世界的生产力底座。

行业动态视频
00:00
Runway:News(网页)
Runway 扩大与 NYU Tisch 艺术学院合作

Runway 扩大与 NYU Tisch 艺术学院合作,向 ITP、IMA 及 Hyper Cinema Lab 学生开放全套 AI 工具,支持课程作业与个人创作。Runway 创始团队曾就读于 ITP,此次合作旨在让新一代创作者掌握 AI 时代的电影与艺术工作流。

行业动态视频
4月9日
19:11
公众号:生数科技(Vidu·视频)
51
生数科技Vidu正式上线阿里云百炼

生数科技旗下视频生成模型Vidu已正式上线阿里云百炼平台,标志着从“模型领先”向“生态领先”的转变。双方将联合加速行业发展。

产品更新视频部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
ReconPhys:从单视频中重建外观与物理属性

ReconPhys 是首个可从单目视频联合重建几何、外观与物理属性的前馈框架。该方法采用双分支架构与自监督训练策略,无需真实物理标签即可实现端到端推理。在合成数据集测试中,其未来预测 PSNR 达到 21.64,显著优于现有优化基线的 13.27;Chamfer Distance 从 0.349 降至 0.004。关键突破在于推理速度:仅需不到 1 秒即可完成重建,而传统方法需耗时数小时,为机器人与图形学领域快速生成仿真就绪资产提供了新方案。

arXiv具身智能视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
Uni-ViGU:基于扩散式视频生成器统一视频生成与理解

Uni-ViGU框架通过扩展扩散式视频生成器统一视频生成与理解,反转了传统以理解为中心的多模态模型范式。该框架采用统一流方法,在单一过程中对视频进行连续流匹配、对文本进行离散流匹配;引入模态驱动的MoE架构,以轻量级层增强Transformer实现文本生成;并通过双向训练机制(知识召回与能力细化两阶段)将生成知识迁移至理解任务。实验表明,该模型在视频生成与理解任务上均达到竞争性性能,验证了以生成为中心的架构路径可行性。

多模态视频论文/研究
4月8日
20:37
公众号:可灵AI(快手·视频)
44
可灵AI × 清华大学 | 高校原力计划正式启幕

可灵AI与清华大学联合宣布“高校原力计划”正式启动。该计划旨在推动AI视频生成技术在高校的产学研合作,具体细节未在本次公告中披露。

行业动态视频
4月3日
14:14
公众号:通义实验室(千问)
29
Wan2.7-Video 为创作自由而来
产品更新视频
00:00
Google Blog:AI(RSS)
Google Vids 支持免费创建、编辑和分享视频

Google Vids 接入 Lyria 3 与 Veo 3.1 模型能力,新增免费 AI 视频生成功能,用户可无成本创建、编辑和分享高质量视频。

Google产品更新视频
4月1日
12:14
公众号:可灵AI(快手·视频)
16
可灵AI清明短片引用户热议:评论区里人人都有"纸手机"

可灵AI生成清明主题视频,被评价为“最有人味的片子”。视频引发评论区大量用户分享自创的“纸手机”故事,展现AI与人文情感的碰撞。该作品由快手旗下可灵AI制作,突出AI在情感表达领域的突破。

多模态教程/实践视频
00:00
Google Blog:AI(RSS)
使用 Veo 3.1 Lite 构建:我们成本效益最高的视频生成模型

Veo 3.1 Lite 现已开放付费预览,作为 Google 成本效益最高的视频生成模型,支持通过 Gemini API 调用及 Google AI Studio 测试。

Google模型发布视频
3月31日
19:03
公众号:昆仑万维(天工)
32
昆仑万维(天工)推出「天工短剧工作台」

昆仑万维(天工)正式推出「天工短剧工作台」,以AI智能体驱动短剧内容创作流程自动化。

智能体产品更新视频
00:00
Runway:News(网页)
推出 Runway Builders 计划

Runway 推出 Runway Builders 计划,为 Seed 至 Series C 初创企业提供最高50万免费 API 积分及 Characters 实时视频代理接口。该接口基于 GWM-1 模型,支持从单张图片零微调生成可控数字角色,适用于客服、销售助手等实时交互场景。

智能体产品更新视频
00:00
Runway:News(网页)
Runway 推出 Runway Fund 投资基金

Runway 正式成立 Runway Fund,专注投资 AI、媒体与世界模拟领域的早期初创公司。基金初始规模 1000 万美元,单笔投资最高 50 万美元,重点布局 AI 研究、新应用及新媒体内容三大方向,已投项目包括 Cartesia、LanceDB 等。

行业动态视频
3月28日
22:34
公众号:昆仑万维(天工)
19
昆仑万维携 SkyReels V4 与 Mureka V9 亮相2026中关村论坛,获高度赞誉

昆仑万维在2026中关村论坛上展示两大全球顶尖模型 SkyReels V4 和 Mureka V9,获得多方高度赞誉。

图像生成行业动态视频
3月26日
12:10
公众号:可灵AI(快手·视频)
23
周杰伦《太阳之子》AIMV创作挑战赛上线

可灵AI邀请创作者参与周杰伦新歌《太阳之子》AIMV创作挑战赛,用AI影像为旋律续写MV故事,具体参与方式及规则见活动页面。

图像生成行业动态视频
3月25日
21:36
Gary Marcus:The Road to AI We Can Trust(RSS)
战争与 AI、Sora 的消亡,以及今日现场观看的 3 种方式

这是一则简短预告,作者为仓促通知致歉,宣布将围绕战争与人工智能、Sora 的终结等话题发布几项公告,同时提供今日现场观看的三种途径,但正文未透露具体发布内容、技术细节或数据指标。

大佬观点视频
3月24日
15:34
公众号:通义实验室(千问)
51
PrismAudio:声画同频,音效随行

PrismAudio 由通义实验室(千问)开源发布,定位为“更会思考的AI音效师”,能够实现声画同频、音效随行的智能音效生成。

多模态模型发布视频
3月23日
08:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
安全使用 Sora 创作

Sora 2 与 Sora 应用将安全作为基础架构,采用具体保护措施应对前沿视频模型与社交创作平台带来的全新安全挑战。

OpenAI产品更新视频
3月20日
13:32
公众号:生数科技(Vidu·视频)
24
生数科技:通用世界模型是连接数字世界与物理世界的桥梁

生数科技在公众号推文中指出,通用世界模型是连接数字世界与物理世界的桥梁。文章标题与正文均为此单一观点,未提供更多细节。

多模态现象/趋势视频
3月13日
18:07
公众号:生数科技(Vidu·视频)
37
万兴剧厂深度集成Vidu Q3,携手生数科技开启AI漫剧创作新时代

万兴科技携手生数科技,深度集成Vidu Q3模型,以“大模型+工具+场景”模式,开启“人人都是漫剧创作者”的智能新时代。

行业动态视频
3月12日
20:27
公众号:生数科技(Vidu·视频)
35
生数科技与无界动力达成全面战略合作,共创物理AI新范式
具身智能行业动态视频
00:00
Runway:News(网页)
负责任地构建交互式 AI 角色

Runway 发布 Characters 实时视频 API,支持从单张图片生成可对话虚拟角色。文章在介绍客服、教育等应用场景的同时,重点讨论了该技术在肖像权同意、实时深度伪造欺诈、情感操纵及社交依附等方面的潜在风险。Runway 已采取内容过滤(禁止儿童与公众人物形象)、限制专业领域建议及透明度标识等安全措施,但承认随着技术进步,相关治理挑战仍需持续应对。

智能体产品更新视频
3月11日
00:00
Runway:News(网页)
Runway 成立 Runway Labs 内部孵化器

Runway 推出内部孵化器 Runway Labs,探索生成式视频与通用世界模型的新应用。由联合创始人 Alejandro Matamala Ortiz 领导,团队将快速原型化前沿实验产品。目前正在招聘设计工程师、ML工程师、全栈工程师及前创业者。

行业动态视频
3月10日
14:51
公众号:生数科技(Vidu·视频)
22
Vidu 联合浦光星奕举办首届 AIGC 内容产业大会,聚焦 AI 短剧与视频大模型应用

3月13日,Vidu 联合浦光星奕举办「AI新视界 漫剧新潮流——首届AIGC内容产业大会」,邀请AI技术、影视制作、短剧平台和内容机构等领域嘉宾,共同探讨下一代内容产业机会。议题覆盖AIGC内容生产、AI短剧/AI漫剧、视频大模型应用及内容产业新商业模式。

图像生成行业动态视频
3月9日
00:00
Runway:News(网页)
精选
Runway 推出 Characters:单图实时生成可对话虚拟角色 API

Runway 推出 Characters API,基于 GWM-1 世界模型,支持用单张图片零微调生成实时可对话虚拟角色。支持自定义外观风格、声音、性格及知识库,具备自然表情、眼神、口型同步和手势。面向客户支持、培训教育和品牌营销等企业场景,已获 BBC 等采用。开发者可通过 API 集成,消费者也可在网页端体验预设角色。

智能体产品更新多模态视频

推荐理由:Runway推出实时视频Agent,单图生成可对话数字人,拓展AI交互形态
3月6日
11:34
公众号:生数科技(Vidu·视频)
22
Vidu即将亮相香港国际影视展 FILMART 30th

生数科技 Vidu 将在 3 月 17 日至 20 日的香港国际影视展 FILMART 上设立 Vidu Q3「为剧而生」专区,展示专为漫剧、短剧、影视剧设计的 Vidu Q3 模型。该模型是全球首个支持 16 秒音视频直出的多模态模型,具备多镜头自由切换、多语言对话及多语种文字渲染能力,旨在为影视制作与内容工业带来全新生产方式。

多模态行业动态视频
2月16日
11:52
公众号:豆包(字节)
41
我们和贾樟柯导演合作了一支Seedance 2.0 贺岁短片

字节跳动旗下豆包的AI视频生成模型Seedance 2.0与导演贾樟柯合作,推出了一支贺岁短片。

行业动态视频
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang-Diffusion:面向生产级视频生成的高级优化

SGLang-Diffusion发布六项生产级优化,包括Token级序列分片替代帧级方案,消除14.3%的padding开销并将通信量降至0.875倍;并行折叠技术解耦文本编码器与DiT的并行策略;并行VAE实现分布式编解码,消除高分辨率视频内存瓶颈。同时修复Cache-DiT多请求稳定性问题,优化视频保存I/O性能,并针对WanVideo融合LayerNorm内核。这些改进显著提升了视频生成框架的可扩展性、效率与稳定性。

开源/仓库视频部署/工程
2月12日
12:18
公众号:豆包(字节)
41
豆包视频生成模型Seedance 2.0上线

字节跳动旗下豆包推出视频生成模型Seedance 2.0,该模型已上线。

多模态模型发布视频
‹ 上一页
1…89101112
下一页 ›