AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「视频」清除
6月19日周五
09:24PixVerse35PixVerse足球小将创作赛
05:49TechCrunch:AI(RSS)57Snap 剥离 AI 视频团队成立新公司 Dotmo
03:23PixVerse32PixVerse × 足球小将全球合作上线
01:20Luma64Luma Skill 将最佳结果变为可重复工作流
6月18日周四
23:17AYi43Grok imagine 1.5 动作生成效果测试
21:18The Verge:AI(RSS)50Adobe 上线重新设计的 Firefly AI 工作室,新增 Elements 与 Projects 功能
20:20Orange AI32ListenHub升级AI创作者平台并推618限时福利
18:10公众号:可灵AI(快手·视频)24可灵AI在阿那亚戏剧节候鸟300启动AIGC影像大赛与创作者课堂
17:49PixVerse26PixVerse 东京活动感谢大家出席
14:15🚨 AI News | TestingCatalog64Catnip 推出 MaineCoon:实时交互音视频 AI 模型
10:43HuggingFace Daily Papers(社区热门论文)51Physics-IQ Verified
08:14Kling AI19可灵AI:足球明星坐在观众席
08:00HuggingFace Daily Papers(社区热门论文)54Go-with-the-Track: 视频合成与运动控制与点追踪
08:00HuggingFace Daily Papers(社区热门论文)37World Action Models 综述
05:55ViggleAI16Viggle AI 推文:最后一届世界杯的告别
04:42Chubby♨️40Seedance 2.5 七月初发布,文生视频领先
00:55🚨 AI News | TestingCatalog44字节跳动Seedance 2.5/2.0更新计划
00:33Odyssey58Odyssey 获 3.1 亿美元 B 轮加速世界模型
6月17日周三
22:13AYi55Grok Imagine Video 1.5 完美复刻《黑客帝国》Neo躲子弹经典场景
21:13AYi77Grok Imagine Video 1.5 实测:一键复刻《权力的游戏》高质量视频,价格低廉
21:07IT之家(RSS)74精选阿里云发布HappyOyster 1.0:一句话生成可实时交互的数字世界
18:50Chubby♨️46MaineCoon:实时感知交互的音视频AI模型
18:41公众号:卡尔的AI沃茨69视频Agent Seko更新无限画布,自动连接节点生成工作流
18:38PixVerse32PixVerse Canvas 猫骑士故事获官方点赞
18:29歸藏(guizang.ai)39即梦 Seedance 2.0 Mini 降价上线
17:50公众号:火山引擎63精选Kickart 3.0发布,让广告视频创作更精准高效
17:18🚨 AI News | TestingCatalog59Grok Imagine 1.5 Fast 推出,质量提升速度更快
15:06AYi57Grok Imagine 1.5 复刻权游演讲实测惊艳
13:35DogeDesigner49Grok Imagine 1.5 Fast 视频生成速度翻倍
13:05IT之家(RSS)58Grok Imagine Video 1.5 模型正式上线:6 秒 720P 视频仅需 25 秒
12:35DogeDesigner45Grok Imagine 1.5 视频质量大幅提升
12:25Andrew Milich44Imagine Video 1.5 实现真实运动与一致文本
12:24Elon Musk56Grok Imagine 1.5 现已广泛发布
12:05xAI:News(网页)73同事件精选xAI 发布 Grok Imagine Video 1.5同一事件,精选展示《xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)》
09:03IT之家(RSS)64消息称字节调整 AI 资源分配,重心从豆包这类大众产品转向企业服务
08:27宝玉75精选baoyu-design 本地动画视频导出功能更新
08:00HuggingFace Daily Papers(社区热门论文)48TurboServe:高效经济地服务流式视频生成
08:00HuggingFace Daily Papers(社区热门论文)48LooseControlVideo:利用空间阻挡实现导演级视频控制
04:35Rohan Paul65Catnip推出MaineCoon:22B实时音频-视觉流式基础模型
00:17Luma20PJaccetturo借XPRIZE获250万美元电影资助
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月19日
09:24
PixVerse@PixVerse_
35
用 PixVerse 创作你自己的足球故事。 PixVerse × 足球小将 | 重温足球狂热--向创作者开放征集。 总奖池: 1500 美元现金 + 350,000 PixVerse 积分 + 10 张高级礼品卡。 投稿截止日期:7 月 10 日。 转发+关注+回复 = 私信获得 100 积分(仅限 24 小时)。
其他视频
05:49
TechCrunch:AI(RSS)
57
Snap 剥离 AI 视频团队成立新公司 Dotmo

Snap 将内部生成式 AI 视频团队剥离为独立公司 Dotmo,专注开发用于互动游戏体验的 AI 模型,原因为内部开展此类工作成本高昂。Dotmo 与 Snap 保持紧密联系:Snap 将授予技术许可用于游戏平台;初始团队由 Snap 现职员组成并离职加入;Snap 首席技术官 Bobby Murphy 以个人身份成为主要投资者,仍全职担任 CTO;作为交换,Snap 将获得 Dotmo 大量股权。这是 Snap 2026 年第二次重大剥离,此前已将智能眼镜业务 Specs 剥离。

行业动态视频
03:23
PixVerse@PixVerse_
32
PixVerse × Captain Tsubasa 现已上线。 官方IP @0728takahashi。全球合作。足球赛季。 2026年6月12日 - 7月26日。 用AI创作你自己的足球故事。 转发 + 关注 + 回复 = 私信获300 Credits(仅72小时)
行业动态视频
01:20
Luma@LumaLabsAI
64
Luma Skill 将你的最佳结果转化为可重复工作流。一次构建,即可在任何资产上运行,每次都达到相同质量。随着规模扩大,工艺保持一致。 尝试 Luma Skills:http://lumalabs.ai/app
产品更新视频
6月18日
23:17
AYi@AYi_AInotes
43
Grok imagine 1.5 动作生成效果测试

推文测试了 Grok imagine 1.5 的动作生成效果,认为其相比 seedance2.0 稍弱,但进步明显、潜力较大,并归因于 Elon 收购 Cursor 后的效益最先在 Grok 显现。

xAI图像生成视频评测/基准
21:18
The Verge:AI(RSS)
50
Adobe 上线重新设计的 Firefly AI 工作室,新增 Elements 与 Projects 功能

Adobe 今日在 private beta 中上线了重新设计的 Firefly AI 工作室,新增“Elements”(可保存已创建的角色、地点和对象并命名复用)和“Projects”(将资产、生成内容与创作上下文集中管理)两项功能。Firefly AI 助手新增品牌套件生成(根据公司名和风格生成 Logo 与色板)、Quick Cut(快速剪辑视频成初稿)、故事板生成以及图片转短视频能力,旨在减少繁琐任务同时保留人工控制权。

产品更新图像生成视频
20:20
Orange AI@oran_ge
32
ListenHub升级AI创作者平台并推618限时福利

ListenHub全面升级为AI创作者平台,已接入Seedance 2.0、HappyHorse、GPT Image 2、Nano Banana Pro等顶级的视频和图像模型,价格优惠。即日起进行为期一周的“618+端午节”限时福利:订阅月费或年费会员额外赠送50%积分;新用户注册即赠100积分;老用户每日签到免费获得2张生图额度。活动限时7天,逾期需等到黑五。

产品更新图像生成多模态视频
18:10
公众号:可灵AI(快手·视频)
24
可灵AI在阿那亚戏剧节候鸟300启动AIGC影像大赛与创作者课堂

可灵AI携手阿那亚戏剧节候鸟300,在阿那亚黄金海岸·候鸟300沙城举办系列活动。6月16日至26日进行300小时AIGC影像限时创作;6月19日至21日开设可灵AI创作者课堂;6月19日设可灵AI主题放映日;6月27日举行AIGC大赛颁奖典礼及可灵AI先锋艺术家签约仪式。活动覆盖AIGC影像大赛、影像放映与创作教学,将AI与艺术实验融入海边场景。

行业动态视频
17:49
PixVerse@PixVerse_
26
感谢大家的光临!希望所有观众都度过了一段美好时光。

とうや: PixVerseのイベントに来ました #PixVerseTokyo @btrax_jp @PixVerse_

行业动态视频
14:15
🚨 AI News | TestingCatalog@testingcatalog
64
Catnip 发布 MaineCoon,一款 22B 参数的流式实时交互音频-视觉模型,可在屏幕上呈现活生生的 AI 角色。首帧生成不到 1 秒,推理速度达 47.5 FPS(单张 H100),比现有音视频模型快 7 倍。该模型支持无限时长交互,强调 AI 持续在场而非轮流回复,旨在将被动视频升级为实时 AI 存在感。

Catnip: 🥇MaineCoon: From Passive Video to Real-Time AI Presence The first unlimited-duration interactive audio-visual model. Mo...

多模态模型发布视频
10:43
HuggingFace Daily Papers(社区热门论文)
51
Physics-IQ Verified

本文对Physics-IQ基准进行系统审查,指出其缺陷并提出三项改进:优化提示词与真实数据质量以减少混淆因素,引入样本级评分系统使每个样本和指标权重相等。改进后的Physics-IQ Verified基准优化了57.6%的样本和34.8%的提示词。在六种图像到视频生成模型的对比研究中,排名出现中等但有意义的变化(Kendall's τ=0.46)。基准代码已开源。

DeepMind视频论文/研究评测/基准
08:14
Kling AI@Kling_ai
19
等等……足球明星坐在观众席?!⚽️
其他视频
08:00
HuggingFace Daily Papers(社区热门论文)
54
Go-with-the-Track: 视频合成与运动控制与点追踪

Go-with-the-Track将精确合成与运动控制统一在单一视频扩散Transformer中,通过联合多个参考图像和参考锚定点追踪实现。模型引入空间感知点追踪嵌入,利用坐标MLP和时序池化编码完整点轨迹序列,再通过轻量适配器注入模型,避免像素与补丁分辨率不匹配及下采样导致的信息损失。混合训练策略在动态、静态及合成视频数据集上联合训练以增强运动可控性。实验表明,该模型能支持多参考条件视频生成、点追踪驱动合成,并对静态与动态场景提供相机控制。

图像生成视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
37
World Action Models 综述

World Action Models(WAM)是具身预测动作模型,通过重用水视频生成模型或依赖语言/视觉-语言骨干实现未来预测。该综述厘清了WAM与视频生成模型、动作基础视频世界模型、视觉-语言-动作策略等概念的边界,从生成内容(渲染未来、潜在未来、无视频生成的动作推理)和设计维度(预测基质、骨干、动作耦合、部署机制)两个视角组织现有方法。分析表明:WAM并非仅带动作头的视频生成器,其设计在表示丰富性与计算、内存、延迟、动作标签成本之间权衡。领域正朝向生成更少未来但保留控制所需信息的方向发展。

具身智能视频论文/研究
05:55
ViggleAI@ViggleAI
16
最后一舞。❤️ 从儿时的梦想,到站在足球最大的舞台上,每一刻都是荣耀。感谢我的队友、教练、家人,以及每一位一路相信我、支持我的球迷。 这将是我最后一届世界杯,但记忆将永远留在我心中。 感谢一切。 向我兄弟 @Cristiano 和 @neymarjr 致敬 #football #worldcup #wc2026 #viggleai
其他视频
04:42
Chubby♨️@kimmonismus
40
Holy Sh*t: Seedance 2.5 七月初发布。 并且仍然没有任何文生视频模型能接近 Seedance。

Chetaslua: 🚨ByteDance is planning to release Seedance 2.5 in early July > will support generations longer than 15 seconds. > Seeda...

模型发布视频
00:55
🚨 AI News | TestingCatalog@testingcatalog
44
BYTEDANCE 🔥: Seedance 2.5 预计将于 7 月初发布!Seedance 2.0 也有望很快获得 4K 支持。 h/t @MarsForTech via Dev Mode

Chetaslua: 🚨ByteDance is planning to release Seedance 2.5 in early July > will support generations longer than 15 seconds. > Seeda...

行业动态视频
00:33
Odyssey@odysseyml
58
我们已筹集 3.1 亿美元 B 轮融资,以加速世界模型! 我们相信,能够理解和模拟世界的 AI 将成为我们时代最重要的技术之一。 我们很高兴与 Natural Capital、Amazon、GV、AMD、IQT 等合作,将这一愿景变为现实。
多模态行业动态视频
6月17日
22:13
AYi@AYi_AInotes
55
Grok Imagine Video 1.5 完美复刻《黑客帝国》Neo躲子弹经典场景

Grok Imagine Video 1.5 能一键生成电影级视频,完美复刻《黑客帝国》Neo躲子弹的 Bullet Time 场景(雨中后仰、绿色调、皮风衣墨镜),以及《权力的游戏》龙妈骑龙低空飞越君临的史诗镜头。用户感叹该模型“这么便宜还这么好用”,对比之下自己刚充的 6000 多元 seedance 会员显得不值。两个示例均附有详细 Prompt,涵盖镜头运动、物理模拟、光照与音频要求,展现出强大的文生视频能力。

AYi: Grok Imagine Video 1.5真的要吹爆,这么便宜还这么好用,一键复刻权力的游戏! 我刚充的6000多块的seedance会员算什么🥹 Prompt: Faithfully animate this reference im...

图像生成教程/实践视频
21:13
AYi@AYi_AInotes
77
Grok Imagine Video 1.5 实测:一键复刻《权力的游戏》高质量视频,价格低廉

用户实测 xAI 的 Grok Imagine Video 1.5 视频生成模型,用详细 prompt 生成《权力的游戏》龙妈骑龙飞越君临城场景,火焰特效、物理模拟、原生音频和光影均达电影级水准。另一测试复刻 Tyrion 法庭演讲,面部微表情、布料动态、火把光影互动自然,效果不输 seedance 2。用户感叹仅需低廉价格(对比刚充的 6000 多元 seedance 会员)即可生成如此高质量视频。

AYi: Grok Imagine Video 1.5 实测: 复刻《权力的游戏》Tyrion 经典法庭演讲,效果真的有点吊炸,完全不输seedance 2, 整个场景真实感、物理表现和原生音频都拉满了......面部微表情、布料动态、火把光影互动都...

图像生成教程/实践视频
关联讨论 3 条xAI:News(网页)X:Elon Musk (@elonmusk, xAI)X:cb_doge (@cb_doge)
21:07
IT之家(RSS)
精选74
阿里云发布HappyOyster 1.0:一句话生成可实时交互的数字世界

6月17日,阿里云发布开放式世界模型HappyOyster 1.0(快乐生蚝)。该产品基于原生多模态架构,支持多模态输入与音视频联合生成,可在生成过程中持续接收用户指令并实时响应画面。它深度学习物理世界状态转移规律,保持人物和环境长程一致性。官网开放“实时导演”与“世界探索”两种玩法:前者可随时叫停改写故事、与虚拟男友实时互动等;后者支持自由漫游、滑板冲刺、翼装滑翔、骑马奔驰、攻击打怪等交互。该产品已于今年4月16日开放内测,即日起至7月17日官网不定期掉落体验积分。

产品更新多模态视频

推荐理由:阿里把世界模型做成了可玩的交互产品,一句话生成能探索能互动的数字世界,实时导演模式直接替代了一部分短剧和互动内容创作,虽然还像噱头但至少是能玩的尝试。
18:50
Chubby♨️@kimmonismus
46
MaineCoon 是首个不限时长(unlimited-duration)的交互式音视频模型,摒弃了传统AI"等待输入→回复→静默"的轮次模式。它在回答过程中持续实时读取用户的表情、声音和时机,实现边说话边感知的对话体验,将AI视频从被动观看转向主动实时互动,被认为是实时交互AI的前沿信号。

Catnip: 🥇MaineCoon: From Passive Video to Real-Time AI Presence The first unlimited-duration interactive audio-visual model. Mo...

多模态大佬观点视频
18:41
公众号:卡尔的AI沃茨
69
视频Agent Seko更新无限画布,自动连接节点生成工作流

视频Agent Seko在最新更新中推出无限画布,并能自动将创意、剧本、角色、场景和分镜等素材节点连接成完整工作流。用户可通过Seedance 2.0全能模式输入一句话或完整剧本,Seko自动生成多集短剧大纲、人物、场景、美术风格及分镜描述,并支持逐段修改提示词和生成视频。画布提供全自动与精细手动编辑的双重控制,解决了AI视频从70分改到85分时反复重做的痛点。实测用该流程三小时完成两集悬疑短剧,角色一致性、故事节奏和画面氛围表现力均超出预期。

智能体教程/实践视频
18:38
PixVerse@PixVerse_
32
PixVerse 官方在 X 上称赞用户 @renataro9 使用 PixVerse Canvas 工具创作的猫骑士故事。该故事讲述了猫骑士 Rosmira Thornvale 在村庄被焚、母亲被害后,面对曾教导她战斗却堕入黑暗的黑猫圣骑士,最终选择以守护而非复仇的力量对抗。作品附有 #pixversecpp 等标签。

meropan: Pixverse(@PixVerse_)のCanvasで作成しました。 #pixversecpp #zargates #pvpvibe @Nika_Ruis Rosmira Thornvale is a young cat knight w...

其他图像生成视频
18:29
歸藏(guizang.ai)@op7418
39
即梦上了 Seedance 2.0 Mini,便宜了不少 可以玩玩了
开源/仓库模型发布视频
17:50
公众号:火山引擎
精选63
Kickart 3.0发布,让广告视频创作更精准高效

火山引擎一站式营销创作平台Kickart 3.0(原“创作Agent”)正式上线,升级为对话式视频生成模式,用户可通过多轮对话调整商品图、故事板等,用自然语言生成营销视频。新增“爆款裂变”能力,上传视频链接后自动拆解爆款逻辑并重构至新商品视频,支持抖音电商内容合规与质量预审核。平台开放SaaS、API及Skill等多种交付方式,并已接入Seedance 2.0 mini,助力降低广告营销成本。

产品更新视频

推荐理由:火山引擎为营销人带来的视频生成工具体验不错,对话式调整和爆款裂变能降低创作门槛,但对于关注AI技术进展的读者,这更像一次垂直行业产品迭代,亮点有限。
17:18
🚨 AI News | TestingCatalog@testingcatalog
59
XAI 🔥: Grok Imagine 1.5 Fast 已推出!它带来了更好的质量和更快的生成速度。 > 720p 视频现在只需约 25 秒即可渲染,而上一代模型需要 40 秒以上。

xAI: Imagine Video 1.5 is generally available in our API: https://x.ai/news/grok-imagine-video-1-5 We've also rolled out Vide...

xAI模型发布视频
15:06
AYi@AYi_AInotes
57
Grok Imagine 1.5 复刻权游演讲实测惊艳

Grok Imagine Video 1.5 实测: 复刻《权力的游戏》Tyrion 经典法庭演讲,效果真的有点吊炸,完全不输seedance 2, 整个场景真实感、物理表现和原生音频都拉满了……面部微表情、布料动态、火把光影互动都很自然

xAI: Grok Imagine Video 1.5 is here Our new image-to-video model with sharper realism, better physics and faster generations ...

xAI视频评测/基准
13:35
DogeDesigner@cb_doge
49
Grok Imagine Video 1.5 Fast 的视频生成速度几乎翻倍。 它可在约25秒内生成一段6秒720p视频,而上一代模型需要40秒以上。 这是一次巨大的速度升级。 以下是对比:
模型发布视频
13:05
IT之家(RSS)
58
Grok Imagine Video 1.5 模型正式上线:6 秒 720P 视频仅需 25 秒

6 月 17 日,xAI 宣布 Grok Imagine Video 1.5 模型正式在 xAI API 上线。该模型支持静态图一键生成带同步音频的短视频,单次生成同时输出音效、环境音和对话,语音清晰度和口型同步效果提升。运动连贯性增强,减少了肢体扭曲和物体漂浮,更好模拟重量感与动量。Fast 模式下生成一段 6 秒 720p 视频约需 25 秒,较前代 40 秒以上显著提速。开发者可通过上传起始图片、描述运动方式并选择分辨率和时长调用 API。

xAI模型发布视频
12:35
DogeDesigner@cb_doge
45
所有这些视频都是用 Grok Imagine 1.5 创建的。 重大升级。质量大幅跃升。🚀
图像生成模型发布视频
12:25
Andrew Milich@milichab
44
Imagine Video 1.5 提供真实运动、逼真环境以及跨帧一致文本

xAI: Grok Imagine Video 1.5 is here Our new image-to-video model with sharper realism, better physics and faster generations ...

xAI模型发布视频
12:24
Elon Musk@elonmusk
56
Grok Imagine 1.5 现已广泛发布

xAI: Grok Imagine Video 1.5 is here Our new image-to-video model with sharper realism, better physics and faster generations ...

xAI图像生成模型发布视频
12:05
xAI:News(网页)
同事件精选73
xAI 发布 Grok Imagine Video 1.5

xAI 将 Grok Imagine Video 1.5 从预览转为全面可用,在 Imagine API 上提供 grok-imagine-video-1.5,并在 grok.com/imagine 及 iOS/Android 应用上推出 Video 1.5 Fast 版。相比前代,模型在音频与语音(更清晰、嘴型同步更好)、运动与物理(更连贯、重量感更真实)、生成速度(6 秒 720p 视频约 25 秒,此前超 40 秒)上全面提升。同时逐步推出 Projects、Multiple agents(并行运行多个生成任务)、Search 等新功能,以优化创作流程。

xAI多模态模型发布视频
同一事件,精选展示《xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)》
推荐理由:Grok Imagine 1.5 把视频生成速度砍半,音效同步和项目功能让创作者工作流更顺畅,xAI 在视频方向上站住了脚。
09:03
IT之家(RSS)
64
消息称字节调整 AI 资源分配,重心从豆包这类大众产品转向企业服务

字节跳动调整 AI 资源重心,从面向大众的豆包应用转向企业服务。豆包日收入不足百万元,日算力成本达数千万元。企业级产品 Seedance 年化收入达 20 亿美元(约 135.4 亿元),单月超 10 亿元,几乎抵消豆包算力成本,收入主要来自企业客户。6 月 15 日字节上线 Seedance 2.0 Mini 视频生成模型,主打高性价比。

行业动态视频
08:27
宝玉@dotey
精选75
baoyu-design 本地动画视频导出功能更新

baoyu-design(本地运行 Claude Design 的 Skill)新增动画视频导出功能。其声明式动画引擎基于 f(t) 设计:任意时间点 t 可绝对确定画面状态。导出采用无头 Chromium 逐帧截图 + ffmpeg 编码,每帧等待两帧 requestAnimationFrame 确保渲染完成。截图以 2 倍 DPR(3840×2160)再缩回 1080p,保证细节清晰。95 秒 30fps 动画需 2850 次截图循环,帧帧精确。项目已开源(MIT),获 1.2K star。此前 baoyu-design 已支持 PPT 本地生成和导出可编辑 PPTX。

宝玉: baoyu-design skill(让你本地运行 Claude Design 的 Skill)更新,本地生成 PPT 的效果,可以借助 Cursor、Codex 内置的浏览器预览 PPT,也可以直接用它们的标记工具修改 PPT 细节。按 ...

GitHub多模态开源/仓库视频

推荐理由:宝玉把 Claude Design 动画导出能力做成了本地 skill,原理讲得很透,声明式引擎加 f(t) 直接抽帧的思路让开发者能零成本复现,想要高质量 AI 动画输出的创作者可以立即用起来。
08:00
HuggingFace Daily Papers(社区热门论文)
48
TurboServe:高效经济地服务流式视频生成

流式视频生成需在用户会话中逐块渐进生成视频,面临会话持续时间异质性和用户需求时间异质性两大挑战。TurboServe是首个专为此设计的服务系统,将服务形式化为在线调度问题,联合协调会话放置与GPU资源调配。其闭环调度算法包含迁移感知放置控制器(跨GPU重平衡会话以降低每块最大延迟)和负载驱动自动缩放控制器(根据工作负载调整GPU预算)。运行时通过合并块处理、GPU-CPU卸载和NCCL迁移实现决策。在生数科技生产轨迹上,最多64块NVIDIA B300 GPU的评估显示,相比基线,最坏情况每块延迟降低37.5%,总GPU运营成本平均降低37.2%。

视频论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
48
LooseControlVideo:利用空间阻挡实现导演级视频控制

LooseControlVideo通过稀疏定向3D盒子作为“阻挡”代理,使用户能创作高层级布局和轨迹,同时由视频生成模型生成真实的遮挡、动态与交互。该方法微调Wan 2.2骨干网络,并采用DNOCS编码处理3D尺寸、方向和深度顺序遮挡。在nuScenes、HO-3D和BEHAVE基准测试中,轨迹误差提升1.2倍到3倍,刚性运动一致性提升2倍,遮挡准确率提升1.5倍到2倍,显著优于现有2D盒子和流基线方法。

多模态视频论文/研究
04:35
Rohan Paul@rohanpaul_ai
65
Catnip推出MaineCoon:22B实时音频-视觉流式基础模型

Catnip推出MaineCoon,一个22B参数的实时音频-视觉基础模型,能将文本提示词转化为带同步语音、动作和表情的实时角色流,支持无限时长交互。作为首个流式原生模型,MaineCoon实现亚秒级首帧,单张H100上达47.5FPS,单张RTX Pro 6000上达30FPS,内部测试吞吐量比同类音频-视觉系统快约7倍。与被动视频生成不同,它能因果性地实时响应,记住自身不完美的过去,并保持角色身份、声音和节奏的连贯一致,让AI从轮次式应答变为“与你同在”的实时存在。

Catnip: 🥇MaineCoon: From Passive Video to Real-Time AI Presence The first unlimited-duration interactive audio-visual model. Mo...

多模态模型发布视频语音
00:17
Luma@LumaLabsAI
20
PJaccetturo 展示了如何通过 XPRIZE 竞赛赢得 250 万美元来资助自己的梦想电影。他最初为 XPRIZE 制作了这部预告片,最终促使电影《Nexus》获得资金。他还分享了整套策略,供他人复制,通过 XPRIZE 为乐观科幻电影获得拍摄许可。Luma AI 对此表示赞叹。

PJ Ace: Let me show you how you can win $2.5M to fund your dream film. I originally made this trailer for the XPRIZE competition...

其他行业动态视频
‹ 上一页
1…45678…28
下一页 ›