AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「视频」清除
6月10日周三
18:28IT之家(RSS)64字节火山引擎版权商业化平台上线,周星驰经典IP首批入驻
16:56HuggingFace Daily Papers(社区热门论文)70精选快手开源 Kwai Keye-VL-2.0-30B-A3B:面向长视频理解与智能体智能的 MoE 多模态模型
13:56HuggingFace Daily Papers(社区热门论文)64Lip Forcing:用于实时唇同步的少步自回归扩散方法
12:56HuggingFace Daily Papers(社区热门论文)67WorldOlympiad:视频世界模型三项全能评测基准
12:56HuggingFace Daily Papers(社区热门论文)73精选Flow-DPPO: 面向流匹配模型的散度近端策略优化
12:40公众号:火山引擎68精选火山方舟版权商业化平台上线,周星驰比高集团三大电影IP首批入驻
11:46PixVerse38PixVerse转发用户幽默AI角色反转视频
10:56HuggingFace Daily Papers(社区热门论文)60SCAIL-2:端到端上下文条件控制的角色动画统一框架
10:43向阳乔木55Vista 开源免费口播提词器,用 Codex 开发 5 小时
09:20Alibaba Cloud59阿里云AI Showrunner Arena邀请赛,用视频模型自动化短剧制作
02:23🚨 AI News | TestingCatalog71Creatify Agent Wave 2:从广告制作到全自动跨平台发布
02:07Chubby♨️66HyperFrames 成为 Claude 连接器,视频生成零门槛
00:59Luma78精选Luma AI Ray3.2 API:电影级渲染可集成
00:46AK66视频世界模型的潜在空间记忆
6月9日周二
22:59Luma74Luma AI Ray3.2:方向进,电影出
22:42Runway63Runway视频轻松转宽高比
19:30公众号:可灵AI(快手·视频)55可灵AI×候鸟300发起AI主义新浪潮AIGC影像大赛
15:55HuggingFace Daily Papers(社区热门论文)69SwiftVR:实时一步生成式视频恢复
11:55HuggingFace Daily Papers(社区热门论文)60Echo-Memory:动作世界模型中记忆机制的控制研究
11:39小互51Codex/Claude Code 实现自动视频剪切
10:55HuggingFace Daily Papers(社区热门论文)59潜在空间记忆框架Mirage用于视频世界模型
08:21IT之家(RSS)52停车可观影,苹果 iOS 27 为 CarPlay 带来视频播放功能
08:03Berryxia.AI74Kimi Code升级:一行安装+视频上下文+插件系统
04:58ViggleAI66精选Viggle API 上线:任意角色任意动作秒级生成
04:16Artificial Analysis68xAI发布grok-imagine-video-1.5-preview,在AI视频生成评测中位列第二
00:08Runway79同事件精选Runway Aleph 2.0 编辑模型:一键适配任意视频格式同一事件,精选展示《Aleph 2.0 与 Edit Studio》
6月8日周一
21:36小互79精选小互开源视频翻译工具:一句话自动下载、转写、翻译、烧字幕
21:27AYi24用户自建本地视频剪辑工具生成吉卜力风格口播视频
17:32公众号:生数科技(Vidu·视频)65精选生数科技与华策影视达成战略合作,共建AI视听创制中心
17:30公众号:生数科技(Vidu·视频)42生数科技与华策影视达成战略合作,共建AI视听创制中心
16:08PixVerse65PixVerse Creative Partner Program 2.0 上线
13:34Deedy70AI电影《Hell Grind》制作分析:50万美元成本、14天完成,但质量平庸
09:08Rohan Paul55黄仁勋首尔分发HBM零食袋并调侃
08:00HuggingFace Daily Papers(社区热门论文)48MBench:面向视频世界模型记忆能力的综合基准测试
08:00HuggingFace Daily Papers(社区热门论文)61MilliVid: 用于视频生成长程一致性的层级潜变量
6月7日周日
20:04PixVerse42PixVerse原创剧《火星登陆》第一季发布
20:04The Verge:AI(RSS)64AI"内容创作者"越来越难被识别
14:26AYi49《丧尸清道夫》爆火与AI视频三阶段演进
12:30向阳乔木50ChatGPT与Codex辅助大疆Pocket3运镜学习
08:00HuggingFace Daily Papers(社区热门论文)61OmniCap-IF:全能视频描述的指令遵循基准与模型改进
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月10日
18:28
IT之家(RSS)
64
字节火山引擎版权商业化平台上线,周星驰经典IP首批入驻

字节跳动火山引擎今日推出火山方舟版权商业化平台,与周星驰旗下比高集团达成合作,获得《喜剧之王》《食神》《长江七号》三部影片在AI视频创作场景下的版权使用权,并打造经典桥段AI创作模板。模板已在火山方舟体验中心、Kickart上线,同步开放给LibTV、筷子科技丽帧引擎等工具合作伙伴。个人用户可上传素材完成二次创作,企业客户可在授权范围内调用IP进行品牌营销。抖音、即梦等平台后续将上线相关功能。

产品更新视频
16:56
HuggingFace Daily Papers(社区热门论文)
精选70
快手开源 Kwai Keye-VL-2.0-30B-A3B:面向长视频理解与智能体智能的 MoE 多模态模型

快手开源 Kwai Keye-VL-2.0-30B-A3B,一个 MoE 多模态基础模型,激活仅 3B 参数,专为长视频理解和智能体智能设计。模型首次将 DeepSeek Sparse Attention (DSA) 适配到 GQA 多模态架构,实现无损 256K 上下文处理,并通过可扩展视频 I/O、异构 ViT-LM 并行及自定义 DSA 内核优化吞吐与计算开销。引入跨模态多教师在策略蒸馏(MOPD)结合 Context-RL 和 Video-RL,缓解多任务对齐中的灾难性遗忘,原生支持代码、工具、搜索场景下的多智能体协作与多模态自纠正。在 TimeLens、Video-MME-v2、LongVideoBench 等多个基准上达到同类规模 SOTA,模型权重已开源。

智能体多模态视频论文/研究

推荐理由:Keye-VL-2.0 把长视频理解推到 256K 上下文,还用了 DeepSeek 的稀疏注意力,这是目前我能找到的对长短视频最兼顾的多模态模型,做视频 agent 的该看看。
13:56
HuggingFace Daily Papers(社区热门论文)
64
Lip Forcing:用于实时唇同步的少步自回归扩散方法

Lip Forcing提出了自回归扩散方法用于视频到视频唇同步,从14B参数的音频条件双向视频扩散教师模型蒸馏出因果学生模型。推理时每个块仅需两步去噪,无需CFG,实现实时流式处理。技术分析揭示CFG的保真度-同步权衡,进而衍生出Sync-Window DMD、两步推理调度和基于SyncNet的奖励三项组件。1.3B学生模型在31 FPS下实时输出,比同规模双向模型快17.6倍;14B学生模型是目前最大的V2V唇同步扩散模型,比教师快39.8倍,保真度接近。首帧时延均小于1毫秒。

多模态视频论文/研究
12:56
HuggingFace Daily Papers(社区热门论文)
67
WorldOlympiad:视频世界模型三项全能评测基准

WorldOlympiad 将视频世界模型评估分解为物理、几何和交互三个维度。物理轨道用物体分割和 MLLM-as-judge 检验视频对力学、热现象、材料属性等规则的遵循;几何轨道以高斯泼溅重建评估结构一致性、跨视角连贯性与相机轨迹对齐;交互轨道评测模型能否按复杂动作提示生成连贯长程视频。基准覆盖游戏、机器人和通用真实视频三大场景。实验表明,当前最先进模型在物理推理、3D 一致性和长程交互上存在显著差距。

arXiv具身智能多模态视频
12:56
HuggingFace Daily Papers(社区热门论文)
精选73
Flow-DPPO: 面向流匹配模型的散度近端策略优化

针对流匹配模型中在线强化学习比率裁剪策略约束不当的问题,Flow-DPPO 提出用散度近端约束替代。关键洞察是流模型每步策略为高斯分布,可精确计算新旧策略间的 KL 散度。Flow-DPPO 采用非对称散度掩码,仅在梯度更新偏离信任区域且超阈值时阻止更新。实验表明,Flow-DPPO 获得更高奖励,KL 近端效率更优,缓解了灾难性遗忘,促进多目标均衡,并能在比率裁剪失效时支持稳定的多轮训练。代码已开源。

图像生成推理视频论文/研究

推荐理由:用 KL 散度代替比值裁剪来解决流匹配 RL 训练的不稳定,理论简洁,代码已开源,做图像/视频生成优化的同学可以跑一下。
12:40
公众号:火山引擎
精选68
火山方舟版权商业化平台上线,周星驰比高集团三大电影IP首批入驻

火山引擎今日上线火山方舟版权商业化平台,推出行业首个覆盖“授权—保护—审核—分发—变现”全链路的版权合作机制。平台搭载视频生成模型Seedance 2.0及版权治理体系,已获周星驰旗下比高集团《喜剧之王》《食神》《长江七号》三部影片在AI视频创作场景下的版权使用权,并基于Seedance 2.0打造经典桥段AI创作模板。模板已在火山方舟体验中心、火山引擎Kickart上线,同步开放给LibTV、筷子科技丽帧引擎等工具合作伙伴。平台面向UGC和商业广告场景提供分润制、项目制等变现路径,未来还将提供版权管理后台,实现授权可见、使用可查、收入透明。

产品更新视频

推荐理由:这是AI视频领域第一次有平台把版权授权、审核、变现全链路跑通,而且首批入驻的是周星驰的《喜剧之王》《食神》这种真金IP,做AI视频的人终于不用在侵权边缘试探了。
11:46
PixVerse@PixVerse_
38
一则巧妙的角色反转短片,凸显了AI视频的创意力量。幽默、视觉锐利、执行完美。干得漂亮 @ai_am_furufuru !

ふるふるの大冒険/Furufuru's Epic Adventure: 「The Fish Strikes Back/魚の逆襲」 #seedance #pixversecpp @PixVerse_

其他多模态视频
10:56
HuggingFace Daily Papers(社区热门论文)
60
SCAIL-2:端到端上下文条件控制的角色动画统一框架

SCAIL-2 提出绕过姿态骨架等中间表示的端到端角色动画框架,通过直接拼接驱动视频获取全部视觉信息。为解决端到端数据匮乏,用解耦条件统一子任务,构建异构运动迁移数据集 MotionPair-60K。采用上下文掩码条件与模式特定 RoPE 作为软引导,并引入 Bias-Aware DPO 构建偏好对以缓解合成数据在细节区域的误差。实验表明,该方法在多个任务中显著优于现有 SOTA。部分合成数据与模型权重将开源。

图像生成视频论文/研究
10:43
向阳乔木@vista8
55
Vista 开源免费口播提词器,用 Codex 开发 5 小时

Vista 分享其通宵开发的免费开源口播提词器,项目基于 Codex 开发,运行约 5 小时。他评价该工具比多数收费提词器好用,目前配合大疆 Pocket3 录制口播,暂未加入手机录制功能。项目已开源,欢迎 Star 或 Fork 二改,地址见评论区。

开源/仓库开源生态视频
09:20
Alibaba Cloud@alibaba_cloud
59
想要构建一个能运行整条短剧制作管线的AI智能体?🎬 欢迎来到AI Showrunner Arena!使用前沿视频模型(Wan / HappyHorse)来自动化脚本编写、分镜和剪辑,赢取总计超过70,000美元的奖金池。 🔗 立即注册:https://click.qwencloud.com/m/20000000281/
智能体行业动态视频
02:23
🚨 AI News | TestingCatalog@testingcatalog
71
Creatify Agent 升级至 Wave 2。AI 智能体现在可通过单次对话完成品牌研究、广告导演,并直接连接 Meta、TikTok 和 Google 三大平台,按指定日期自动发布广告。智能体主导整个流程,仅在策略、脚本、选角等关键节点让营销人员介入。引用推文强调:智能体没有被更新,而是被升职了。

Creatify AI: Creatify Agent, Wave 2. You watched it make the ad. Now watch it run the whole campaign. It learns your brand. Directs a...

智能体产品更新视频
02:07
Chubby♨️@kimmonismus
66
HyperFrames 引擎已脱离终端,正式成为 Claude 官方连接器(MCP),与 Anthropic 合作实现:用户像索要报告一样直接请求视频,无需代码仓库或本地配置。这使非开发者也能真正使用 AI 视频生成--文档常被略读,而视频更易理解。

HeyGen: Hyperframes is now an official @claudeai connector LLM answers are often dense pages of text that go unread we partnered...

AnthropicMCP/工具产品更新视频
00:59
Luma@LumaLabsAI
精选78
Ray3.2 API 可大规模运行电影级渲染,并集成到您正在构建的产品中。专为在交付的产品中打造电影感的开发者、代理机构和企业而设计。 开始构建 → http://lumalabs.ai/api
产品更新视频

推荐理由:Luma把Ray3.2的电影级视频生成做成API,开发者和产品团队不用自己搞视频模型了,能直接嵌进现有产品,做视频应用的值得试试。
00:46
AK@_akhaliq
66
视频世界模型的潜在空间记忆
arXiv多模态视频论文/研究
6月9日
22:59
Luma@LumaLabsAI
74
方向进入,电影出来。 Ray3.2 来了 → http://lumalabs.ai/ray3-2
模型发布视频
22:42
Runway@runwayml
63
轻松将视频重新格式化为不同宽高比,让你在每一个重要平台都能展示。 点击下方链接开始。
产品更新视频
19:30
公众号:可灵AI(快手·视频)
55
可灵AI×候鸟300发起AI主义新浪潮AIGC影像大赛

可灵AI与候鸟300联合发起AIGC影像大赛。线下大赛6月16-26日在阿那亚海边举办,评审包括李少红、陈明昊、焦雄屏等影视与AI专家及美院教授,设10万奖金+超200万灵感值,结果6月27日晚揭晓。线上大赛6月22日前投稿可角逐“最受关注大奖”,获奖者受邀参加6月27日颁奖。参赛要求:视频≥50%由可灵AI生成,官网投稿填表并带话题分享。

图像生成行业动态视频
15:55
HuggingFace Daily Papers(社区热门论文)
69
SwiftVR:实时一步生成式视频恢复

SwiftVR 提出流式一步生成式视频恢复框架,采用无掩码移位窗口自注意力和轻量级恢复感知自编码器,消除二次空间注意力与大型视频自编码器的延迟及内存瓶颈。模型仅用标准密集 SDPA 调用,无需重训练或自定义内核即可部署至消费级 GPU。在单张 H100 上,2560×1440 分辨率达 31 FPS,3840×2160 达 14 FPS,而扩散 VR 基线在 4K 已超出内存。在 RTX 5090 上,1080p 达 26 FPS,为首个实现消费级 GPU 实时 1080p 流媒体的生成式视频恢复模型。

推理视频论文/研究
11:55
HuggingFace Daily Papers(社区热门论文)
60
Echo-Memory:动作世界模型中记忆机制的控制研究

Echo-Memory固定视频扩散骨干、优化器、相机动作表示、采样器和评估流水线,比较原始上下文、压缩记忆、空间摘要(不同读取路径)和状态空间循环四种记忆设计。三分支评估(回放质量、域内循环重访、开放域返回)显示排序常不一致,回放保真度不足以代理世界记忆。发现:原始上下文提升开放域返回远超回放指标;紧凑无法替代容量,激进空间与混合压缩丢失关键证据;块状态空间循环在开放域返回中最强,隐式记忆结构与使用同等重要。

具身智能视频论文/研究
11:39
小互@xiaohu
51
Codex/Claude Code 实现自动视频剪切

安装一系列工具后,可让 Codex 或 Claude Code 自动剪切视频。例如,让 AI 翻译 WWDC2026 视频,并根据视频内容自动分析、精准裁切成多个独立片段,实现自动化视频处理。

小互: http://x.com/i/article/2063968924019163136

教程/实践视频
10:55
HuggingFace Daily Papers(社区热门论文)
59
潜在空间记忆框架Mirage用于视频世界模型

Mirage提出一种潜在空间记忆框架,用于视频世界模型的3D一致性生成。它通过深度引导反投影将潜在token提升至3D,形成持久缓存,并利用直接潜在空间扭曲合成新视图,避免了像素空间重建的信息损失和重复编码渲染的计算开销。相比显式3D基线,Mirage实现端到端视频生成加速10.57倍、内存占用减少55倍。在WorldScore上达到当前最优性能,在RealEstate10K上展现强重建质量。

多模态视频论文/研究
08:21
IT之家(RSS)
52
停车可观影,苹果 iOS 27 为 CarPlay 带来视频播放功能

苹果在 2026 年 WWDC 公布 CarPlay 视频播放功能,仅限适配新款车辆,驻车时通过 AirPlay 投屏观看。iOS 27 允许开发者打造带视频浏览的 CarPlay 应用。AI 版 Siri 将登陆 CarPlay,需 iPhone 15 Pro 及后续机型。四项新优化包括:正在播放界面支持音频进度拖动、GPS 定位与导航准度提升、应用内新增音频迷你播放窗口、无线 CarPlay 连接稳定性改进。所有功能需升级至 iOS 27,开发者测试版今日上线,公开测试版 7 月推送,正式版 9 月面向所有适配机型。

产品更新视频语音
08:03
Berryxia.AI@berryxia
74
Kimi Code升级:一行安装+视频上下文+插件系统

Kimi Code 开源 coding agent 迎来重大升级:一行 CLI 命令安装、零配置、秒启动;支持拖拽视频作为编码上下文,可参考视频生成 .cube LUT 文件或把屏幕录像转成可运行代码;插件系统上线,可一键拉取股票、财报、学术论文;支持 ACP 协议,对接 JetBrains、Zed,并提供自定义 hooks 扩展工作流。配合 Kimi K2.6 模型使用,视频推理能力大幅增强。

Kimi Developers: Kimi Code, our open-source coding agent, just got a major upgrade! 🔹One-line CLI install, zero setup, fast startup 🔹Dr...

智能体GitHub产品更新编码
04:58
ViggleAI@ViggleAI
精选66
推出 Viggle API。 给任意角色添加任意动作,一次 API 调用--数秒内即可激活。 可接入 Claude、Codex 或你正在构建的任何智能体。起价 $0.01/秒。 注册即获 100 次免费额度。 转发 + 关注 + 评论,10 位中奖者再获 100 次! 了解更多👇
智能体产品更新视频

推荐理由:给角色加动作的API降到$0.01/秒,还能直接接进Claude和Codex,做视频Agent的开发者可以试试。但纯API发布,普通用户不用激动。
04:16
Artificial Analysis@ArtificialAnlys
68
xAI发布grok-imagine-video-1.5-preview,在AI视频生成评测中位列第二

xAI推出视频生成模型grok-imagine-video-1.5-preview,目前在Artificial Analysis Video Arena的Image to Video (With Audio)排行榜中排名第二,仅次于字节跳动Seedance 2.0。该模型支持图像转视频并原生生成音频,最长可生成15秒视频。在无音频排行榜中位列第三,紧随Seedance 2.0和自家的grok-imagine-video。模型定价为每分钟视频$8.40,现已通过xAI API提供,并将逐步在Grok app和X上线。

xAI模型发布视频评测/基准
00:08
Runway@runwayml
同事件精选79
一个视频,现在可以为每个信息流和格式制作。上传你现有的视频,选择你想要的宽高比,然后观看我们的编辑模型 Aleph 2.0,填充场景的其余部分,就像你从一开始就这样制作一样。 在我们的桌面 Web 应用上尝试,链接如下。
产品更新图像生成视频
同一事件,精选展示《Aleph 2.0 与 Edit Studio》
推荐理由:Runway 把视频重构图做成了上传即填充,Aleph 2.0 自动补全不同比例画面,对同时做横竖版内容的人太实用,省掉重新拍摄或手动裁剪的功夫。
6月8日
21:36
小互@xiaohu
精选79
小互开源视频翻译工具:一句话自动下载、转写、翻译、烧字幕

小互(@xiaohu)开源视频翻译工具(xiaohu-video-translate),只需说一句“把链接翻译成中文字幕视频”即可全自动完成下载、Whisper本地转写、AI翻译润色、烧字幕、出文稿。转写本地运行,不花API费。支持YouTube、Bilibili、抖音等链接及本地文件,英语、日语、韩语、法语、西班牙语等均可转成中文字幕。字幕精确到词级时间戳,按语义断句,每行不超过12字,双语模式下中文大英文小。提供纯中文与中英双语模式。工具由三个子技能组成,可单独或串联使用,适配Claude Code、Codex、OpenClaw等AI编程工具。已开源,附安装指南。

GitHub开源/仓库视频语音

推荐理由:小互把自己用了半年的视频翻译工具开源了,本地Whisper转写加AI润色,下载、翻译、烧字幕一句话搞定,做海外视频搬运或想省时间的,装一下就能省掉大半天手工。
21:27
AYi@AYi_AInotes
24
用户自建本地视频剪辑工具生成吉卜力风格口播视频

剪映翻译效果不佳,作者尝试自建了一个本地视频剪辑应用,主要功能为视频翻译和字幕。近日测试了根据文档自动生成口播视频的功能,并输出了一段吉卜力动漫风格的视频。作者表示后续将迭代增加动画效果,可用于微信视频号内容创作。

教程/实践编码视频
17:32
公众号:生数科技(Vidu·视频)
精选65
生数科技与华策影视达成战略合作,共建AI视听创制中心

6月7日,生数科技与华策影视签署战略合作协议,共同推动AI与影视产业融合。双方将以华策影视科技产教示范区为载体、生数科技Vidu视频生成大模型为技术底座,设立“AI视听创制中心”,探索AI虚拟制作与实拍结合。同时在浙江华策影视学校设立“华策&生数AI影视创制专业”,课程覆盖传统编导剪与AI视频制作技术。内容生产层面推广“实拍+AI”融合方案并优先在华策项目中试点,创作者生态层面引导Vidu社区超级创作者到产教基地注册。

行业动态视频

推荐理由:AI 视频不再只是跑 demo,Vidu 和华策的合作把生成模型拉进了真实生产流程,做影视的人该开始关注落地速度了。
17:30
公众号:生数科技(Vidu·视频)
42
生数科技与华策影视达成战略合作,共建AI视听创制中心

6月7日,生数科技与华策影视签署战略合作协议,共建“AI视听创制中心”,以Vidu视频生成大模型为技术底座,探索AI虚拟制作与实拍结合,生产高品质视听内容。合作包括在浙江华策影视学校设立“华策&生数AI影视创制专业”,课程覆盖传统编导剪与AI视频制作;推广“实拍+AI”融合方案并在华策项目中优先试点;引导Vidu社区超级创作者入驻产教基地,衔接产业政策与影视生产订单。

行业动态视频
16:08
PixVerse@PixVerse_
65
PixVerse 宣布 Creative Partner Program (CPP) 2.0 正式上线,面向 AI 视频创作者。该计划围绕真实创作:发布、测试、教学、故事片及公开推广新想法。核心福利包括:合格帖子每周最高可获得 150,000 credits;每周 $2,500 现金奖池,单个创作者单周最高 $850;对大项目、教程、测试内容和电影节投稿提供特别支持。参与者还可获得更多曝光、项目机会及与 PixVerse 共创的可能。申请可通过官网进行。

Stephen Cadigan: PixVerse. I met the leadership of the company face-to-face in Berlin this February. More on that some other time. I've b...

产品更新视频
13:34
Deedy@deedydas
70
AI电影《Hell Grind》制作分析:50万美元成本、14天完成,但质量平庸

95分钟AI电影《Hell Grind》由15人14天完成,成本50万美元(80%为算力)。相比中位数美国电影(约200人2年、1800万美元),实现660倍人时、50倍时间、36倍成本改善。影片从约100小时AI生成素材(使用字节跳动Seedance等模型)中按64:1比率剪辑。质量方面,角色一致性、摄像机角度和写实感基本解决,但剪辑过多、角色口音多变、AI合成声音明显,动作和编排生硬——整体平庸,主因是导演选择而非模型限制。作者认为这是AI电影最差、最慢、最贵的时刻,未来创作者将直接投放YouTube。

图像生成大佬观点视频
09:08
Rohan Paul@rohanpaul_ai
55
在首尔,Nvidia CEO 黄仁勋向人群分发 SK Hynix x 7-Eleven HBM 芯片零食袋。 他调侃道:"没有 HBM 给你,因为我需要所有 HBM"

Rohan Paul: When you're Jensen Huang. He threw the ceremonial first pitch in Seoul at a Korean pro baseball game today.

行业动态视频
08:00
HuggingFace Daily Papers(社区热门论文)
48
MBench:面向视频世界模型记忆能力的综合基准测试

现有视频世界模型基准主要关注视觉质量、运动连贯性和文本-视频对齐,忽略了作为世界模型核心能力的长期记忆。MBench将记忆能力系统分解为实体一致性、环境一致性和因果一致性三个层级维度,并细化为12个可量化子维度。基于精心挑选的真实长视频,结合规则量化矩阵和视觉语言模型进行客观评估。对多个主流视频世界模型的评测揭示了现有方法在长期状态保持方面的系统性局限,为领域提供了标准化基准和明确研究方向。

多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
MilliVid: 用于视频生成长程一致性的层级潜变量

视频生成模型长程一致性因Transformer序列长度过大而困难。MilliVid提出多尺度token空间的粗到细生成:预训练自编码器将每帧压缩为层级token(从典型潜变量分辨率到每帧几个token),最粗层捕获场景布局与语义,细层添加高频外观纹理;再训练视频扩散模型,每步生成精细控制细节等级与上下文,在几何与物体持久性上保持长程一致性,同时减少不必要细节计算开销。在长Minecraft视频数据集上,该方法生成视频显著更一致。

视频论文/研究
6月7日
20:04
PixVerse@PixVerse_
42
欢迎来到火星登陆。 人类首个地球外度假社区。 没有返程飞船。永远不会有。 PixVerse Originals S1。 @aivideoschool 的 Mike Vogel 在 PixVerse 中打造了这部群像科幻暗黑喜剧。 转发+关注+回复 "Originals" = 150 Creds 及完整影片私信(仅72小时)
产品更新视频
20:04
The Verge:AI(RSS)
64
AI"内容创作者"越来越难被识别

AI虚拟影响者最初较为容易识别——Lil Miquela、Imma、Shudu Gram等早期虚拟形象明显是数字制作。如今,AI生成的内容创作者与真人之间的界限日益模糊,用户越来越难以分辨。

图像生成多模态现象/趋势视频
14:26
AYi@AYi_AInotes
49
《丧尸清道夫》爆火与AI视频三阶段演进

素人作者刘梓渝的AI视频《丧尸清道夫》爆火,使其进入顶级资源圈。AI视频发展历经三阶段:图生视频(Runway 2023年2月、Sora 2024年2月);首尾帧生视频(Kling 2024年7月、即梦AI 2024年9月);多模态全能参考生视频(可灵率先发布,字节即梦Seedance 2.0于2026年2月12日上线,人物/产品一致性高且自带运镜)。刘梓渝公开创作思路:核心是将导演思维、镜头语言和后期剪辑嵌入AI工作流,而非依赖抽卡运气。

AYi: 全网爆火的《丧尸清道夫》作者刘梓渝公开了自己的视频创作思路,内容非常干,值得所有AI短视频创作者逐帧学习! 先说结论,跟抽卡运气没太大关系, 核心是把自己的导演思维、镜头语言和后期剪辑, 完整嵌进了AI工作流。 具体视频内容和我做的总结:⬇...

多模态教程/实践视频
12:30
向阳乔木@vista8
50
买了大疆 Pocket3 为了给家人录vlog,自己录钓鱼视频,学习下运镜技巧。 除了看抖音教程,然后让 ChatGPT 5.5 Pro调研,然后Codex生成PPT快速学习。
OpenAI教程/实践视频
08:00
HuggingFace Daily Papers(社区热门论文)
61
OmniCap-IF:全能视频描述的指令遵循基准与模型改进

OmniCap-IF 是首个针对全能模态大语言模型(OLLMs)视频描述指令遵循能力的基准,涵盖纯视觉、纯音频和视听三种模态下的 50 种约束类型,并引入时间定位评估时空精确性。在 1920 个高质量样本上的评测显示模型间存在显著性能差距,并发现“格式-内容权衡”——格式复杂度增加会损害模型的全能模态推理能力。研究团队还构建了 54K 指令微调数据集 OmniCap-IF-54K,并发布 OmniCaptioner-IF 模型,在复杂指令遵循与通用全能模态描述性能上均取得明显提升。

arXiv多模态数据/训练视频
‹ 上一页
1…7891011…28
下一页 ›