6月23日

20:24

The Decoder：AI News（RSS）

字节跳动在火山引擎FORCE大会上发布五款新AI模型。核心产品Seedance 2.5可生成单次30秒视频片段（无需后期拼接），支持场景变化与节奏切换，并同时处理多达50个额外输入（参考图、音频等），后期编辑可保持原有视觉风格。Seedance 2.0升级原生4K与10bit色深。其他模型包括Doubao 2.1 Pro语言模型、Seedream 5.0 Pro图像模型和Seed-Audio 1.0音频模型。据称Doubao 2.1 Pro价格比Claude Opus 4.6低约80%。Seedance 2.5将于7月初上线。

多模态模型发布视频

15:07

IT之家（RSS）

KTV频现AI魔改MV：画面与歌曲毫不相干，消费者可投诉

中央广播电视总台中国之声报道，近期多地消费者反映KTV中原版MV被AI生成视频替换，画面与歌曲意境完全不符，例如温婉情歌高潮处出现大猩猩持枪扫射。KTV工作人员称，多数因MV无版权或歌曲本身无MV，曲库服务方打包设备时替换为AI生成内容，商家无法控制。律师指出，该做法不能规避MV版权费，反可能侵犯放映权及保护作品完整权，额外收取版权费也不合规。消费者可向消费者权益保护单位及KTV运营主管部门投诉。

现象/趋势视频

08:07

IT之家（RSS）

谷歌 DeepMind 向独立制片公司 A24 注资 7500 万美元，共同研发影视 AI 工具

6 月 23 日，谷歌 DeepMind 宣布向独立电影制片公司 A24 注资 7500 万美元（约合 5.09 亿元人民币），双方将联合研发影视制作人工智能工具。DeepMind 称此为“业内首创”合作模式，将吸纳顶尖创作者的专业指导。A24 曾出品《瞬息全宇宙》等影片，近期与提莫西·查拉梅、安妮·海瑟薇等艺人合作。DeepMind 联合创始人德米斯·哈萨比斯表示，与创作者直接协作是开发赋能工具的最佳途径。

DeepMind 行业动态视频

08:00

HuggingFace Daily Papers（社区热门论文）

Wan-Streamer v0.1：端到端实时交互基础模型

Wan-Streamer v0.1 是原生流式、端到端的交互基础模型，在单一 Transformer 中统一建模语言、音频和视频的输入与输出，序列表示为交错视觉、音频、文本 token，通过块因果注意力实现增量流式。无需外部 VAD、ASR、TTS、视频生成等模块，感知、推理、生成、响应时序等由单一模型联合学习。整套栈围绕流式化重新设计，支持 25 fps 下 160 ms 的流式单元。模型侧响应延迟约 200 ms，结合 350 ms 双向网络延迟后总交互延迟约 550 ms，实现亚秒级全双工音视频通信。

多模态模型发布视频语音

07:18

Runway：News（网页）

精选59

Aleph 2.0 现已集成到 Figma Weave

Aleph 2.0 是 Runway 的旗舰视频编辑模型，现已在 Figma Weave 中上线。它是一个基于上下文的视频编辑模型，通过关键帧工作：从视频中提取一帧，重新设计风格并附上时间戳连接回 Aleph 2.0 节点，即可将该编辑传递到主体出现的每一帧，同时保持其他内容不变。支持最长 30 秒、1080p 的片段，可跨多镜头序列应用编辑，无需逐镜头处理。

产品更新视频

推荐理由：Runway 把旗舰视频编辑模型直接接入了 Figma 的创意画布，对设计师和视频团队来说，这意味着帧级编辑不用切换工具，协作流程可能大幅简化。

03:05

TechCrunch：AI（RSS）

精选70

Google DeepMind 7500 万美元投资 A24，合作开发电影 AI 工具

Google DeepMind 宣布向独立电影制片厂 A24 投资 7500 万美元（据《华尔街日报》），双方将合作开发电影制作 AI 工具。A24 出品过《万事俱备》《后室》等影片。Google DeepMind CEO Demis Hassabis 称，希望通过与艺术家直接合作，打造支持创意表达的 AI 功能。此举是好莱坞最新一次科技公司与电影 AI 联手，此前 Netflix 已收购 Ben Affleck 的 AI 工具公司 Interpositive，亚马逊 MGM 工作室也在去年设立了影视 AI 部门。

DeepMind 行业动态视频

推荐理由：Google DeepMind 首次在影视内容创作上投入 7500 万美元，与 A24 合作开发 AI 工具，这标志着顶尖 AI 实验室开始直接渗透好莱坞核心创意流程，做文娱 AI 工具的人和关注产业交叉点的人应该留意。

6月22日

23:13

The Decoder：AI News（RSS）

Google Deepmind与A24合作开展AI电影制作研究

Google Deepmind与电影工作室A24建立长期研究合作伙伴关系，Google同时向A24投资约7500万美元。A24电影制作人将在日常工作中测试并帮助塑造AI工具，作为交换，Google Deepmind获得来自专业从业者的实际反馈。目前尚无具体产品或成果，双方表示将共同探索AI在电影制作中的可用方式。A24曾出品《瞬息全宇宙》及近期作品《Backrooms》。

Google 行业动态视频

22:05

IT之家（RSS）

生数 Vidu Q3 多模态视频大模型上线华为云 MaaS，主打文/图生视频一体化成片

6 月 22 日，生数科技多模态视频生成大模型 Vidu Q3 上线华为云 MaaS，面向企业营销、内容制作等行业提供视频生成服务。Vidu Q3 是全球首个“为剧而生”的视频大模型，支持 16 秒声画同出、1080P 画质，具备稳定多镜头叙事与精准切镜能力及多国语言文字渲染。本次上线两个版本：Vidu Q3 Turbo 极速版包含 T2V、I2V、H2V、R2V 四种能力，推理快、成本低；Vidu Q3 Pro 专业版包含 T2V、I2V、H2V 三种能力，画面细节最优，最高支持 4K 分辨率，适合广告大片等精品创作。

多模态模型发布视频

19:30

公众号：卡尔的AI沃茨

字节小云雀短剧 Agent 2.0 上线：Seedance 2.0 Mini 模型降价，新增720度场景与3D导演台

字节旗下小云雀短剧 Agent 2.0 上线，核心升级包括 Seedance 2.0 Mini 模型（价格更低）及 720 度场景观看、3D 导演台（可摆放 3D 人偶设定角色位置与机位）等功能。资产库根据剧本生成详细提示语，支持多角色形象切换。单个镜头时长 1-10 秒，生成 15 秒视频约需 4-5 分钟，自带字幕可抹除。用户可用约三百元成本完成一集短剧，支持片段续接和首尾帧参考，最终一键导出到剪映。该工具旨在降低原创短剧制作门槛，尤其适合规则类、多场景反转等题材。

图像生成教程/实践视频

17:05

IT之家（RSS）

同事件精选71

让大模型从"一问一答"走向"边看边说"，京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction

京东官方宣布开源实时视频视觉语言交互模型 JoyAI-VL-Interaction，这是全球首个全栈开源的 interaction 模型和系统，获 vLLM-Omni day-0 原生支持。该模型具备三重突破：主动判断（持续观察视频流自主决定何时说话）、实时响应（面向正在发生的视频流即时响应）、适时智能体委托（复杂任务转交后台模型，前台继续观察）。支持摄像头、直播流、监控流等视频输入，以及语音输入输出、可视化界面、长期记忆和 vLLM 部署。在 58 个真人盲评案例中，对比豆包视频通话助手总体胜率 77.6%，对比 Gemini 视频通话助手总体胜率 87.9%。

多模态模型发布视频

同一事件，精选展示《京东全栈开源JoyAI-VL-Interaction，从"一问一答"走向"边看边说"》

推荐理由：京东开源了首个全栈实时视频交互模型，让大模型能持续观察并主动响应，开发者可以直接用代码搭建安防、导购等实时AI助手，实用性很强。

15:05

IT之家（RSS）

阿里巴巴发布视频生成模型 HappyHorse 1.1

阿里巴巴今日发布视频生成模型 HappyHorse 1.1，在动态表现力、主体一致性、指令遵循、视觉质感和音频能力等维度系统性升级。技术规格与 1.0 版本一致，单次生成 3 到 15 秒，支持 720p 和 1080p 分辨率及自由宽高比。HappyHorse 官网、阿里云百炼和千问云均已接入最新版本。同日，HappyHorse 联合虎鲸文娱集团启动“Horsepower”AI 影像大赛，优胜者可获百万商单合作，张纪中等担任评委。

多模态模型发布视频

09:04

IT之家（RSS）

索尼再谈AI游戏战略：自动化流程解放开发者，打造个性化玩家体验

索尼在2025财年年度报告中专门章节阐述AI对PlayStation平台的作用。索尼正落地各类AI工具，实现重复工作流程自动化，提升品控、动画制作、3D建模等部门效率，让开发人员专注玩法设计与世界观搭建。AI还将用于为玩家打造个性化使用体验，在海量游戏中精准推荐作品。同时索尼持续投入AI与机器学习研发，提升游戏画面精细度。世嘉、卡普空等日本厂商也正落地AI工具，日本游戏行业普遍借助AI加快开发节奏。

行业动态视频

6月19日

10:47

HuggingFace Daily Papers（社区热门论文）

当前世界模型缺乏持久状态核心

世界模型现有基准仅奖励帧保真度、运动控制和摄像机可控性，忽略了无人观察时世界是否持续演化。新诊断基准WRBench将摄像机运动视为对可观测性的干预，通过链式评估：摄像机是否执行请求动作、场景在视野内是否连续可识别、返回目标是否与之前设定事件一致。对23个模型（9600个视频，覆盖四种控制范式）的测试表明，当前系统维持的是跟踪镜头——返回目标停留在被遗弃时的状态，而非不可见期间继续演进。这一失败跨控制范式、模型家族和规模，表明鲁棒的世界状态演化不会随更清晰的图像、更紧的控制、更丰富的几何先验或参数数量自动实现。物理状态核的稳定性和视角干预下的世界线一致性应成为世界模型设计的一等目标。

具身智能视频论文/研究

05:49

TechCrunch：AI（RSS）

Snap 剥离 AI 视频团队成立新公司 Dotmo

Snap 将内部生成式 AI 视频团队剥离为独立公司 Dotmo，专注开发用于互动游戏体验的 AI 模型，原因为内部开展此类工作成本高昂。Dotmo 与 Snap 保持紧密联系：Snap 将授予技术许可用于游戏平台；初始团队由 Snap 现职员组成并离职加入；Snap 首席技术官 Bobby Murphy 以个人身份成为主要投资者，仍全职担任 CTO；作为交换，Snap 将获得 Dotmo 大量股权。这是 Snap 2026 年第二次重大剥离，此前已将智能眼镜业务 Specs 剥离。

行业动态视频

6月18日

21:18

The Verge：AI（RSS）

Adobe 上线重新设计的 Firefly AI 工作室，新增 Elements 与 Projects 功能

Adobe 今日在 private beta 中上线了重新设计的 Firefly AI 工作室，新增“Elements”（可保存已创建的角色、地点和对象并命名复用）和“Projects”（将资产、生成内容与创作上下文集中管理）两项功能。Firefly AI 助手新增品牌套件生成（根据公司名和风格生成 Logo 与色板）、Quick Cut（快速剪辑视频成初稿）、故事板生成以及图片转短视频能力，旨在减少繁琐任务同时保留人工控制权。

产品更新图像生成视频

18:10

公众号：可灵AI（快手·视频）

可灵AI在阿那亚戏剧节候鸟300启动AIGC影像大赛与创作者课堂

可灵AI携手阿那亚戏剧节候鸟300，在阿那亚黄金海岸·候鸟300沙城举办系列活动。6月16日至26日进行300小时AIGC影像限时创作；6月19日至21日开设可灵AI创作者课堂；6月19日设可灵AI主题放映日；6月27日举行AIGC大赛颁奖典礼及可灵AI先锋艺术家签约仪式。活动覆盖AIGC影像大赛、影像放映与创作教学，将AI与艺术实验融入海边场景。

行业动态视频

10:43

HuggingFace Daily Papers（社区热门论文）

Physics-IQ Verified

本文对Physics-IQ基准进行系统审查，指出其缺陷并提出三项改进：优化提示词与真实数据质量以减少混淆因素，引入样本级评分系统使每个样本和指标权重相等。改进后的Physics-IQ Verified基准优化了57.6%的样本和34.8%的提示词。在六种图像到视频生成模型的对比研究中，排名出现中等但有意义的变化（Kendall's τ=0.46）。基准代码已开源。

DeepMind 视频论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

Go-with-the-Track：视频合成与运动控制与点追踪

Go-with-the-Track将精确合成与运动控制统一在单一视频扩散Transformer中，通过联合多个参考图像和参考锚定点追踪实现。模型引入空间感知点追踪嵌入，利用坐标MLP和时序池化编码完整点轨迹序列，再通过轻量适配器注入模型，避免像素与补丁分辨率不匹配及下采样导致的信息损失。混合训练策略在动态、静态及合成视频数据集上联合训练以增强运动可控性。实验表明，该模型能支持多参考条件视频生成、点追踪驱动合成，并对静态与动态场景提供相机控制。

图像生成视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

World Action Models 综述

World Action Models（WAM）是具身预测动作模型，通过重用水视频生成模型或依赖语言/视觉-语言骨干实现未来预测。该综述厘清了WAM与视频生成模型、动作基础视频世界模型、视觉-语言-动作策略等概念的边界，从生成内容（渲染未来、潜在未来、无视频生成的动作推理）和设计维度（预测基质、骨干、动作耦合、部署机制）两个视角组织现有方法。分析表明：WAM并非仅带动作头的视频生成器，其设计在表示丰富性与计算、内存、延迟、动作标签成本之间权衡。领域正朝向生成更少未来但保留控制所需信息的方向发展。

具身智能视频论文/研究

6月17日

21:07

IT之家（RSS）

精选74

阿里云发布HappyOyster 1.0：一句话生成可实时交互的数字世界

6月17日，阿里云发布开放式世界模型HappyOyster 1.0（快乐生蚝）。该产品基于原生多模态架构，支持多模态输入与音视频联合生成，可在生成过程中持续接收用户指令并实时响应画面。它深度学习物理世界状态转移规律，保持人物和环境长程一致性。官网开放“实时导演”与“世界探索”两种玩法：前者可随时叫停改写故事、与虚拟男友实时互动等；后者支持自由漫游、滑板冲刺、翼装滑翔、骑马奔驰、攻击打怪等交互。该产品已于今年4月16日开放内测，即日起至7月17日官网不定期掉落体验积分。

产品更新多模态视频

推荐理由：阿里把世界模型做成了可玩的交互产品，一句话生成能探索能互动的数字世界，实时导演模式直接替代了一部分短剧和互动内容创作，虽然还像噱头但至少是能玩的尝试。

18:41

公众号：卡尔的AI沃茨

视频Agent Seko更新无限画布，自动连接节点生成工作流

视频Agent Seko在最新更新中推出无限画布，并能自动将创意、剧本、角色、场景和分镜等素材节点连接成完整工作流。用户可通过Seedance 2.0全能模式输入一句话或完整剧本，Seko自动生成多集短剧大纲、人物、场景、美术风格及分镜描述，并支持逐段修改提示词和生成视频。画布提供全自动与精细手动编辑的双重控制，解决了AI视频从70分改到85分时反复重做的痛点。实测用该流程三小时完成两集悬疑短剧，角色一致性、故事节奏和画面氛围表现力均超出预期。

智能体教程/实践视频

17:50

公众号：火山引擎

精选63

Kickart 3.0发布，让广告视频创作更精准高效

火山引擎一站式营销创作平台Kickart 3.0（原“创作Agent”）正式上线，升级为对话式视频生成模式，用户可通过多轮对话调整商品图、故事板等，用自然语言生成营销视频。新增“爆款裂变”能力，上传视频链接后自动拆解爆款逻辑并重构至新商品视频，支持抖音电商内容合规与质量预审核。平台开放SaaS、API及Skill等多种交付方式，并已接入Seedance 2.0 mini，助力降低广告营销成本。

产品更新视频

推荐理由：火山引擎为营销人带来的视频生成工具体验不错，对话式调整和爆款裂变能降低创作门槛，但对于关注AI技术进展的读者，这更像一次垂直行业产品迭代，亮点有限。

13:05

IT之家（RSS）

Grok Imagine Video 1.5 模型正式上线：6 秒 720P 视频仅需 25 秒

6 月 17 日，xAI 宣布 Grok Imagine Video 1.5 模型正式在 xAI API 上线。该模型支持静态图一键生成带同步音频的短视频，单次生成同时输出音效、环境音和对话，语音清晰度和口型同步效果提升。运动连贯性增强，减少了肢体扭曲和物体漂浮，更好模拟重量感与动量。Fast 模式下生成一段 6 秒 720p 视频约需 25 秒，较前代 40 秒以上显著提速。开发者可通过上传起始图片、描述运动方式并选择分辨率和时长调用 API。

xAI 模型发布视频

12:05

xAI：News（网页）

同事件精选73

xAI 发布 Grok Imagine Video 1.5

xAI 将 Grok Imagine Video 1.5 从预览转为全面可用，在 Imagine API 上提供 grok-imagine-video-1.5，并在 grok.com/imagine 及 iOS/Android 应用上推出 Video 1.5 Fast 版。相比前代，模型在音频与语音（更清晰、嘴型同步更好）、运动与物理（更连贯、重量感更真实）、生成速度（6 秒 720p 视频约 25 秒，此前超 40 秒）上全面提升。同时逐步推出 Projects、Multiple agents（并行运行多个生成任务）、Search 等新功能，以优化创作流程。

xAI 多模态模型发布视频

同一事件，精选展示《xAI 发布 Grok Imagine 1.5 预览版（图像转视频模型）》

推荐理由：Grok Imagine 1.5 把视频生成速度砍半，音效同步和项目功能让创作者工作流更顺畅，xAI 在视频方向上站住了脚。

09:03

IT之家（RSS）

消息称字节调整 AI 资源分配，重心从豆包这类大众产品转向企业服务

字节跳动调整 AI 资源重心，从面向大众的豆包应用转向企业服务。豆包日收入不足百万元，日算力成本达数千万元。企业级产品 Seedance 年化收入达 20 亿美元（约 135.4 亿元），单月超 10 亿元，几乎抵消豆包算力成本，收入主要来自企业客户。6 月 15 日字节上线 Seedance 2.0 Mini 视频生成模型，主打高性价比。

行业动态视频

08:00

HuggingFace Daily Papers（社区热门论文）

TurboServe：高效经济地服务流式视频生成

流式视频生成需在用户会话中逐块渐进生成视频，面临会话持续时间异质性和用户需求时间异质性两大挑战。TurboServe是首个专为此设计的服务系统，将服务形式化为在线调度问题，联合协调会话放置与GPU资源调配。其闭环调度算法包含迁移感知放置控制器（跨GPU重平衡会话以降低每块最大延迟）和负载驱动自动缩放控制器（根据工作负载调整GPU预算）。运行时通过合并块处理、GPU-CPU卸载和NCCL迁移实现决策。在生数科技生产轨迹上，最多64块NVIDIA B300 GPU的评估显示，相比基线，最坏情况每块延迟降低37.5%，总GPU运营成本平均降低37.2%。

视频论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

LooseControlVideo：利用空间阻挡实现导演级视频控制

LooseControlVideo通过稀疏定向3D盒子作为“阻挡”代理，使用户能创作高层级布局和轨迹，同时由视频生成模型生成真实的遮挡、动态与交互。该方法微调Wan 2.2骨干网络，并采用DNOCS编码处理3D尺寸、方向和深度顺序遮挡。在nuScenes、HO-3D和BEHAVE基准测试中，轨迹误差提升1.2倍到3倍，刚性运动一致性提升2倍，遮挡准确率提升1.5倍到2倍，显著优于现有2D盒子和流基线方法。

多模态视频论文/研究

6月16日

11:27

HuggingFace Daily Papers（社区热门论文）

DreamX-World 1.0：通用交互式世界模型

DreamX-World 1.0 是一款通用交互式文图生视频世界模型，支持可控长序列生成、相机导航、回溯已观测区域及提示事件，覆盖写实、游戏和风格化域。其数据引擎结合虚幻引擎渲染、动作丰富的游戏录制及带恢复相机几何的真实视频。相机控制引入 E-PRoPE（PRoPE 投影位置编码的轻量变体）。通过因果强制、DMD 风格蒸馏和长序列训练，将双向视频生成器转为自回归模型。采用记忆条件场景持久性与残差回收，并加入事件指令微调和强化学习对齐。混合精度 DiT、残差重用、75% 剪枝 VAE 解码及异步流水线并行在八块 RTX 5090 GPU 上达 16 FPS。5 秒基础评估中，相机控制得分 73.75，总体 84.76，优于 HY-WorldPlay 1.5（80.79）和 LingBot-World（80.45）。

具身智能视频论文/研究

11:27

HuggingFace Daily Papers（社区热门论文）

VisualClaw：面向物理世界的实时个性化多模态智能体

VisualClaw是一个自进化多模态智能体，通过级联门过滤流式帧与热/冷top-k注入技能库，将单问题API成本降至全帧上传的-98%、均匀8帧基线的-25.9%。技能进化模块从失败中学习并更新技能库，在4个视频QA基准上平均准确率提升+3.85%，EgoSchema上Gemini 3 Flash达+15.80%。研究者构建了VisualClawArena（200场景多模态智能体基准），在该基准上结合计算机使用后端使Codex (GPT-5.5)宏观准确率+2.9%、Claude Code (Sonnet 4.6)+3.2%，成本降低-9.5%。级联机制将1小时流媒体从~3,600次API调用降至5-20次，适合边缘部署。

智能体多模态视频论文/研究

10:00

IT之家（RSS）

精选70

成本砍半，字节跳动推出 Seedance 2.0 Mini 视频生成模型

字节跳动火山引擎旗下火山方舟体验中心于 6 月 15 日上线 Seedance 2.0 Mini 视频生成模型，计划近期开放 API。该模型比 Seedance 2.0 Fast 快 2 倍，输出质量相当。图生视频定价 0.023 元/千 tokens，视频生视频 0.014 元/千 tokens，720P 规格下单秒生成成本约 0.5 元，较 Seedance 2.0 标准版降低约一半。模型面向电商内容生产、营销素材批量生成、UGC 创作及特效玩法等高频率、大规模视频生成场景。

模型发布视频

推荐理由：Seedance 2.0 Mini 把视频生成成本压到 0.5 元/秒，比标准版便宜一半，对做大批量电商素材和 UGC 的团队是个实际信号，值得等 API 开放后看实测。

6月15日

13:10

公众号：昆仑万维（天工）

智源大会|Skywork首席科学家成宇：SkyReels V4与Mureka V9技术演进

昆仑万维Skywork首席科学家成宇在智源大会上介绍SkyReels V4与Mureka V9。SkyReels V4在Artificial Analysis全球视频生成评测中夺得Text to Video（With Audio）与Image to Video（With Audio）双赛道第一，超越Veo 3.1和Sora 2。其四大突破包括双流MMDiT架构实现毫秒级音画同步、全模态强化学习提升视频逻辑连贯性，以及1080p/32FPS/15秒电影级画质联合生成策略。Mureka V9引入MusiCoT音乐思维链技术，实现段落级文本控制与母带级混音，在旋律性（7.25）、表现力（6.89）等维度排名第一。此外，昆仑万维以“4+3”AGI战略支撑AI短剧、AI音乐、AI游戏三大AI原生娱乐经济体。

多模态大佬观点开源生态视频

10:10

公众号：卡尔的AI沃茨

实测OiiOii 2.0：智能画布、一键拉片复刻与skill库上线

OiiOii 2.0新增智能画布、一键拉片复刻和skill库三个功能。一键拉片复刻可将输入片段拆解为含关键帧、叙事要素、镜头语言等维度的拉片表格，用户替换角色、场景、元素后，半小时内可复刻出镜头设计一致度达90%的动画片段。智能画布支持直接点击素材唤醒Agent对话修改，不同素材可并行调用多个Agent同步推进任务。skill库内置自媒体、广告营销、周边设计等类型，电商广告skill可指定卖点并上传商品图生成专业短片，3C数码广告skill也能通过自然语言对话逐步调优，另有世界杯搞笑玩梗skill可直接生成搞怪视频。

智能体教程/实践视频

02:29

Hacker News 热门（buzzing.cc 中文翻译）

我使用搭载 M1 Max 芯片的电脑和本地机器学习模型，对 669 GB 的 GoPro 视频进行了索引

Hacker News 上一则 Ask HN 帖子显示，用户利用搭载 M1 Max 芯片的电脑和本地机器学习模型，成功索引了 669 GB 的 GoPro 视频。该帖子获得 105 个 HN 点数。

OpenAI 教程/实践端侧视频

6月14日

22:14

The Decoder：AI News（RSS）

微软研究院 Mirage：赋予视频生成持久空间记忆，不遗忘"转角后的场景"

微软研究院与多所高校联合开发的视频世界模型 Mirage 将场景信息直接存储在潜在空间中，而非基于像素的点云。这大幅降低了计算时间和图形显存消耗，同时能在长镜头移动中保持场景空间一致性。不过，该模型目前仍无法可靠地跨片段跟踪运动物体。

Microsoft 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SpatialAvatar-0：多阶段重建的高质量4D头部头像

SpatialAvatar-0 提出基于 FLAME-mesh 约束的高斯表示，结合前馈生成器与 10K 迭代布局保持的逐主体精化循环。前馈阶段采用无参数 K 源均值池化及单目-时序到多视图-空间两阶段调度；精化阶段冻结 FLAME 绑定与高斯数量，以三组件抗尖峰正则化替代密集化。在 VFHQ/HDTF 跨域零样本测试中，PSNR 超越领域内领先模型 GAGAvatar 1.5 dB；在 SplattingAvatar 单目基准上，所有指标均领先，PSNR 超越 300K 迭代的 GeoAvatar 1.3 dB，且逐主体调度周期比常见 SOTA 基线快 60 倍。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Track2View：通过配对3D点轨迹实现4D一致的相机可控视频生成

Track2View将视频扩散Transformer与配对的3D点轨迹条件结合，通过源视图和目标视图中场景点的稀疏轨迹提供显式、时序连续的时空对应。其双视角轨迹调节器利用无参数几何操作和时序聚合转移视觉上下文，能泛化到任意相机轨迹。在含400个视频（静态和动态场景）的基准测试中，Track2View在视觉质量、视图同步和相机精度上均达最优，旋转误差比领先基线降低30-65%，平移误差降低61-72%。

视频论文/研究

6月13日

19:27

The Verge：AI（RSS）

好莱坞的未来不在于向普通生成式AI模型输入提示词

生成式AI被宣传将彻底改变电影制作，但至今未出现值得付费观看的AI项目。大多数AI视频模型只能产出短暂且视觉不一致的片段，好莱坞部分重大AI合作也已消失。Google DeepMind使用“Dear Upstairs Neighbors”的概念艺术训练了其Veo和Imagen模型的自定义构建，展示了不同于直接调用通用模型的路径。目前大型制片厂主要产出的仍是短视频垃圾。

Google 现象/趋势视频

17:54

公众号：龙猫LongCat（美团）

WBench：面向交互式视频世界模型的首个系统性多轮评测基准

美团 LongCat 团队推出 WBench，首个面向交互式视频世界模型的系统性多轮评测基准。包含 289 个测试案例、1058 个交互轮次，覆盖导航、主体动作、事件编辑、视角切换四种交互方式，从视频质量、设定遵循度、交互遵循度、一致性、物理真实性五维度评测 20 个前沿模型（包括 Kling 3.0、HY-World 1.5、Genie 3 等）。核心发现：无全能模型，导航能力与画质无关；多轮交互后所有模型性能下降，导航平均分下降 33 点；开源模型 HY-World 1.5 导航能力突出；视角切换最难（平均分 30.7）。WBench 已开源。

arXiv GitHub 开源生态视频

17:54

公众号：火山引擎

TVB×火山引擎达成深度合作，以Seedance 2.0共探华语影视AI新路径

6月12日，TVB与火山引擎达成合作，围绕豆包视频生成模型Seedance 2.0，在影视内容智能化生产、短剧制作、IP商业化及云基础设施等领域展开探索。双方将协同TVB旗下FF工作室，以AI短剧为契机，利用Seedance 2.0的视频生成能力，通过输入提示词快速生成动画分镜、场景参考等素材，辅助编剧与导演在剧本开发、后期制作中验证创意。火山引擎将为TVB提供虚拟机、对象存储、视频云、CDN等云产品，支持其构建混合云架构，推动媒体内容生产、存储、分发环节的云化升级。

多模态行业动态视频

17:54

公众号：可灵AI（快手·视频）

可灵两周年|创作者这样说

可灵AI迎来两周年，与创作者相伴两年，持续推进模型和产品能力升级。国内创作者通过可灵将奇思妙想落地，海外创作者将其应用于影视、音乐与商业制作，从实验阶段走向专业生产流程。部分作品获得奖项认可或进入专业影视项目，成为创作者突破自我的新起点。

行业动态视频