6月10日

18:28

IT之家（RSS）

字节跳动火山引擎今日推出火山方舟版权商业化平台，与周星驰旗下比高集团达成合作，获得《喜剧之王》《食神》《长江七号》三部影片在AI视频创作场景下的版权使用权，并打造经典桥段AI创作模板。模板已在火山方舟体验中心、Kickart上线，同步开放给LibTV、筷子科技丽帧引擎等工具合作伙伴。个人用户可上传素材完成二次创作，企业客户可在授权范围内调用IP进行品牌营销。抖音、即梦等平台后续将上线相关功能。

产品更新视频

16:56

HuggingFace Daily Papers（社区热门论文）

精选70

快手开源 Kwai Keye-VL-2.0-30B-A3B：面向长视频理解与智能体智能的 MoE 多模态模型

快手开源 Kwai Keye-VL-2.0-30B-A3B，一个 MoE 多模态基础模型，激活仅 3B 参数，专为长视频理解和智能体智能设计。模型首次将 DeepSeek Sparse Attention (DSA) 适配到 GQA 多模态架构，实现无损 256K 上下文处理，并通过可扩展视频 I/O、异构 ViT-LM 并行及自定义 DSA 内核优化吞吐与计算开销。引入跨模态多教师在策略蒸馏（MOPD）结合 Context-RL 和 Video-RL，缓解多任务对齐中的灾难性遗忘，原生支持代码、工具、搜索场景下的多智能体协作与多模态自纠正。在 TimeLens、Video-MME-v2、LongVideoBench 等多个基准上达到同类规模 SOTA，模型权重已开源。

智能体多模态视频论文/研究

推荐理由：Keye-VL-2.0 把长视频理解推到 256K 上下文，还用了 DeepSeek 的稀疏注意力，这是目前我能找到的对长短视频最兼顾的多模态模型，做视频 agent 的该看看。

13:56

HuggingFace Daily Papers（社区热门论文）

Lip Forcing：用于实时唇同步的少步自回归扩散方法

Lip Forcing提出了自回归扩散方法用于视频到视频唇同步，从14B参数的音频条件双向视频扩散教师模型蒸馏出因果学生模型。推理时每个块仅需两步去噪，无需CFG，实现实时流式处理。技术分析揭示CFG的保真度-同步权衡，进而衍生出Sync-Window DMD、两步推理调度和基于SyncNet的奖励三项组件。1.3B学生模型在31 FPS下实时输出，比同规模双向模型快17.6倍；14B学生模型是目前最大的V2V唇同步扩散模型，比教师快39.8倍，保真度接近。首帧时延均小于1毫秒。

多模态视频论文/研究

12:56

HuggingFace Daily Papers（社区热门论文）

WorldOlympiad：视频世界模型三项全能评测基准

WorldOlympiad 将视频世界模型评估分解为物理、几何和交互三个维度。物理轨道用物体分割和 MLLM-as-judge 检验视频对力学、热现象、材料属性等规则的遵循；几何轨道以高斯泼溅重建评估结构一致性、跨视角连贯性与相机轨迹对齐；交互轨道评测模型能否按复杂动作提示生成连贯长程视频。基准覆盖游戏、机器人和通用真实视频三大场景。实验表明，当前最先进模型在物理推理、3D 一致性和长程交互上存在显著差距。

arXiv 具身智能多模态视频

12:56

HuggingFace Daily Papers（社区热门论文）

精选73

Flow-DPPO：面向流匹配模型的散度近端策略优化

针对流匹配模型中在线强化学习比率裁剪策略约束不当的问题，Flow-DPPO 提出用散度近端约束替代。关键洞察是流模型每步策略为高斯分布，可精确计算新旧策略间的 KL 散度。Flow-DPPO 采用非对称散度掩码，仅在梯度更新偏离信任区域且超阈值时阻止更新。实验表明，Flow-DPPO 获得更高奖励，KL 近端效率更优，缓解了灾难性遗忘，促进多目标均衡，并能在比率裁剪失效时支持稳定的多轮训练。代码已开源。

图像生成推理视频论文/研究

推荐理由：用 KL 散度代替比值裁剪来解决流匹配 RL 训练的不稳定，理论简洁，代码已开源，做图像/视频生成优化的同学可以跑一下。

12:40

公众号：火山引擎

精选68

火山方舟版权商业化平台上线，周星驰比高集团三大电影IP首批入驻

火山引擎今日上线火山方舟版权商业化平台，推出行业首个覆盖“授权—保护—审核—分发—变现”全链路的版权合作机制。平台搭载视频生成模型Seedance 2.0及版权治理体系，已获周星驰旗下比高集团《喜剧之王》《食神》《长江七号》三部影片在AI视频创作场景下的版权使用权，并基于Seedance 2.0打造经典桥段AI创作模板。模板已在火山方舟体验中心、火山引擎Kickart上线，同步开放给LibTV、筷子科技丽帧引擎等工具合作伙伴。平台面向UGC和商业广告场景提供分润制、项目制等变现路径，未来还将提供版权管理后台，实现授权可见、使用可查、收入透明。

产品更新视频

推荐理由：这是AI视频领域第一次有平台把版权授权、审核、变现全链路跑通，而且首批入驻的是周星驰的《喜剧之王》《食神》这种真金IP，做AI视频的人终于不用在侵权边缘试探了。

11:46

PixVerse@PixVerse_

一则巧妙的角色反转短片，凸显了AI视频的创意力量。幽默、视觉锐利、执行完美。干得漂亮 @ai_am_furufuru ！

ふるふるの大冒険/Furufuru's Epic Adventure: 「The Fish Strikes Back/魚の逆襲」 #seedance #pixversecpp @PixVerse_

其他多模态视频

10:56

HuggingFace Daily Papers（社区热门论文）

SCAIL-2：端到端上下文条件控制的角色动画统一框架

SCAIL-2 提出绕过姿态骨架等中间表示的端到端角色动画框架，通过直接拼接驱动视频获取全部视觉信息。为解决端到端数据匮乏，用解耦条件统一子任务，构建异构运动迁移数据集 MotionPair-60K。采用上下文掩码条件与模式特定 RoPE 作为软引导，并引入 Bias-Aware DPO 构建偏好对以缓解合成数据在细节区域的误差。实验表明，该方法在多个任务中显著优于现有 SOTA。部分合成数据与模型权重将开源。

图像生成视频论文/研究

10:43

向阳乔木@vista8

Vista 开源免费口播提词器，用 Codex 开发 5 小时

Vista 分享其通宵开发的免费开源口播提词器，项目基于 Codex 开发，运行约 5 小时。他评价该工具比多数收费提词器好用，目前配合大疆 Pocket3 录制口播，暂未加入手机录制功能。项目已开源，欢迎 Star 或 Fork 二改，地址见评论区。

开源/仓库开源生态视频

09:20

Alibaba Cloud@alibaba_cloud

想要构建一个能运行整条短剧制作管线的AI智能体？🎬 欢迎来到AI Showrunner Arena！使用前沿视频模型（Wan / HappyHorse）来自动化脚本编写、分镜和剪辑，赢取总计超过70，000美元的奖金池。 🔗 立即注册：https://click.qwencloud.com/m/20000000281/

智能体行业动态视频

02:23

🚨 AI News | TestingCatalog@testingcatalog

Creatify Agent 升级至 Wave 2。AI 智能体现在可通过单次对话完成品牌研究、广告导演，并直接连接 Meta、TikTok 和 Google 三大平台，按指定日期自动发布广告。智能体主导整个流程，仅在策略、脚本、选角等关键节点让营销人员介入。引用推文强调：智能体没有被更新，而是被升职了。

Creatify AI: Creatify Agent, Wave 2. You watched it make the ad. Now watch it run the whole campaign. It learns your brand. Directs a...

智能体产品更新视频

02:07

Chubby♨️@kimmonismus

HyperFrames 引擎已脱离终端，正式成为 Claude 官方连接器（MCP），与 Anthropic 合作实现：用户像索要报告一样直接请求视频，无需代码仓库或本地配置。这使非开发者也能真正使用 AI 视频生成--文档常被略读，而视频更易理解。

HeyGen: Hyperframes is now an official @claudeai connector LLM answers are often dense pages of text that go unread we partnered...

Anthropic MCP/工具产品更新视频

00:59

Luma@LumaLabsAI

精选78

Ray3.2 API 可大规模运行电影级渲染，并集成到您正在构建的产品中。专为在交付的产品中打造电影感的开发者、代理机构和企业而设计。开始构建 → http://lumalabs.ai/api

产品更新视频

推荐理由：Luma把Ray3.2的电影级视频生成做成API，开发者和产品团队不用自己搞视频模型了，能直接嵌进现有产品，做视频应用的值得试试。

00:46

AK@_akhaliq

视频世界模型的潜在空间记忆

arXiv 多模态视频论文/研究

6月9日