全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「视频」清除

6月12日周五

20:36IT之家（RSS）42围绕视频生成模型 Seedance 2.0 的应用落地，TVB 与字节火山引擎达成合作

20:29PixVerse14PixVerse Canvas推出AI短片《THE DREAM EATERS》

20:29PixVerse28PixVerse Seedance 2.0 三折优惠

17:00HuggingFace Daily Papers（社区热门论文）73精选HYDRA-X：原生统一多模态模型与整体视觉分词器

16:40Alibaba Cloud31阿里云展示AI短片获北影节奖项

13:53TechCrunch：AI（RSS）64Avataar AI 发布蒸馏视频生成模型，面向印度市场

11:00HuggingFace Daily Papers（社区热门论文）65MoVerse：基于全景高斯支架的实时视频世界模型

11:00HuggingFace Daily Papers（社区热门论文）55VideoMDM： Towards 3D Human Motion Generation From 2D Supervision

10:27PixVerse12PixVerse用户创作第24话动画

08:00HuggingFace Daily Papers（社区热门论文）64MVEB：大规模视频嵌入基准

08:00HuggingFace Daily Papers（社区热门论文）43Memento：通过主体重建实现长视频一致性生成

08:00HuggingFace Daily Papers（社区热门论文）43OmniVideo-100K：通过结构化脚本和证据链进行视听推理的数据集

07:38🚨 AI News | TestingCatalog58Gemini Omni Flash 即将推出视频生成 API

06:14Orange AI39这是最近我最喜欢的 Fable 5 游戏一次 Prompt 生成的完成度很高非常上头

01:20Logan Kilpatrick81同事件精选Gemini Omni Flash 视频任务达 SOTA同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

00:08Luma62Dream Brief入围戛纳，AI制作需人类创意

6月11日周四

23:56PixVerse49PixVerse 首次东京线下活动来袭

23:38Luma35Luma AI 亮相 2026 年戛纳创意节

22:31Runway：News（网页）54Runway与Lionsgate扩大战略合作

22:22Runway65Runway深化与狮门影业合作创原IP

18:44fofr22fofr 询问如何提示这个？

14:04Alibaba Cloud26阿里云Qwen和Wan生成墨西哥文化AI视频

14:04Alibaba Cloud21阿里云用Qwen与Wan创作阿联酋AI视频

12:21Elon Musk32Grok模拟AOC学经济学视频

11:21宝玉65Claude Code + Fable 5 全自动剪辑视频工作流

10:58HuggingFace Daily Papers（社区热门论文）59InternVideo3：多模态上下文推理增强基础模型的长时序智能体能力

09:35AYi64Supervision：CV 可视化瑞士军刀，GitHub 近4万星

08:55meng shao69Claude Fable 5 零传统视频编辑的 4K Launch 视频生产实践

08:00HuggingFace Daily Papers（社区热门论文）42OmniDirector：无需交叉配对数据的通用多镜头相机克隆框架

08:00HuggingFace Daily Papers（社区热门论文）50Avatar V：扩展视频参考的虚拟人视频生成

06:44jason71Fable用AI代码自动剪辑发布视频

06:25AK53SCAIL-2：统一可控角色动画与上下文条件化

06:13Thariq56Fable自主编辑发布视频流程

00:02Kling AI25Kling AI：足球里有什么

6月10日周三

22:01Kling AI54可灵Kling AI两周年：全球用户突破1亿

21:56HuggingFace Daily Papers（社区热门论文）68Next Forcing：基于多块预测的因果世界建模

21:34AYi6810万粉小红书AIGC博主爆款拆解：封面靠画面、选题萌宠拟人化、5/7为品牌合作

21:16TechCrunch：AI（RSS）61Decart 发布 Oasis 3：实时世界模型可模拟数小时逼真驾驶场景

20:27🚨 AI News | TestingCatalog63HeyGen HyperFrames 成 Claude 官方连接器，可生成短视频

19:56HuggingFace Daily Papers（社区热门论文）66FadeMem：面向自回归视频生成的距离感知内存合并机制

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月12日

20:36

IT之家（RSS）

42

围绕视频生成模型 Seedance 2.0 的应用落地，TVB 与字节火山引擎达成合作

字节跳动旗下火山引擎与香港电视广播有限公司（TVB）达成深度合作。双方将围绕豆包视频生成模型 Seedance 2.0，在影视内容智能化生产、短剧制作、IP 商业化探索及云基础设施建设等方面展开合作。火山引擎将与 TVB 旗下 FF 工作室协同，基于 Seedance 2.0 的视频生成能力探索 AI 在短剧创作与制作流程中的应用。火山引擎还为 TVB 提供虚拟机、对象存储、网络资源、云数据库、视频云、CDN 内容分发等云产品与服务。

行业动态视频

20:29

PixVerse@PixVerse_

14

一座古老的庄园。青少年被迫吞噬权贵的噩梦。一个缺陷的新兵将黑暗拖回清醒的世界。《THE DREAM EATERS》--由获奖AI电影人@Shanzyin_ai 制作。基于PixVerse Canvas构建。包含项目文件。转发+关注+回复"DREAM"=150积分和私信工作流（仅72小时）。

行业动态视频

20:29

PixVerse@PixVerse_

28

Seedance 2.0 打三折。仅限 PixVerse Web 的 Pro 和 Premium 会员，截至6月25日。在 Canvas 中构建。使用 SD2 生成可减少积分消耗。 Ultra 会员节省更多。转发+关注+回复"Canvas"=私信获取（仅限48小时）。

行业动态视频

17:00

HuggingFace Daily Papers（社区热门论文）

精选73

HYDRA-X：原生统一多模态模型与整体视觉分词器

HYDRA-X 是首个在单个 Vision Transformer (ViT) 中统一图像与视频 tokenization 的统一多模态模型。通过帧级因果时间注意力实现视觉重建，并采用层级时间压缩替代单步压缩。轻量级解压器在联合图像-视频教师监督下上采样时间压缩特征。编辑管线中，源-目标交互在分词器内部潜在层面而非 LLM 语义层面进行，提升编辑一致性与收敛速度。7B 密集模型在图像与视频理解及生成任务上表现强劲。

arXiv 多模态视频论文/研究

推荐理由：HYDRA-X 第一次把图像和视频标记塞进同一个 ViT，光看设计了帧级时序注意力和分层压缩这两个小 tricks 就值回票价，做多模态模型的该读读。

16:40

Alibaba Cloud@alibaba_cloud

31

阿里云展示AI短片获北影节奖项

阿里云宣传一部由多位创作者联合制作的AI音乐视频，该片荣获第16届北京国际电影节（BJIFF）[WanMuse+]主题竞赛“优秀AI主题短片”奖。视频从未来视角审视艺术史，描绘一个由权力定义的博物馆——AI吞噬过去以创造自身存在。主角LINYE既是闯入者，也是最新展品，探讨AI作为人类创造力的毁灭与延续。

其他多模态视频

13:53

TechCrunch：AI（RSS）

64

Avataar AI 发布蒸馏视频生成模型，面向印度市场

Avataar AI 推出蒸馏视频生成模型，专为印度的大规模应用打造，定价为每生成一秒视频 0.005 美元。该模型主打更廉价、更快速且具有文化意识，旨在适应印度本地需求。

数据/训练模型发布视频

11:00

HuggingFace Daily Papers（社区热门论文）

65

MoVerse：基于全景高斯支架的实时视频世界模型

MoVerse 能从单张窄视野图像生成可交互漫游的实时视频世界模型。它将世界构建与观察渲染分离：先用拓扑感知扩散将输入扩展为重力对齐的 360° 全景图，再通过全景几何感知残差预测将其提升为持久 3D Gaussian scaffold，最后由 Gaussian 条件视频渲染器沿用户指定相机轨迹输出逼真视频。渲染器采用双向扩散教师蒸馏为因果自回归学生，实现有限延迟流式输出。在单个 NVIDIA RTX 4090 GPU 上支持 8 FPS 的实时场景漫游。

图像生成视频论文/研究

11:00

HuggingFace Daily Papers（社区热门论文）

55

VideoMDM： Towards 3D Human Motion Generation From 2D Supervision

VideoMDM是一个基于扩散的框架，从单目视频的精确2D姿态训练3D人体运动先验，无需3D真值。它利用预训练的2D-to-3D提升器提供近似3D序列作为噪声教师，经扩散和去噪后重投影到2D并与准确关键点对比以监督训练。理论证明深度加权的2D重投影损失在期望上等价于直接3D监督。在HumanML3D基准上，VideoMDM几乎缩小了与完全3D监督MDM的差距（FID 0.88 vs 0.54）；在真实视频数据集Fit3D和NBA上，生成的运动获得人类一致偏好。

多模态视频论文/研究

10:27

PixVerse@PixVerse_

12

喜欢第24集！很高兴看到创作者用PixVerse带来如此情感丰富的故事。用户@dave392750用PixVerse创作了第24话，讲述企鹅酱做了可怕的梦后身体不适，现已恢复返校，但逐渐对梦中听到的"救命"声、看到星星时的奇异感受、未知的歌谣和梦中的城堡产生好奇。这一切似乎与她忘记的"遇到妈妈之前的记忆"有关。妈妈看着旧箱子，担心企鹅酱的变化。然后在某个夜晚…… #pixversecpp

楽園: 第24話謎の寝言!? これまでのあらすじぺんぎんちゃんは、こわい夢を見て体調をくずしてしまいました。今は元気になって学校にも戻りましたが、夢の中で聞こえた「たすけて」という声や、星を見ると感じる不思議な気持ち、知らない歌、夢に出...

08:00

HuggingFace Daily Papers（社区热门论文）

64

MVEB：大规模视频嵌入基准

MVEB是一个包含23项任务的视频嵌入基准，涵盖分类、零样本分类、聚类、对分类、检索及视频问答。对33个模型的评估显示无单一模型主导：基于MLLM的嵌入在分类、聚类、对分类和问答上领先；多模态绑定方法在检索和零样本分类上领先；缺乏对比适应的生成式MLLM在跨模态任务上崩溃。对比纯视频与音视频评估表明，音频的贡献取决于数据标注来源：标签来自双模态时音频有帮助，仅来自视觉时则有害，差距达6个百分点且跨模型家族一致。MVEB衍生自184项任务的MVEB+池，在降低评估成本的同时保持任务多样性，并集成到MTEB生态系统中。代码和排行榜已开源。

GitHub 多模态视频评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

43

Memento：通过主体重建实现长视频一致性生成

长视频生成中，主体在不同镜头、视角和场景切换下容易丢失。Memento 将主体保持视为身份锚定问题，联合训练自回归下一镜头生成与基于记忆的主体重建，利用历史记忆和全局描述恢复外观；双查询记忆机制分别检索长程身份记忆和短上下文关键帧。主体感知的数据流水线通过无代词描述提供重建监督。实验表明 Memento 在长期主体一致性、跨镜头连贯性和视觉质量上达到 SOTA。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

43

OmniVideo-100K：通过结构化脚本和证据链进行视听推理的数据集

针对视频-音频问答中跨模态关联薄弱、长程时序连接不足的问题，提出自动数据引擎，包含实体锚定视频脚本化（生成摘要、主实体列表和片段描述）和线索引导QA生成两个机制。基于该流程构建指令微调数据集OmniVideo-100K及人工测试集OmniVideo-Test。在VITA-1.5、Qwen2.5-Omni-7B和Qwen3-Omni-30B上微调后，OmniVideo-Test性能最高提升20.59%，在Daily-Omni、JointAVBench等基准上最多提升12.64%。

多模态数据/训练视频论文/研究

07:38

🚨 AI News | TestingCatalog@testingcatalog

58

GOOGLE 🔥：Gemini Omni Flash 即将通过 API 提供图像转视频、文本转视频和视频编辑功能！发布后又更新了吗？👀

Logan Kilpatrick: Gemini Omni Flash is SOTA at image to video, text to video, and video editing : ) Excited to get this to developers in t...

Google 产品更新多模态视频

06:14

Orange AI@oran_ge

39

这是最近我最喜欢的 Fable 5 游戏一次 Prompt 生成的完成度很高非常上头

01:20

Logan Kilpatrick@OfficialLoganK

同事件精选81

Gemini Omni Flash 在图像到视频、文本到视频和视频编辑方面达到了 SATA ：）很高兴很快能将这一能力通过 API 提供给开发者！

Google 图像生成多模态模型发布

同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

推荐理由：视频生成正式进入全模态一体时代，Gemini Omni Flash 把图生视频、文生视频和剪辑整合在一个模型里，API 很快上线，做视频工具的可以提前琢磨对手在哪了。

00:08

Luma@LumaLabsAI

62

"AI可以制作。但伟大的创意仍必须来自人类。" Dream Brief，被72andSunny的Lora Schulson评为五个戛纳竞争者之一。 - https://shots.net/news/view/cannes-contenders-2026-usa-2

行业动态视频

6月11日

23:56

PixVerse@PixVerse_

49

\🎬 PixVerse、ついに東京へ上陸！ 🗼/ 来週6/16（火）の夜、@PixVerse_ 初となる東京オフラインイベントを開催します！✨ AI動画の最前線で活躍するクリエイターや業界関係者が大集結🤝 @btrax_jp 様、 @AICollectiveCo 様とともに、熱いクリエイティブの夜をお届けします🔥

行业动态视频

23:38

Luma@LumaLabsAI

35

合作是新的力量之举。 Luma 将参加 2026 年戛纳创意节，与合作伙伴共同构建创意工作的新时代。6 月 22-26 日，AI & Tech Sandbox 和 Luma House。完整日程如下。 RSVP 参加 → http://lumalabs.ai/cannes

行业动态视频

22:31

Runway：News（网页）

54

Runway与Lionsgate扩大战略合作

全球内容巨头Lionsgate与生成式AI研究公司Runway今日宣布扩大战略合作。Lionsgate已取得Runway股权，双方将启动联合开发项目，共同创作并制作新IP，首推一部基于Lionsgate现有IP和Runway生成模型的短剧系列。此外，Lionsgate将作为主持伙伴参与6月举行的Runway AI电影节。这是双方继2024年9月首次合作后的深化，Lionsgate此前已在预可视化、故事板及最终帧制作中应用Runway工具。

行业动态视频

22:22

Runway@runwayml

65

今天，我们正在深化与狮门影业的合作，推出一系列新举措，包括一个专注于共同打造原创IP的联合开发项目。详情请见下方链接。

行业动态视频

18:44

fofr@fofrAI

22

我该如何提示这个？

돌아온평직 (돌평): 롤러코스터를 타고 줌회의를 하면 눈치 챌까? 진짜 미친 콘텐츠넼ᄏᄏ

其他图像生成视频

14:04

Alibaba Cloud@alibaba_cloud

26

阿里云Qwen和Wan生成墨西哥文化AI视频

阿里云发布一段由Qwen和Wan模型生成的AI视频，以墨西哥文化为主题，融合祖先智慧、传统工艺、Mariachi音乐和Zapotec编织艺术，从古老圣地到现代创新枢纽，展现AI如何连接过去与未来。视频旨在展示模型的创意能力，并引导用户通过Model Studio平台使用相关模型进行创作。

多模态行业动态视频

14:04

Alibaba Cloud@alibaba_cloud

21

阿里云用Qwen与Wan创作阿联酋AI视频

阿里云发布AI生成视频，由通义千问（Qwen）和万相（Wan）模型共同创作。视频以阿联酋为主题，融合沙漠、阿拉伯书法、传统待客之道与迪拜现代天际线等元素，从古代天文智慧到未来科技，展现文化遗产与创新的平衡。官方推荐使用Model Studio平台调用模型进行创作。

图像生成行业动态视频

12:21

Elon Musk@elonmusk

32

《巴比伦蜜蜂》用AI模拟了AOC被迫学习经济学的情景，该视频由Grok制作。

The Babylon Bee: We Asked AI To Simulate What Would Happen If AOC Was Forced To Learn Economics Made with @grok.

xAI 产品更新多模态视频

11:21

宝玉@dotey

65

Claude Code + Fable 5 全自动剪辑视频工作流

视频完全摒弃 Premiere/Final Cut，由 Claude Code 配合 Fable 5 通过代码与命令行自动剪辑。流程：本地 Whisper 转写 25GB 素材（17 个 Take，4 场景），生成毫秒级单词时间戳 JSON；Subagent 剔除停顿废片选出最佳镜头；代码调用 FFmpeg 自动粗剪；AI 手写 LUTs 调色代码并生成带滑块的 HTML 页面供人工调整；静态图形转为 React 的 Remotion 动画组件，利用时间戳精准卡点；通过 Figma MCP 将画面导出至 Figma 供设计优化，再自动抓回代码，渲染 4K 24fps。作者全程未触碰视频编辑器。

Thariq: Lots of people asked how I used Fable to edit its own launch video so I made a video about that! TLDR it wrote a lot of ...

智能体 Anthropic 教程/实践视频

10:58

HuggingFace Daily Papers（社区热门论文）

59

InternVideo3：多模态上下文推理增强基础模型的长时序智能体能力

InternVideo3框架通过多模态上下文推理（MCR）提升基础模型的长时序多模态任务能力。MCR将理解视为包含观察、指令、推理、工具行动和记忆的闭环过程，将长视频理解为证据积累与验证。为提升效率，引入多模态多头潜在注意力（M²LA），一种保留完整token流同时压缩KV-cache状态的token保持重参数化。训练阶段包括继续预训练、短到长监督微调、基于规则的强化学习和在线蒸馏。InternVideo3在Video-MME、MLVU、EgoSchema等基准上取得强性能，并实例化为带有检索工具的视频智能体，展现基于证据的鲁棒行为。

智能体多模态推理视频

09:35

AYi@AYi_AInotes

64

Supervision：CV 可视化瑞士军刀，GitHub 近4万星

Supervision 是开源计算机视觉可视化工具库，安装仅需 pip install supervision，几行代码即可实现持久ID对象跟踪、自定义标签标注、区域计数与越线检测、人体姿态关键点连线、YOLO/COCO/Pascal VOC 数据集格式一键互转。模型无关，支持 YOLO、Transformers 等任意检测模型。已被6500+开源CV项目采用，适用于NBA球员实时跟踪、路口车流量统计、工业缺陷检测等场景。

AYi: 分享一个计算机视觉开发者必藏神器,4 万星GitHub开源! 不用自己写几百行画框跟踪代码, 一行命令搞定所有可视化, Supervision,CV 界真正的瑞士军刀。 1️⃣ 它到底有多强? 自动画框加标签,支持编号、自定义样式, 视频对...

开源生态教程/实践视频

08:55

meng shao@shao__meng

69

Claude Fable 5 零传统视频编辑的 4K Launch 视频生产实践

Claude Fable 5 通过纯提示驱动，端到端生成 4K Launch 视频。从 17 个 Sony S-Log3 4K take（约 25GB）出发，流程包括：Whisper 逐词转录、Claude 作为子 agent 选片输出 JSON 编辑决策列表 (EDL)、FFmpeg 拼接粗剪、手写 7 个自定义 .cube LUT 颜色分级、通过 Remotion + Figma MCP 将 11 张设计 PNG 转为 React 组件并实现代码↔Figma 往返迭代。最终渲染 3840×2160@24fps、4334 帧、653MB 成品，全程未打开视频编辑器。

Thariq: Lots of people asked how I used Fable to edit its own launch video so I made a video about that! TLDR it wrote a lot of ...

智能体 Anthropic MCP/工具教程/实践

08:00

HuggingFace Daily Papers（社区热门论文）

42

OmniDirector：无需交叉配对数据的通用多镜头相机克隆框架

从参考视频克隆相机运动是视频生成的重要任务。现有方法依赖参数化表示或合成交叉配对数据，难以处理多镜头生成且数据稀缺。OmniDirector将相机参数编码为网格运动视频作为通用表示，支持多镜头轨迹整合。框架在百万级相机网格-视频对上训练，采用多模态扩散Transformer，协调角色、动作和相机。同时设计层级提示扩展智能体，通过理解信号关系系统描述相机运动和视觉内容，集成不同控制信号。实验证明其在复杂相机运动克隆上性能优越、可控性强。

arXiv 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

Avatar V：扩展视频参考的虚拟人视频生成

Avatar V 是一个生产级框架，通过视频参考条件建模替代静态图像驱动。模型直接对参考视频的完整 token 序列进行注意力计算，同时重现静态身份和动态行为（如说话节奏、微表情）。核心技术包括线性复杂度的稀疏参考注意力、支持闭环风格迁移的运动表示流、继承全参考条件的身份感知超分精炼器。数据引擎从 5000 万原始视频中筛选出 1 亿以上训练片段，经 flow matching 预训练、个性微调、两阶段蒸馏（>10 倍加速）和 RLHF 对齐等五阶段训练，部署于数千 GPU。可生成无限时长 1080p 视频，在跨场景基准上保持最优的身份保留、唇同步和生成质量，全面超越 Seedance 2.0、Kling O3 Pro、Veo 3.1 和 OmniHuman 1.5。

多模态视频论文/研究

06:44

jason@jxnlco

71

开发者 @trq212 展示如何用 Fable 通过代码和工具调用完成其自身启动视频的编辑：调用转录服务、ffmpeg、调色、Figma MCP，制作 Remotion UI 并渲染，全程未手动操作视频编辑器。主推文作者 Jason Liu 幽默总结了一个"向 Anthropic 设计团队请求最佳实践"的流程，但对 Fable 的用法表示赞赏。

Thariq: Lots of people asked how I used Fable to edit its own launch video so I made a video about that! TLDR it wrote a lot of ...

Anthropic MCP/工具教程/实践视频

06:25

AK@_akhaliq

53

SCAIL-2 统一可控角色动画与端到端上下文条件化

视频论文/研究

06:13

Thariq@trq212

56

很多人问我怎么用 Fable 编辑它自己的发布视频，所以我做了个视频来解释！ TLDR：它写了很多代码和工具调用，来使用转录服务、ffmpeg、做调色、使用 figma mcp、制作 remotion UI 并渲染。我根本没碰视频编辑器。

MCP/工具教程/实践视频

00:02

Kling AI@Kling_ai

25

这个足球里面有什么？⚽

行业动态视频

6月10日

22:01

Kling AI@Kling_ai

54

可灵Kling AI两周年：全球用户突破1亿

2024年6月，创作者开始使用可灵Kling AI。用户反复提出“如果角色更生动”“如果动作更真实”“如果她能说话”等需求。从Kling 1.0到3.0，每次迭代都基于创作者反馈改进。2026年6月，可灵Kling AI全球用户突破1亿。官方在二周年之际向所有创作者致谢。

行业动态视频

21:56

HuggingFace Daily Papers（社区热门论文）

68

Next Forcing：基于多块预测的因果世界建模

Next Forcing 提出多块预测（MCP）框架，受大语言模型多 token 预测启发，在主模型上添加轻量级辅助 MCP 模块，同时对多个未来时间步的视频块去噪。50fps 下训练 5k 步时相对 LingBot-VA 提升 93.1%，收敛速度加快 2.3 倍；在 RoboTwin 基准上达 94.1%（Clean）/93.5%（Random）新 SOTA。推理时保留 MCP 模块可实现 2 倍加速。在物理规律基准 PhyWorld 上也有显著提升，通用视频预训练 FVD 降低超 50%。

arXiv 具身智能数据/训练视频

21:34

AYi@AYi_AInotes

68

10万粉小红书AIGC博主爆款拆解：封面靠画面、选题萌宠拟人化、5/7为品牌合作

一位10万粉小红书AIGC博主，不带货、不卖课、不引流私域。拆解7篇赞≥5000爆款：封面5篇零文字靠画面，唯二带大字的为品牌广；7篇中5篇品牌合作（兰蔻、李锦记、华为、脉动），产品嵌入“猫咪meme”“穿进古画当厨子”剧情；选题萌宠拟人化，一条AI跳舞猫获7.9万赞、4.2万藏；标题用强动词如“闯进/穿进/征服”+疑问感叹；开头直说用户心里话或具体场景；全部视频、0图文。详细提示词见原文。

AYi: http://x.com/i/article/2064536412670562304

图像生成教程/实践视频

21:16

TechCrunch：AI（RSS）

61

Decart 发布 Oasis 3：实时世界模型可模拟数小时逼真驾驶场景

Decart 推出 Oasis 3，一个实时世界模型，能够生成逼真的驾驶环境用于自动驾驶车辆测试，现已通过 API 向开发者开放。

具身智能模型发布视频

20:27

🚨 AI News | TestingCatalog@testingcatalog

63

HeyGen 发布 HyperFrames 连接器，成为 Claude 官方连接器（与 Anthropic 合作）。用户可在 Claude 对话中直接生成短视频。合成代理内置 25+ 技能，处理排版、运动、字幕和语音，云端渲染输出 MP4、WebM 或 MOV。旨在解决 LLM 回答文本密集、难以阅读的问题，将文档略读转化为视频理解。

HeyGen: Hyperframes is now an official @claudeai connector LLM answers are often dense pages of text that go unread we partnered...

Anthropic MCP/工具产品更新视频

19:56

HuggingFace Daily Papers（社区热门论文）

66

FadeMem：面向自回归视频生成的距离感知内存合并机制

自回归视频生成器的历史 KV cache 随视频长度增长。FadeMem 提出距离感知内存合并机制，在固定缓存预算下将历史 KV 块组织成时间层次，利用频率依赖的时间衰减（细粒度细节快速去相关，粗粒度场景结构保持更久）。生成时新历史作为细粒度条目插入，较旧相邻条目按幂律调度逐步合并，形成近密远疏内存。无需改动架构，即可保留近期上下文并为身份与场景连贯性提供紧凑长程锚点。实验表明在主体一致性、背景稳定性和时间连贯性上优于现有有界缓存策略。

视频论文/研究

1…6 789 10…28