AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「视频」清除
6月12日周五
20:36IT之家(RSS)42围绕视频生成模型 Seedance 2.0 的应用落地,TVB 与字节火山引擎达成合作
20:29PixVerse14PixVerse Canvas推出AI短片《THE DREAM EATERS》
20:29PixVerse28PixVerse Seedance 2.0 三折优惠
17:00HuggingFace Daily Papers(社区热门论文)73精选HYDRA-X: 原生统一多模态模型与整体视觉分词器
16:40Alibaba Cloud31阿里云展示AI短片获北影节奖项
13:53TechCrunch:AI(RSS)64Avataar AI 发布蒸馏视频生成模型,面向印度市场
11:00HuggingFace Daily Papers(社区热门论文)65MoVerse: 基于全景高斯支架的实时视频世界模型
11:00HuggingFace Daily Papers(社区热门论文)55VideoMDM: Towards 3D Human Motion Generation From 2D Supervision
10:27PixVerse12PixVerse用户创作第24话动画
08:00HuggingFace Daily Papers(社区热门论文)64MVEB:大规模视频嵌入基准
08:00HuggingFace Daily Papers(社区热门论文)43Memento:通过主体重建实现长视频一致性生成
08:00HuggingFace Daily Papers(社区热门论文)43OmniVideo-100K:通过结构化脚本和证据链进行视听推理的数据集
07:38🚨 AI News | TestingCatalog58Gemini Omni Flash 即将推出视频生成 API
06:14Orange AI39这是最近我最喜欢的 Fable 5 游戏 一次 Prompt 生成的 完成度很高 非常上头
01:20Logan Kilpatrick81同事件精选Gemini Omni Flash 视频任务达 SOTA同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
00:08Luma62Dream Brief入围戛纳,AI制作需人类创意
6月11日周四
23:56PixVerse49PixVerse 首次东京线下活动来袭
23:38Luma35Luma AI 亮相 2026 年戛纳创意节
22:31Runway:News(网页)54Runway与Lionsgate扩大战略合作
22:22Runway65Runway深化与狮门影业合作创原IP
18:44fofr22fofr 询问如何提示这个?
14:04Alibaba Cloud26阿里云Qwen和Wan生成墨西哥文化AI视频
14:04Alibaba Cloud21阿里云用Qwen与Wan创作阿联酋AI视频
12:21Elon Musk32Grok模拟AOC学经济学视频
11:21宝玉65Claude Code + Fable 5 全自动剪辑视频工作流
10:58HuggingFace Daily Papers(社区热门论文)59InternVideo3:多模态上下文推理增强基础模型的长时序智能体能力
09:35AYi64Supervision:CV 可视化瑞士军刀,GitHub 近4万星
08:55meng shao69Claude Fable 5 零传统视频编辑的 4K Launch 视频生产实践
08:00HuggingFace Daily Papers(社区热门论文)42OmniDirector:无需交叉配对数据的通用多镜头相机克隆框架
08:00HuggingFace Daily Papers(社区热门论文)50Avatar V:扩展视频参考的虚拟人视频生成
06:44jason71Fable用AI代码自动剪辑发布视频
06:25AK53SCAIL-2:统一可控角色动画与上下文条件化
06:13Thariq56Fable自主编辑发布视频流程
00:02Kling AI25Kling AI:足球里有什么
6月10日周三
22:01Kling AI54可灵Kling AI两周年:全球用户突破1亿
21:56HuggingFace Daily Papers(社区热门论文)68Next Forcing:基于多块预测的因果世界建模
21:34AYi6810万粉小红书AIGC博主爆款拆解:封面靠画面、选题萌宠拟人化、5/7为品牌合作
21:16TechCrunch:AI(RSS)61Decart 发布 Oasis 3:实时世界模型可模拟数小时逼真驾驶场景
20:27🚨 AI News | TestingCatalog63HeyGen HyperFrames 成 Claude 官方连接器,可生成短视频
19:56HuggingFace Daily Papers(社区热门论文)66FadeMem:面向自回归视频生成的距离感知内存合并机制
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月12日
20:36
IT之家(RSS)
42
围绕视频生成模型 Seedance 2.0 的应用落地,TVB 与字节火山引擎达成合作

字节跳动旗下火山引擎与香港电视广播有限公司(TVB)达成深度合作。双方将围绕豆包视频生成模型 Seedance 2.0,在影视内容智能化生产、短剧制作、IP 商业化探索及云基础设施建设等方面展开合作。火山引擎将与 TVB 旗下 FF 工作室协同,基于 Seedance 2.0 的视频生成能力探索 AI 在短剧创作与制作流程中的应用。火山引擎还为 TVB 提供虚拟机、对象存储、网络资源、云数据库、视频云、CDN 内容分发等云产品与服务。

行业动态视频
20:29
PixVerse@PixVerse_
14
一座古老的庄园。青少年被迫吞噬权贵的噩梦。一个缺陷的新兵将黑暗拖回清醒的世界。 《THE DREAM EATERS》--由获奖AI电影人@Shanzyin_ai 制作。 基于PixVerse Canvas构建。包含项目文件。 转发+关注+回复"DREAM"=150积分和私信工作流(仅72小时)。
行业动态视频
20:29
PixVerse@PixVerse_
28
Seedance 2.0 打三折。 仅限 PixVerse Web 的 Pro 和 Premium 会员,截至6月25日。 在 Canvas 中构建。使用 SD2 生成可减少积分消耗。 Ultra 会员节省更多。 转发+关注+回复"Canvas"=私信获取(仅限48小时)。
行业动态视频
17:00
HuggingFace Daily Papers(社区热门论文)
精选73
HYDRA-X: 原生统一多模态模型与整体视觉分词器

HYDRA-X 是首个在单个 Vision Transformer (ViT) 中统一图像与视频 tokenization 的统一多模态模型。通过帧级因果时间注意力实现视觉重建,并采用层级时间压缩替代单步压缩。轻量级解压器在联合图像-视频教师监督下上采样时间压缩特征。编辑管线中,源-目标交互在分词器内部潜在层面而非 LLM 语义层面进行,提升编辑一致性与收敛速度。7B 密集模型在图像与视频理解及生成任务上表现强劲。

arXiv多模态视频论文/研究

推荐理由:HYDRA-X 第一次把图像和视频标记塞进同一个 ViT,光看设计了帧级时序注意力和分层压缩这两个小 tricks 就值回票价,做多模态模型的该读读。
16:40
Alibaba Cloud@alibaba_cloud
31
阿里云展示AI短片获北影节奖项

阿里云宣传一部由多位创作者联合制作的AI音乐视频,该片荣获第16届北京国际电影节(BJIFF)[WanMuse+]主题竞赛“优秀AI主题短片”奖。视频从未来视角审视艺术史,描绘一个由权力定义的博物馆——AI吞噬过去以创造自身存在。主角LINYE既是闯入者,也是最新展品,探讨AI作为人类创造力的毁灭与延续。

其他多模态视频
13:53
TechCrunch:AI(RSS)
64
Avataar AI 发布蒸馏视频生成模型,面向印度市场

Avataar AI 推出蒸馏视频生成模型,专为印度的大规模应用打造,定价为每生成一秒视频 0.005 美元。该模型主打更廉价、更快速且具有文化意识,旨在适应印度本地需求。

数据/训练模型发布视频
11:00
HuggingFace Daily Papers(社区热门论文)
65
MoVerse: 基于全景高斯支架的实时视频世界模型

MoVerse 能从单张窄视野图像生成可交互漫游的实时视频世界模型。它将世界构建与观察渲染分离:先用拓扑感知扩散将输入扩展为重力对齐的 360° 全景图,再通过全景几何感知残差预测将其提升为持久 3D Gaussian scaffold,最后由 Gaussian 条件视频渲染器沿用户指定相机轨迹输出逼真视频。渲染器采用双向扩散教师蒸馏为因果自回归学生,实现有限延迟流式输出。在单个 NVIDIA RTX 4090 GPU 上支持 8 FPS 的实时场景漫游。

图像生成视频论文/研究
11:00
HuggingFace Daily Papers(社区热门论文)
55
VideoMDM: Towards 3D Human Motion Generation From 2D Supervision

VideoMDM是一个基于扩散的框架,从单目视频的精确2D姿态训练3D人体运动先验,无需3D真值。它利用预训练的2D-to-3D提升器提供近似3D序列作为噪声教师,经扩散和去噪后重投影到2D并与准确关键点对比以监督训练。理论证明深度加权的2D重投影损失在期望上等价于直接3D监督。在HumanML3D基准上,VideoMDM几乎缩小了与完全3D监督MDM的差距(FID 0.88 vs 0.54);在真实视频数据集Fit3D和NBA上,生成的运动获得人类一致偏好。

多模态视频论文/研究
10:27
PixVerse@PixVerse_
12
喜欢第24集!很高兴看到创作者用PixVerse带来如此情感丰富的故事。 用户@dave392750用PixVerse创作了第24话,讲述企鹅酱做了可怕的梦后身体不适,现已恢复返校,但逐渐对梦中听到的"救命"声、看到星星时的奇异感受、未知的歌谣和梦中的城堡产生好奇。这一切似乎与她忘记的"遇到妈妈之前的记忆"有关。妈妈看着旧箱子,担心企鹅酱的变化。然后在某个夜晚…… #pixversecpp

楽園: 第24話 謎の寝言!? これまでのあらすじ ぺんぎんちゃんは、こわい夢を見て体調をくずしてしまいました。 今は元気になって学校にも戻りましたが、 夢の中で聞こえた「たすけて」という声や、 星を見ると感じる不思議な気持ち、 知らない歌、夢に出...

其他视频
08:00
HuggingFace Daily Papers(社区热门论文)
64
MVEB:大规模视频嵌入基准

MVEB是一个包含23项任务的视频嵌入基准,涵盖分类、零样本分类、聚类、对分类、检索及视频问答。对33个模型的评估显示无单一模型主导:基于MLLM的嵌入在分类、聚类、对分类和问答上领先;多模态绑定方法在检索和零样本分类上领先;缺乏对比适应的生成式MLLM在跨模态任务上崩溃。对比纯视频与音视频评估表明,音频的贡献取决于数据标注来源:标签来自双模态时音频有帮助,仅来自视觉时则有害,差距达6个百分点且跨模型家族一致。MVEB衍生自184项任务的MVEB+池,在降低评估成本的同时保持任务多样性,并集成到MTEB生态系统中。代码和排行榜已开源。

GitHub多模态视频评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
43
Memento:通过主体重建实现长视频一致性生成

长视频生成中,主体在不同镜头、视角和场景切换下容易丢失。Memento 将主体保持视为身份锚定问题,联合训练自回归下一镜头生成与基于记忆的主体重建,利用历史记忆和全局描述恢复外观;双查询记忆机制分别检索长程身份记忆和短上下文关键帧。主体感知的数据流水线通过无代词描述提供重建监督。实验表明 Memento 在长期主体一致性、跨镜头连贯性和视觉质量上达到 SOTA。

多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
43
OmniVideo-100K:通过结构化脚本和证据链进行视听推理的数据集

针对视频-音频问答中跨模态关联薄弱、长程时序连接不足的问题,提出自动数据引擎,包含实体锚定视频脚本化(生成摘要、主实体列表和片段描述)和线索引导QA生成两个机制。基于该流程构建指令微调数据集OmniVideo-100K及人工测试集OmniVideo-Test。在VITA-1.5、Qwen2.5-Omni-7B和Qwen3-Omni-30B上微调后,OmniVideo-Test性能最高提升20.59%,在Daily-Omni、JointAVBench等基准上最多提升12.64%。

多模态数据/训练视频论文/研究
07:38
🚨 AI News | TestingCatalog@testingcatalog
58
GOOGLE 🔥:Gemini Omni Flash 即将通过 API 提供图像转视频、文本转视频和视频编辑功能! 发布后又更新了吗?👀

Logan Kilpatrick: Gemini Omni Flash is SOTA at image to video, text to video, and video editing : ) Excited to get this to developers in t...

Google产品更新多模态视频
06:14
Orange AI@oran_ge
39
这是最近我最喜欢的 Fable 5 游戏 一次 Prompt 生成的 完成度很高 非常上头
其他视频
01:20
Logan Kilpatrick@OfficialLoganK
同事件精选81
Gemini Omni Flash 在图像到视频、文本到视频和视频编辑方面达到了 SATA : ) 很高兴很快能将这一能力通过 API 提供给开发者!
Google图像生成多模态模型发布
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:视频生成正式进入全模态一体时代,Gemini Omni Flash 把图生视频、文生视频和剪辑整合在一个模型里,API 很快上线,做视频工具的可以提前琢磨对手在哪了。
00:08
Luma@LumaLabsAI
62
"AI可以制作。但伟大的创意仍必须来自人类。" Dream Brief,被72andSunny的Lora Schulson评为五个戛纳竞争者之一。 - https://shots.net/news/view/cannes-contenders-2026-usa-2
行业动态视频
6月11日
23:56
PixVerse@PixVerse_
49
\🎬 PixVerse、ついに東京へ上陸! 🗼/ 来週6/16(火)の夜、@PixVerse_ 初となる東京オフラインイベントを開催します!✨ AI動画の最前線で活躍するクリエイターや業界関係者が大集結🤝 @btrax_jp 様 、 @AICollectiveCo 様とともに、熱いクリエイティブの夜をお届けします🔥
行业动态视频
23:38
Luma@LumaLabsAI
35
合作是新的力量之举。 Luma 将参加 2026 年戛纳创意节,与合作伙伴共同构建创意工作的新时代。6 月 22-26 日,AI & Tech Sandbox 和 Luma House。完整日程如下。 RSVP 参加 → http://lumalabs.ai/cannes
行业动态视频
22:31
Runway:News(网页)
54
Runway与Lionsgate扩大战略合作

全球内容巨头Lionsgate与生成式AI研究公司Runway今日宣布扩大战略合作。Lionsgate已取得Runway股权,双方将启动联合开发项目,共同创作并制作新IP,首推一部基于Lionsgate现有IP和Runway生成模型的短剧系列。此外,Lionsgate将作为主持伙伴参与6月举行的Runway AI电影节。这是双方继2024年9月首次合作后的深化,Lionsgate此前已在预可视化、故事板及最终帧制作中应用Runway工具。

行业动态视频
22:22
Runway@runwayml
65
今天,我们正在深化与狮门影业的合作,推出一系列新举措,包括一个专注于共同打造原创IP的联合开发项目。详情请见下方链接。
行业动态视频
18:44
fofr@fofrAI
22
我该如何提示这个?

돌아온평직 (돌평): 롤러코스터를 타고 줌회의를 하면 눈치 챌까? 진짜 미친 콘텐츠넼ᄏᄏ

其他图像生成视频
14:04
Alibaba Cloud@alibaba_cloud
26
阿里云Qwen和Wan生成墨西哥文化AI视频

阿里云发布一段由Qwen和Wan模型生成的AI视频,以墨西哥文化为主题,融合祖先智慧、传统工艺、Mariachi音乐和Zapotec编织艺术,从古老圣地到现代创新枢纽,展现AI如何连接过去与未来。视频旨在展示模型的创意能力,并引导用户通过Model Studio平台使用相关模型进行创作。

多模态行业动态视频
14:04
Alibaba Cloud@alibaba_cloud
21
阿里云用Qwen与Wan创作阿联酋AI视频

阿里云发布AI生成视频,由通义千问(Qwen)和万相(Wan)模型共同创作。视频以阿联酋为主题,融合沙漠、阿拉伯书法、传统待客之道与迪拜现代天际线等元素,从古代天文智慧到未来科技,展现文化遗产与创新的平衡。官方推荐使用Model Studio平台调用模型进行创作。

图像生成行业动态视频
12:21
Elon Musk@elonmusk
32
《巴比伦蜜蜂》用AI模拟了AOC被迫学习经济学的情景,该视频由Grok制作。

The Babylon Bee: We Asked AI To Simulate What Would Happen If AOC Was Forced To Learn Economics Made with @grok.

xAI产品更新多模态视频
11:21
宝玉@dotey
65
Claude Code + Fable 5 全自动剪辑视频工作流

视频完全摒弃 Premiere/Final Cut,由 Claude Code 配合 Fable 5 通过代码与命令行自动剪辑。流程:本地 Whisper 转写 25GB 素材(17 个 Take,4 场景),生成毫秒级单词时间戳 JSON;Subagent 剔除停顿废片选出最佳镜头;代码调用 FFmpeg 自动粗剪;AI 手写 LUTs 调色代码并生成带滑块的 HTML 页面供人工调整;静态图形转为 React 的 Remotion 动画组件,利用时间戳精准卡点;通过 Figma MCP 将画面导出至 Figma 供设计优化,再自动抓回代码,渲染 4K 24fps。作者全程未触碰视频编辑器。

Thariq: Lots of people asked how I used Fable to edit its own launch video so I made a video about that! TLDR it wrote a lot of ...

智能体Anthropic教程/实践视频
10:58
HuggingFace Daily Papers(社区热门论文)
59
InternVideo3:多模态上下文推理增强基础模型的长时序智能体能力

InternVideo3框架通过多模态上下文推理(MCR)提升基础模型的长时序多模态任务能力。MCR将理解视为包含观察、指令、推理、工具行动和记忆的闭环过程,将长视频理解为证据积累与验证。为提升效率,引入多模态多头潜在注意力(M²LA),一种保留完整token流同时压缩KV-cache状态的token保持重参数化。训练阶段包括继续预训练、短到长监督微调、基于规则的强化学习和在线蒸馏。InternVideo3在Video-MME、MLVU、EgoSchema等基准上取得强性能,并实例化为带有检索工具的视频智能体,展现基于证据的鲁棒行为。

智能体多模态推理视频
09:35
AYi@AYi_AInotes
64
Supervision:CV 可视化瑞士军刀,GitHub 近4万星

Supervision 是开源计算机视觉可视化工具库,安装仅需 pip install supervision,几行代码即可实现持久ID对象跟踪、自定义标签标注、区域计数与越线检测、人体姿态关键点连线、YOLO/COCO/Pascal VOC 数据集格式一键互转。模型无关,支持 YOLO、Transformers 等任意检测模型。已被6500+开源CV项目采用,适用于NBA球员实时跟踪、路口车流量统计、工业缺陷检测等场景。

AYi: 分享一个计算机视觉开发者必藏神器,4 万星GitHub开源! 不用自己写几百行画框跟踪代码, 一行命令搞定所有可视化, Supervision,CV 界真正的瑞士军刀。 1️⃣ 它到底有多强? 自动画框加标签,支持编号、自定义样式, 视频对...

开源生态教程/实践视频
08:55
meng shao@shao__meng
69
Claude Fable 5 零传统视频编辑的 4K Launch 视频生产实践

Claude Fable 5 通过纯提示驱动,端到端生成 4K Launch 视频。从 17 个 Sony S-Log3 4K take(约 25GB)出发,流程包括:Whisper 逐词转录、Claude 作为子 agent 选片输出 JSON 编辑决策列表 (EDL)、FFmpeg 拼接粗剪、手写 7 个自定义 .cube LUT 颜色分级、通过 Remotion + Figma MCP 将 11 张设计 PNG 转为 React 组件并实现代码↔Figma 往返迭代。最终渲染 3840×2160@24fps、4334 帧、653MB 成品,全程未打开视频编辑器。

Thariq: Lots of people asked how I used Fable to edit its own launch video so I made a video about that! TLDR it wrote a lot of ...

智能体AnthropicMCP/工具教程/实践
08:00
HuggingFace Daily Papers(社区热门论文)
42
OmniDirector:无需交叉配对数据的通用多镜头相机克隆框架

从参考视频克隆相机运动是视频生成的重要任务。现有方法依赖参数化表示或合成交叉配对数据,难以处理多镜头生成且数据稀缺。OmniDirector将相机参数编码为网格运动视频作为通用表示,支持多镜头轨迹整合。框架在百万级相机网格-视频对上训练,采用多模态扩散Transformer,协调角色、动作和相机。同时设计层级提示扩展智能体,通过理解信号关系系统描述相机运动和视觉内容,集成不同控制信号。实验证明其在复杂相机运动克隆上性能优越、可控性强。

arXiv多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
Avatar V:扩展视频参考的虚拟人视频生成

Avatar V 是一个生产级框架,通过视频参考条件建模替代静态图像驱动。模型直接对参考视频的完整 token 序列进行注意力计算,同时重现静态身份和动态行为(如说话节奏、微表情)。核心技术包括线性复杂度的稀疏参考注意力、支持闭环风格迁移的运动表示流、继承全参考条件的身份感知超分精炼器。数据引擎从 5000 万原始视频中筛选出 1 亿以上训练片段,经 flow matching 预训练、个性微调、两阶段蒸馏(>10 倍加速)和 RLHF 对齐等五阶段训练,部署于数千 GPU。可生成无限时长 1080p 视频,在跨场景基准上保持最优的身份保留、唇同步和生成质量,全面超越 Seedance 2.0、Kling O3 Pro、Veo 3.1 和 OmniHuman 1.5。

多模态视频论文/研究
06:44
jason@jxnlco
71
开发者 @trq212 展示如何用 Fable 通过代码和工具调用完成其自身启动视频的编辑:调用转录服务、ffmpeg、调色、Figma MCP,制作 Remotion UI 并渲染,全程未手动操作视频编辑器。主推文作者 Jason Liu 幽默总结了一个"向 Anthropic 设计团队请求最佳实践"的流程,但对 Fable 的用法表示赞赏。

Thariq: Lots of people asked how I used Fable to edit its own launch video so I made a video about that! TLDR it wrote a lot of ...

AnthropicMCP/工具教程/实践视频
06:25
AK@_akhaliq
53
SCAIL-2 统一可控角色动画与端到端上下文条件化
视频论文/研究
06:13
Thariq@trq212
56
很多人问我怎么用 Fable 编辑它自己的发布视频,所以我做了个视频来解释! TLDR:它写了很多代码和工具调用,来使用转录服务、ffmpeg、做调色、使用 figma mcp、制作 remotion UI 并渲染。 我根本没碰视频编辑器。
MCP/工具教程/实践视频
00:02
Kling AI@Kling_ai
25
这个足球里面有什么?⚽
行业动态视频
6月10日
22:01
Kling AI@Kling_ai
54
可灵Kling AI两周年:全球用户突破1亿

2024年6月,创作者开始使用可灵Kling AI。用户反复提出“如果角色更生动”“如果动作更真实”“如果她能说话”等需求。从Kling 1.0到3.0,每次迭代都基于创作者反馈改进。2026年6月,可灵Kling AI全球用户突破1亿。官方在二周年之际向所有创作者致谢。

行业动态视频
21:56
HuggingFace Daily Papers(社区热门论文)
68
Next Forcing:基于多块预测的因果世界建模

Next Forcing 提出多块预测(MCP)框架,受大语言模型多 token 预测启发,在主模型上添加轻量级辅助 MCP 模块,同时对多个未来时间步的视频块去噪。50fps 下训练 5k 步时相对 LingBot-VA 提升 93.1%,收敛速度加快 2.3 倍;在 RoboTwin 基准上达 94.1%(Clean)/93.5%(Random)新 SOTA。推理时保留 MCP 模块可实现 2 倍加速。在物理规律基准 PhyWorld 上也有显著提升,通用视频预训练 FVD 降低超 50%。

arXiv具身智能数据/训练视频
21:34
AYi@AYi_AInotes
68
10万粉小红书AIGC博主爆款拆解:封面靠画面、选题萌宠拟人化、5/7为品牌合作

一位10万粉小红书AIGC博主,不带货、不卖课、不引流私域。拆解7篇赞≥5000爆款:封面5篇零文字靠画面,唯二带大字的为品牌广;7篇中5篇品牌合作(兰蔻、李锦记、华为、脉动),产品嵌入“猫咪meme”“穿进古画当厨子”剧情;选题萌宠拟人化,一条AI跳舞猫获7.9万赞、4.2万藏;标题用强动词如“闯进/穿进/征服”+疑问感叹;开头直说用户心里话或具体场景;全部视频、0图文。详细提示词见原文。

AYi: http://x.com/i/article/2064536412670562304

图像生成教程/实践视频
21:16
TechCrunch:AI(RSS)
61
Decart 发布 Oasis 3:实时世界模型可模拟数小时逼真驾驶场景

Decart 推出 Oasis 3,一个实时世界模型,能够生成逼真的驾驶环境用于自动驾驶车辆测试,现已通过 API 向开发者开放。

具身智能模型发布视频
20:27
🚨 AI News | TestingCatalog@testingcatalog
63
HeyGen 发布 HyperFrames 连接器,成为 Claude 官方连接器(与 Anthropic 合作)。用户可在 Claude 对话中直接生成短视频。合成代理内置 25+ 技能,处理排版、运动、字幕和语音,云端渲染输出 MP4、WebM 或 MOV。旨在解决 LLM 回答文本密集、难以阅读的问题,将文档略读转化为视频理解。

HeyGen: Hyperframes is now an official @claudeai connector LLM answers are often dense pages of text that go unread we partnered...

AnthropicMCP/工具产品更新视频
19:56
HuggingFace Daily Papers(社区热门论文)
66
FadeMem:面向自回归视频生成的距离感知内存合并机制

自回归视频生成器的历史 KV cache 随视频长度增长。FadeMem 提出距离感知内存合并机制,在固定缓存预算下将历史 KV 块组织成时间层次,利用频率依赖的时间衰减(细粒度细节快速去相关,粗粒度场景结构保持更久)。生成时新历史作为细粒度条目插入,较旧相邻条目按幂律调度逐步合并,形成近密远疏内存。无需改动架构,即可保留近期上下文并为身份与场景连贯性提供紧凑长程锚点。实验表明在主体一致性、背景稳定性和时间连贯性上优于现有有界缓存策略。

视频论文/研究
‹ 上一页
1…678910…28
下一页 ›