01:08
Apple Machine Learning Research(RSS)
VideoFlexTok:可变长度粗到细视频分词VideoFlexTok提出一种可变长度token序列的视频表示方法,采用粗到细结构——首个token捕捉语义和运动等抽象信息,后续token添加精细细节,生成流解码器支持任意token数量的视频重建。相比传统3D网格分词,该结构允许根据下游需求调整token数,在相同预算下编码更长视频。在类别和文本到视频生成任务中,VideoFlexTok以1.1B参数(5.2B的1/5)达到可比生成质量(gFVD和ViCLIP Score)。训练一个处理10秒81帧视频的文本到视频模型仅需672个token,比同等3D网格分词器少8倍。
推荐理由:把视频 tokenization 从固定网格改成变长 coarse-to-fine,训练效率提升明显,还能做更长的视频。研究角度挺漂亮,但离产品落地还有距离,做视频生成的可以追一下。
00:06
快手可灵AI获初始投资者20.28亿美元注资,投后估值180亿美元快手在港交所公告,21名初始投资者同意以138.24亿元人民币(20.28亿美元)现金注资北京可灵,后者将持有可灵AI相关资产。同日15名额外投资者追加出资52.235亿元人民币(7.6639亿美元),认购总上限为204.471亿元(30亿美元),对应北京可灵扩大后注册资本的16.67%。投后估值180亿美元。快手预计未来12个月内启动可灵AI赴港上市,募资用于扩充算力、建设数据中心及人才引进。
推荐理由:可灵AI这轮180亿美元估值融资,是AI视频赛道迄今最重量级的资本动作之一,也是中国AI公司分拆上市的标杆事件,值得关注后续上市进程。
19:39
meng shao@shao__meng browser-use 发布开源 AI 视频剪辑 Skill「video-use」browser-use 团队推出面向 Codex、Claude Code 等 AI 编码智能体的开源 Skill「video-use」,让 LLM 通过 ElevenLabs Scribe 将音频转写为约 12KB 文本(含逐词时间戳、说话人分离、事件标记),仅在决策点调用 timeline_view.py 生成 PNG 帧图。技术流水线包括转写、打包、生成 JSON 格式 EDL、ffmpeg 渲染及最多 3 轮自评估。渲染关键细节:分段提取 + -c copy 拼接、30ms 音频淡入淡出、PTS 时移、字幕最后叠加、HDR 自动映射、竖屏缩放、两-pass loudnorm。动画支持 HyperFrames、Remotion、Manim 等引擎。项目附带 12 条硬规则确保生产正确性。
推荐理由:browser-use 团队把 AI 视频剪辑从「看视频帧」变成「读转写文本」,12KB 文本代替 4500 万 token 噪声的思路很聪明,一套可落地的 ffmpeg 脚本集,做 AI agent 视频处理的可以直接抄。
02:41
Runway发布Agent 2.0Runway发布Agent 2.0,帮助营销人员创建、测试和优化广告、视频及营销活动。品牌营销人员可在对话中开发活动概念、生成变体并自动本地化;绩效营销人员可上传创意并导入Meta、YouTube、TikTok或Google广告数据,由Agent分析后生成下一轮待测广告。社交媒体营销人员可一次性生成一周内容,自动裁切为9:16、16:9、1:1等格式;产品营销人员可借助Agent确定定位角度并构建活动资产。Agent 2.0面向所有用户开放。
推荐理由:Runway的Agent 2.0不只是生成视频,它试图打通从广告数据分析到全平台素材生成的闭环,做增长和社交内容的团队可以观望一下。
11:12
HuggingFace Daily Papers(社区热门论文)
Causal-rCM:自回归视频扩散蒸馏的统一教师强制与自强制开源方案Causal-rCM将扩散蒸馏框架rCM扩展至自回归视频扩散,提出教师强制(TF)与自强制(SF)互补训练范式,并发布统一开源算法与基础设施。通过自定义掩码FlashAttention-2 JVP内核,首次实现基于教师强制的连续时间一致性模型(sCM/MeanFlow)用于自回归视频扩散,收敛速度比离散时间版本快10倍。蒸馏后的2步因果Wan2.1-1.3B模型在仅1或2步采样下取得VBench-T2V分数84.63,仅使用合成数据即达到帧级和块级流式视频生成SOTA。该方法还应用于Cosmos 3全模态世界基础模型,实现动作条件生成的交互式世界模型。
推荐理由:把自回归视频扩散蒸馏到1-2步采样,VBench冲到84.63,这个配方让实时视频生成和交互世界模型从论文走进了工程落地,做视频产品的该看。
03:21
Hao AI Lab@haoailab FastWan-QAD:单卡5090上1.8秒生成5秒视频Sky Computing Lab 发布 FastWan-QAD 视频生成模型系列,基于 FastVideo 的量化感知蒸馏(QAD)方案训练。在单张 NVIDIA GeForce RTX 5090 上,端到端生成一段 5 秒 480P 视频仅需 1.8 秒。模型、代码及博客已开源。
推荐理由:单张 RTX 5090 上 1.8 秒生成 5 秒视频,把消费级延迟压到了‘即时生成’的临界点,做短视频和互动应用的开发者可以认真把这个模型放进技术栈。
07:18
Aleph 2.0 现已集成到 Figma WeaveAleph 2.0 是 Runway 的旗舰视频编辑模型,现已在 Figma Weave 中上线。它是一个基于上下文的视频编辑模型,通过关键帧工作:从视频中提取一帧,重新设计风格并附上时间戳连接回 Aleph 2.0 节点,即可将该编辑传递到主体出现的每一帧,同时保持其他内容不变。支持最长 30 秒、1080p 的片段,可跨多镜头序列应用编辑,无需逐镜头处理。
推荐理由:Runway 把旗舰视频编辑模型直接接入了 Figma 的创意画布,对设计师和视频团队来说,这意味着帧级编辑不用切换工具,协作流程可能大幅简化。
03:05
Google DeepMind 7500 万美元投资 A24,合作开发电影 AI 工具Google DeepMind 宣布向独立电影制片厂 A24 投资 7500 万美元(据《华尔街日报》),双方将合作开发电影制作 AI 工具。A24 出品过《万事俱备》《后室》等影片。Google DeepMind CEO Demis Hassabis 称,希望通过与艺术家直接合作,打造支持创意表达的 AI 功能。此举是好莱坞最新一次科技公司与电影 AI 联手,此前 Netflix 已收购 Ben Affleck 的 AI 工具公司 Interpositive,亚马逊 MGM 工作室也在去年设立了影视 AI 部门。
推荐理由:Google DeepMind 首次在影视内容创作上投入 7500 万美元,与 A24 合作开发 AI 工具,这标志着顶尖 AI 实验室开始直接渗透好莱坞核心创意流程,做文娱 AI 工具的人和关注产业交叉点的人应该留意。
21:07
阿里云发布HappyOyster 1.0:一句话生成可实时交互的数字世界6月17日,阿里云发布开放式世界模型HappyOyster 1.0(快乐生蚝)。该产品基于原生多模态架构,支持多模态输入与音视频联合生成,可在生成过程中持续接收用户指令并实时响应画面。它深度学习物理世界状态转移规律,保持人物和环境长程一致性。官网开放“实时导演”与“世界探索”两种玩法:前者可随时叫停改写故事、与虚拟男友实时互动等;后者支持自由漫游、滑板冲刺、翼装滑翔、骑马奔驰、攻击打怪等交互。该产品已于今年4月16日开放内测,即日起至7月17日官网不定期掉落体验积分。
推荐理由:阿里把世界模型做成了可玩的交互产品,一句话生成能探索能互动的数字世界,实时导演模式直接替代了一部分短剧和互动内容创作,虽然还像噱头但至少是能玩的尝试。
17:50
Kickart 3.0发布,让广告视频创作更精准高效火山引擎一站式营销创作平台Kickart 3.0(原“创作Agent”)正式上线,升级为对话式视频生成模式,用户可通过多轮对话调整商品图、故事板等,用自然语言生成营销视频。新增“爆款裂变”能力,上传视频链接后自动拆解爆款逻辑并重构至新商品视频,支持抖音电商内容合规与质量预审核。平台开放SaaS、API及Skill等多种交付方式,并已接入Seedance 2.0 mini,助力降低广告营销成本。
推荐理由:火山引擎为营销人带来的视频生成工具体验不错,对话式调整和爆款裂变能降低创作门槛,但对于关注AI技术进展的读者,这更像一次垂直行业产品迭代,亮点有限。
08:27
宝玉@dotey baoyu-design 本地动画视频导出功能更新baoyu-design(本地运行 Claude Design 的 Skill)新增动画视频导出功能。其声明式动画引擎基于 f(t) 设计:任意时间点 t 可绝对确定画面状态。导出采用无头 Chromium 逐帧截图 + ffmpeg 编码,每帧等待两帧 requestAnimationFrame 确保渲染完成。截图以 2 倍 DPR(3840×2160)再缩回 1080p,保证细节清晰。95 秒 30fps 动画需 2850 次截图循环,帧帧精确。项目已开源(MIT),获 1.2K star。此前 baoyu-design 已支持 PPT 本地生成和导出可编辑 PPTX。
宝玉: baoyu-design skill(让你本地运行 Claude Design 的 Skill)更新,本地生成 PPT 的效果,可以借助 Cursor、Codex 内置的浏览器预览 PPT,也可以直接用它们的标记工具修改 PPT 细节。按 ...
推荐理由:宝玉把 Claude Design 动画导出能力做成了本地 skill,原理讲得很透,声明式引擎加 f(t) 直接抽帧的思路让开发者能零成本复现,想要高质量 AI 动画输出的创作者可以立即用起来。
10:00
成本砍半,字节跳动推出 Seedance 2.0 Mini 视频生成模型字节跳动火山引擎旗下火山方舟体验中心于 6 月 15 日上线 Seedance 2.0 Mini 视频生成模型,计划近期开放 API。该模型比 Seedance 2.0 Fast 快 2 倍,输出质量相当。图生视频定价 0.023 元/千 tokens,视频生视频 0.014 元/千 tokens,720P 规格下单秒生成成本约 0.5 元,较 Seedance 2.0 标准版降低约一半。模型面向电商内容生产、营销素材批量生成、UGC 创作及特效玩法等高频率、大规模视频生成场景。
推荐理由:Seedance 2.0 Mini 把视频生成成本压到 0.5 元/秒,比标准版便宜一半,对做大批量电商素材和 UGC 的团队是个实际信号,值得等 API 开放后看实测。
17:00
HuggingFace Daily Papers(社区热门论文)
HYDRA-X: 原生统一多模态模型与整体视觉分词器HYDRA-X 是首个在单个 Vision Transformer (ViT) 中统一图像与视频 tokenization 的统一多模态模型。通过帧级因果时间注意力实现视觉重建,并采用层级时间压缩替代单步压缩。轻量级解压器在联合图像-视频教师监督下上采样时间压缩特征。编辑管线中,源-目标交互在分词器内部潜在层面而非 LLM 语义层面进行,提升编辑一致性与收敛速度。7B 密集模型在图像与视频理解及生成任务上表现强劲。
推荐理由:HYDRA-X 第一次把图像和视频标记塞进同一个 ViT,光看设计了帧级时序注意力和分层压缩这两个小 tricks 就值回票价,做多模态模型的该读读。
16:56
HuggingFace Daily Papers(社区热门论文)
快手开源 Kwai Keye-VL-2.0-30B-A3B:面向长视频理解与智能体智能的 MoE 多模态模型快手开源 Kwai Keye-VL-2.0-30B-A3B,一个 MoE 多模态基础模型,激活仅 3B 参数,专为长视频理解和智能体智能设计。模型首次将 DeepSeek Sparse Attention (DSA) 适配到 GQA 多模态架构,实现无损 256K 上下文处理,并通过可扩展视频 I/O、异构 ViT-LM 并行及自定义 DSA 内核优化吞吐与计算开销。引入跨模态多教师在策略蒸馏(MOPD)结合 Context-RL 和 Video-RL,缓解多任务对齐中的灾难性遗忘,原生支持代码、工具、搜索场景下的多智能体协作与多模态自纠正。在 TimeLens、Video-MME-v2、LongVideoBench 等多个基准上达到同类规模 SOTA,模型权重已开源。
推荐理由:Keye-VL-2.0 把长视频理解推到 256K 上下文,还用了 DeepSeek 的稀疏注意力,这是目前我能找到的对长短视频最兼顾的多模态模型,做视频 agent 的该看看。
12:56
HuggingFace Daily Papers(社区热门论文)
Flow-DPPO: 面向流匹配模型的散度近端策略优化针对流匹配模型中在线强化学习比率裁剪策略约束不当的问题,Flow-DPPO 提出用散度近端约束替代。关键洞察是流模型每步策略为高斯分布,可精确计算新旧策略间的 KL 散度。Flow-DPPO 采用非对称散度掩码,仅在梯度更新偏离信任区域且超阈值时阻止更新。实验表明,Flow-DPPO 获得更高奖励,KL 近端效率更优,缓解了灾难性遗忘,促进多目标均衡,并能在比率裁剪失效时支持稳定的多轮训练。代码已开源。
推荐理由:用 KL 散度代替比值裁剪来解决流匹配 RL 训练的不稳定,理论简洁,代码已开源,做图像/视频生成优化的同学可以跑一下。
12:40
火山方舟版权商业化平台上线,周星驰比高集团三大电影IP首批入驻火山引擎今日上线火山方舟版权商业化平台,推出行业首个覆盖“授权—保护—审核—分发—变现”全链路的版权合作机制。平台搭载视频生成模型Seedance 2.0及版权治理体系,已获周星驰旗下比高集团《喜剧之王》《食神》《长江七号》三部影片在AI视频创作场景下的版权使用权,并基于Seedance 2.0打造经典桥段AI创作模板。模板已在火山方舟体验中心、火山引擎Kickart上线,同步开放给LibTV、筷子科技丽帧引擎等工具合作伙伴。平台面向UGC和商业广告场景提供分润制、项目制等变现路径,未来还将提供版权管理后台,实现授权可见、使用可查、收入透明。
推荐理由:这是AI视频领域第一次有平台把版权授权、审核、变现全链路跑通,而且首批入驻的是周星驰的《喜剧之王》《食神》这种真金IP,做AI视频的人终于不用在侵权边缘试探了。
21:36
小互@xiaohu 小互开源视频翻译工具:一句话自动下载、转写、翻译、烧字幕小互(@xiaohu)开源视频翻译工具(xiaohu-video-translate),只需说一句“把链接翻译成中文字幕视频”即可全自动完成下载、Whisper本地转写、AI翻译润色、烧字幕、出文稿。转写本地运行,不花API费。支持YouTube、Bilibili、抖音等链接及本地文件,英语、日语、韩语、法语、西班牙语等均可转成中文字幕。字幕精确到词级时间戳,按语义断句,每行不超过12字,双语模式下中文大英文小。提供纯中文与中英双语模式。工具由三个子技能组成,可单独或串联使用,适配Claude Code、Codex、OpenClaw等AI编程工具。已开源,附安装指南。
推荐理由:小互把自己用了半年的视频翻译工具开源了,本地Whisper转写加AI润色,下载、翻译、烧字幕一句话搞定,做海外视频搬运或想省时间的,装一下就能省掉大半天手工。
17:32
生数科技与华策影视达成战略合作,共建AI视听创制中心6月7日,生数科技与华策影视签署战略合作协议,共同推动AI与影视产业融合。双方将以华策影视科技产教示范区为载体、生数科技Vidu视频生成大模型为技术底座,设立“AI视听创制中心”,探索AI虚拟制作与实拍结合。同时在浙江华策影视学校设立“华策&生数AI影视创制专业”,课程覆盖传统编导剪与AI视频制作技术。内容生产层面推广“实拍+AI”融合方案并优先在华策项目中试点,创作者生态层面引导Vidu社区超级创作者到产教基地注册。
推荐理由:AI 视频不再只是跑 demo,Vidu 和华策的合作把生成模型拉进了真实生产流程,做影视的人该开始关注落地速度了。
10:42
HuggingFace Daily Papers(社区热门论文)
Echo-Infinity:学习演化记忆实现实时无限视频生成Echo-Infinity 是一个自回归(AR)框架,用于实时无限视频生成。它用可学习的演化记忆替代人工缓存策略,通过注意力机制和门控更新 Memory Query,与视频扩散 Transformer(DiTs)端到端优化,支持任意压缩比且计算量不随视频长度增加。同时引入 Unified Relative RoPE Recipe,锚定 sink 帧从 id 0 开始、最新帧 id 不超过预训练最大时间 RoPE id,解除有限 RoPE 约束并缩小外推差距。在长/短视频生成中达到 SOTA,首次实现 24 小时(超 130 万帧)实时滚动生成。
推荐理由:论文把长视频生成的记忆机制从手动压缩换成了可学习的动态演化,首次做到24小时实时无限生成,这对视频生成走出‘短视频玩具’阶段是个决定性的信号。
09:28
xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)xAI 通过 API 发布了图像转视频模型 grok-imagine-video-1.5-preview(Grok Imagine 1.5 预览版)。该模型能将单张静态图片转为流畅的电影感视频,用户提供起始帧和描述运动的提示词后,模型可生成包含相机移动、氛围和物理效果的动画,并保持对源图像的忠实。支持生成 720p 片段,可使用自然语言指令控制镜头、节奏和音效,并支持逐帧拼接成长场景。模型目前通过 xAI API 提供预览使用。
关联讨论 4 条X:Elon Musk (@elonmusk, xAI)X:阿易 AI Notes (@AYi_AInotes)X:cb_doge (@cb_doge)xAI:News(网页)
推荐理由:xAI的新视频模型从单张图像生成电影级短片,支持自然语言控制运镜和氛围,对视频创作者和开发者是个值得一试的工具。
13:38
Vibe Creating:让创作回归「表达」本身火山引擎 Seedance 2.0 提出 AI 视频创作新范式 Vibe Creating,核心是让创作者放下技术负担,用故事表达代替复杂 Prompt 参数。该范式强调用富有画面感的语言描述场景、情绪和叙事,模型自行理解意图并完成景别、光影、节奏的诠释,避免过度规定镜头调度。适用于文学作品可视化、影视预演等场景,并配套发布《Vibe Creating 实践手册》及可执行的 Prompt Skill,从创意到高质量提示词一步到位。
推荐理由:火山引擎把 Seedance 2.0 的用法提炼成「Vibe Creating」方法论,核心是教人用故事感代替镜头术语,虽然不涉及模型升级,但附带可直接套用的手册和 Skill,做 AI 短视频的可以当成 Prompt 指南。
18:24
Runway 在伦敦设立欧洲总部及世界模型研究中心Runway 宣布在伦敦建立新的欧洲总部和专注于通用世界模型的研究中心。公司计划在未来18个月向英国AI生态投资$100M,到2028年投资额将翻倍以上。过去12个月,其在欧洲的订阅销量增长了50%,企业客户占比超20%。新总部将扩大其在欧洲的研究与商业布局,公司正招聘欧洲负责人以组建跨研究、产品、工程和销售的团队,并深化与BBC、Fremantle、WPP等企业的合作。世界模型是其研究的核心,旨在将生成式AI的应用扩展至机器人、科学研究与工业模拟等领域。
关联讨论 1 条X:Runway (@runwayml)
推荐理由:Runway 把世界模型研发带到伦敦并承诺 1 亿美元投资,不是新品但战略意义清晰,欧洲的视频创作者和工业仿真团队离顶尖工具更近了,做影视、游戏和机器人的可以关注后续落地。
08:00
HuggingFace Daily Papers(社区热门论文)
τ_0-WM:用于机器人操控的统一视频-动作世界模型τ_0-World Model (τ_0-WM) 是一个统一的视频-动作世界模型,旨在机器人执行动作前预测并评估其未来后果。模型基于共享的视频扩散主干网络构建,提供两个接口:一个联合预测未来视觉潜在表示与连续动作块的视频动作模型,以及一个能将动作序列展开为多视角未来并预测任务进度分数的动作条件视频模拟器。τ_0-WM 使用约27,300小时的多元数据训练,包括真实机器人遥操作、UMI风格交互、自我中心人类视频等。推理时,模型通过测试时计算采样动作候选,并利用去噪一致性和基于模拟器的修正来筛选低质量动作,在长时程和精细机器人操控任务上表现出优于相关基准的性能。
推荐理由:机器人操作领域的大一统尝试,把视频预测和动作生成放在一个扩散模型里,还用27万小时数据训练,做具身智能的可以看看这个架构。
22:34
Project Luxo:跨越AI媒体的恐怖谷Runway通过Project Luxo研究发现,AI生成视频已跨越“恐怖谷”。他们向创意生态从业者展示了《The Rogue》等AI短片及广告样片,评估显示观众开始关注故事本身,而非技术瑕疵。所有作品均由单人团队制作,耗时从3周到4小时不等。Runway认为,这标志着AI媒体成熟——当技术足够好以至于“隐形”,观众沉浸于故事时,便实现了这一跨越。
关联讨论 1 条X:Runway (@runwayml)
推荐理由:Runway 用短片和一次百万播放广告测试宣称 AI 视频已越过恐怖谷,观众开始投入故事而非找瑕疵。这对内容生产的心理门槛是一次重塑,但一次推广式的成功不等于行业已稳定跨过。
11:18
HuggingFace Daily Papers(社区热门论文)
WBench:面向交互式世界模型评估的多轮基准WBench 是一个用于系统评估交互式世界模型的多轮基准。它提出了一个五维评估框架,涵盖视频质量、场景设定遵循度、交互指令遵循度、一致性与物理符合性。该基准包含 289 个测试案例与 1,058 轮交互,覆盖了多样化的场景、风格、主体及第一/第三人称视角。评估使用 22 个结合专业视觉模型与大型多模态模型的自动子指标,所有指标均经过人工校验。对 20 个 SOTA 模型的评测发现,目前尚无模型在所有维度上表现均优。
推荐理由:视频世界模型的评估终于有了统一尺度,WBench 从画面质量到物理一致性覆盖五个维度,289 个测试用例把 20 个模型拉平一看,没有谁全面领先,做这方向的值得拿来跑一遍。
08:00
HuggingFace Daily Papers(社区热门论文)
GE-Sim 2.0:面向机器人操作的全面闭环视频世界模拟器路线图GE-Sim 2.0是一个用于机器人操作的闭环视频世界模拟器。它基于动作条件视频生成框架,并使用数千小时涵盖遥操作与接触交互等真实世界数据进行重新训练,提升了动作跟随与轨迹覆盖能力。其核心新增三个模块:从视频潜变量解码本体感受状态的“状态专家”;为生成轨迹评分并提供成功信号与奖励的“世界评判”;以及能实现快速轨迹生成的加速框架。该模型仅2B参数,在WorldArena排行榜上位列第一,优于专用模型与闭源生成器,其训练出的策略能转化为实际世界性能提升。
推荐理由:过去机器人策略训练卡在仿真到真机的鸿沟上,GE-Sim 2.0 把视频生成、状态提取和自动评估闭环了,策略迭代效率可能翻倍,搞具身智能的很值得蹲一下。
06:39
ViggleAI@ViggleAI 动作捕捉和角色动画制作从未如此简单。
持续构建,更多功能即将推出!PINOC: A walkthrough of what PINOC does: 🧵 1. Upload a motion video, get clean skeletal animation. Export as .fbx/.glb, ready ...
推荐理由:Viggle 把视频转骨骼动画这件事做到了零成本,无动捕设备、直接导出 FBX,对独立动画师和小团队挺友好,值得试试看。
00:52
NVIDIA Cosmos Predict 2.5 微调:使用 LoRA/DoRA 生成机器人视频NVIDIA Cosmos Predict 2.5 是一个 2B 参数的世界模型,可根据文本、图像或视频片段生成物理合理的视频。通过 LoRA 或 DoRA 在 DiT 的注意力层(to_q, to_k, to_v, to_out.0)和前馈层注入可训练适配器,冻结全部基座权重,在单个 80GB GPU 上即可完成参数高效微调,避免了全量微调的高成本与灾难性遗忘。该流程使用 diffusers 和 accelerate 库,利用 92 个机器人操作视频训练集与 50 个 (prompt, image) 测试对进行微调,并展示如何用微调模型生成合成机器人轨迹以支持下游机器人学习任务。支持单 GPU 与多 GPU 训练,切换不同领域适配器无需重训。
推荐理由:这篇教程把微调Cosmos Predict 2.5的方法从头到尾讲清楚了,做机器人合成数据的同行可以直接抄作业,LoRA/DoRA切换也很方便,值得收藏。
23:31
Hacker News 热门(buzzing.cc 中文翻译)
SANA-WM:一个用于生成1分钟720p视频的26亿级开源世界模型NVIDIA研究团队发布了SANA-WM,这是一个参数规模达26亿的开源世界模型,专门用于生成长达1分钟、分辨率为720p的视频。该模型已在GitHub页面开源,旨在推动高质量长视频生成的研发。其在Hacker News社区获得了107点热度,显示出业界对该技术进展的关注。
推荐理由:开源且能跑 1 分钟 720p,NVIDIA 这个 2.6B 世界模型在物理一致性上跨了一大步,做视频生成和物理仿真的同行该坐不住了。
08:10
Runway正式进军日本市场,在东京设立总部并投入4000万美元生成式AI公司Runway宣布在日本东京设立总部,正式进军日本市场,并计划投入4000万美元初始资金拓展业务。日本已成为Runway增长最快的市场之一,是其全球企业及自助客户的第三大市场。过去一年,日本企业客户数量增长300%,贡献了Runway亚洲总销售额的三分之一。软银、雅马哈等企业已在营销与创意流程中使用其服务。公司此次扩张旨在贴近日本领先的创意、机器人及制造行业客户,并已开始招募日本市场负责人以组建本地团队。
推荐理由:Runway 在日本已有 300% 企业增长,这次砸 4000 万美元设东京办公室,对关注亚洲市场的人来说是个信号,AI 视频工具的全球化布局正在加速。