AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「视频」清除
6月23日周二
13:09Ethan Mollick43Midjourney奇怪氛围图像动画无可替代
12:15小互59字节跳动发布 Seedance 2.0/2.5 视频模型及版权平台
12:14Berryxia.AI27字节 Seedance 2.5 发布,版本直接跳升
12:14Berryxia.AI58Seedance 2.5 发布:30 秒原生视频 + 50 全模态素材
12:10meng shao57字节跳动发布Seedream 5.0 Pro与Seedance 2.5
09:44小互29字节火山引擎大会发布 Seedance2.5、豆包 Seed2.1 等新模型
09:13Berryxia.AI72成峰开源剪辑Skills接入Codex,Agent自动完成口播视频剪辑与合成
09:04Luma25Luma制作《火灵传奇》世界等待被发现
08:40meng shao59HeyGen HyperFrames 推出 pr-to-video 技能:AI 智能体将 PR 自动转为解释视频
08:07IT之家(RSS)59谷歌 DeepMind 向独立制片公司 A24 注资 7500 万美元,共同研发影视 AI 工具
08:00HuggingFace Daily Papers(社区热门论文)68Wan-Streamer v0.1: 端到端实时交互基础模型
07:18Runway:News(网页)59精选Aleph 2.0 现已集成到 Figma Weave
04:10Runway57Runway Aleph 2.0 改变视频比例适配平台
03:05TechCrunch:AI(RSS)70精选Google DeepMind 7500 万美元投资 A24,合作开发电影 AI 工具
00:39Artificial Analysis50Artificial Analysis 推出视频编辑竞技场(Video Editing Arena)
6月22日周一
23:13The Decoder:AI News(RSS)52Google Deepmind与A24合作开展AI电影制作研究
23:04Kling AI37可灵AI创作者Maria Rubtsova分享病毒视频秘诀
22:05IT之家(RSS)63生数 Vidu Q3 多模态视频大模型上线华为云 MaaS,主打文/图生视频一体化成片
21:07PixVerse28PixVerse Originals S1 推出 Skyforged 短片
19:40Alibaba Cloud48阿里云HappyHorse 1.1正式上线
19:30公众号:卡尔的AI沃茨65字节小云雀短剧 Agent 2.0 上线:Seedance 2.0 Mini 模型降价,新增720度场景与3D导演台
19:10Alibaba Cloud61HappyHorse 1.1 上线阿里云百炼
19:07PixVerse29PixVerse Canvas功能获创作者好评
17:05IT之家(RSS)71同事件精选让大模型从"一问一答"走向"边看边说",京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction同一事件,精选展示《京东全栈开源JoyAI-VL-Interaction,从“一问一答”走向“边看边说”》
16:11Berryxia.AI27CuiMao用seedance2和Grok Imagine Video 1.5制作Fable 5谍战短片
16:07DogeDesigner18Grok将制作好莱坞级电影,指日可待
15:05IT之家(RSS)62阿里巴巴发布视频生成模型 HappyHorse 1.1
09:04IT之家(RSS)45索尼再谈AI游戏战略:自动化流程解放开发者,打造个性化玩家体验
6月21日周日
19:03PixVerse19PixVerse 创作:记忆赋予平凡之物意义
6月20日周六
23:21Kling AI20可灵AI预告MV,三天后发布
12:01AYi68Cascadeur 取消 AI 动画 token 计费,实现全本地无限生成
11:23PixVerse52PixVerse 上线《足球小将》官方模板
03:21Luma51Luma AI 推出 Timeline 剪辑与 EDL 导出
01:23Runway26Runway:单人一天制作全球广告
01:21Luma30Luma AI:独立机构AI一年新突破
6月19日周五
21:19OpenBMB54社区开发者基于 VoxCPM2 和 ComfyUI 构建 VoiceGate,实现跨语言视频配音
21:02Berryxia.AI23日本人整动漫不得不说有一套,没有AI的化做这个视频得多久呢?
20:51elvis75精选/youtube-notetaker:YT 视频转 Artifacts
16:42PixVerse55PixVerse 上线足球小将模板,上传照片即生成动漫视频
10:47HuggingFace Daily Papers(社区热门论文)56当前世界模型缺乏持久状态核心
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月23日
13:09
Ethan Mollick@emollick
43
我知道他们正在转向医疗保健(?!),但Midjourney在制作奇怪且氛围感的图像和短动画方面仍然无与伦比,其他AI图像生成器都无法做到。 下面是我用类似提示但风格迥异的提示词制作的一些奇怪城市。
图像生成大佬观点视频
12:15
小互@xiaohu
59
字节跳动发布 Seedance 2.0/2.5 视频模型及版权平台

字节跳动推出 Seedance 2.0 升级版及 Seedance 2.5 视频生成模型,可一次生成 30 秒短片,原生支持 4K 分辨率,支持 50 个全模台参考素材输入及 3D 白模。同时发布 AI 版权商业化平台,允许用户使用官方授权的 IP 电影版权进行创作并参与分成。

多模态模型发布视频
12:14
Berryxia.AI@berryxia
27
字节跳动已发布视频生成模型 Seedance 2.5,版本号从 2.1 直接跳至 2.5(增幅 0.4,而非小版本 0.1),暗示迭代幅度较大。目前具体功能更新尚未公布,但预计字节旗下多个产品将第一时间接入该模型。此前曾有预期 Seedance 2.1 发布,实际直接上线 2.5,进一步印证此次升级的重要性。

Berryxia.AI: 下一周估计有几个好玩的事儿吧? 1️⃣ GPT-5.6 发布 2️⃣ Seedance 2.1 发布 还有什么模型要发布的,然后就看到一堆视频、模型中转站的宣发了😈

大佬观点视频
12:14
Berryxia.AI@berryxia
58
字节跳动发布视频生成模型 Seedance 2.5,版本从 2.0 直接跳升至 2.5,预示大幅迭代。新版本支持单段 30 秒原生视频生成,无需拼接;同时可输入最多 50 个全模态参考素材,极大提升创作素材容量。定价尚未公布,但用户预期可能大幅上涨。

Berryxia.AI: 字节已经发布了Seedance 2.5 了,直接起跳就是半个点,都不是0.1 说明这次的迭代应该蛮大的。 还挺期待的看看到底有哪些变化,应该有很多产品都会第一时间接入自家的产品了。 开始吧~·

多模态模型发布视频
12:10
meng shao@shao__meng
57
字节跳动发布Seedream 5.0 Pro与Seedance 2.5

字节跳动在火山引擎FORCE 2026原动力大会上官宣发布Seedream 5.0 Pro和Seedance 2.5,分别聚焦图像和视频的理解与生成。在OpenAI Sora关停、Google Veo迟迟不更新的背景下,图像视频生成赛道基本成为中国大厂的竞争阵地,包括字节跳动、阿里巴巴、快手等。

图像生成模型发布视频
09:44
小互@xiaohu
29
字节火山引擎大会发布 Seedance2.5、豆包 Seed2.1 等新模型

字节跳动今日在 2026 火山引擎大会上发布 Seedance2.5,同时推出全新豆包 Seed2.1 模型,声称能力达 Opus4.6 水平,以及新款图像模型 Seeddream 5.0。具体参数、性能分数及定价信息尚未公布。

产品更新图像生成多模态视频
09:13
Berryxia.AI@berryxia
72
成峰开源剪辑Skills接入Codex,Agent自动完成口播视频剪辑与合成

成峰开源了一款2000+ Star的剪辑Skills,与Codex结合后,Agent可自动完成口播视频的剪辑、分镜、动画及合成。流程:先安装Skills,用/剪口播命令上传素材和文稿,生成审核页并输出带字幕视频;再用/口播成片命令生成HTML分镜核对页,用户反馈后Codex通过Computer Use自动调整,最后用HyperFrames合成最终MP4。视频生产从手动执行转向流程编排。

Agent成峰: http://x.com/i/article/2068926393719685120

智能体MCP/工具开源/仓库教程/实践
09:04
Luma@LumaLabsAI
25
有些世界早在我们的世界之前就已存在。它们只是等待着被看见。 火灵传奇,一个由 Vinod Padmanabhan 创作的世界。使用 Luma 制作。
行业动态视频
08:40
meng shao@shao__meng
59
继 Claude Code 开发者用 HTML 代替 Markdown 向人类解释模型输出后,HeyGen 为其 HyperFrames 平台推出新技能 pr-to-video。智能体可将无人阅读的 Pull Request(PR)直接转化为简短解释性视频,用户可通过命令 `npx skills add heygen-com/hyperframes` 添加该技能。作者感叹视频或为人类最佳信息输入源,并表示将重启视频内容。

HeyGen: This week we're launching new skills for HyperFrames, each built around a workflow Today is pr-to-video Nobody reads pul...

MCP/工具产品更新编码视频
08:07
IT之家(RSS)
59
谷歌 DeepMind 向独立制片公司 A24 注资 7500 万美元,共同研发影视 AI 工具

6 月 23 日,谷歌 DeepMind 宣布向独立电影制片公司 A24 注资 7500 万美元(约合 5.09 亿元人民币),双方将联合研发影视制作人工智能工具。DeepMind 称此为“业内首创”合作模式,将吸纳顶尖创作者的专业指导。A24 曾出品《瞬息全宇宙》等影片,近期与提莫西·查拉梅、安妮·海瑟薇等艺人合作。DeepMind 联合创始人德米斯·哈萨比斯表示,与创作者直接协作是开发赋能工具的最佳途径。

DeepMind行业动态视频
08:00
HuggingFace Daily Papers(社区热门论文)
68
Wan-Streamer v0.1: 端到端实时交互基础模型

Wan-Streamer v0.1 是原生流式、端到端的交互基础模型,在单一 Transformer 中统一建模语言、音频和视频的输入与输出,序列表示为交错视觉、音频、文本 token,通过块因果注意力实现增量流式。无需外部 VAD、ASR、TTS、视频生成等模块,感知、推理、生成、响应时序等由单一模型联合学习。整套栈围绕流式化重新设计,支持 25 fps 下 160 ms 的流式单元。模型侧响应延迟约 200 ms,结合 350 ms 双向网络延迟后总交互延迟约 550 ms,实现亚秒级全双工音视频通信。

多模态模型发布视频语音
07:18
Runway:News(网页)
精选59
Aleph 2.0 现已集成到 Figma Weave

Aleph 2.0 是 Runway 的旗舰视频编辑模型,现已在 Figma Weave 中上线。它是一个基于上下文的视频编辑模型,通过关键帧工作:从视频中提取一帧,重新设计风格并附上时间戳连接回 Aleph 2.0 节点,即可将该编辑传递到主体出现的每一帧,同时保持其他内容不变。支持最长 30 秒、1080p 的片段,可跨多镜头序列应用编辑,无需逐镜头处理。

产品更新视频

推荐理由:Runway 把旗舰视频编辑模型直接接入了 Figma 的创意画布,对设计师和视频团队来说,这意味着帧级编辑不用切换工具,协作流程可能大幅简化。
04:10
Runway@runwayml
57
改变视频的宽高比以适应任何平台。Aleph 2.0 扩展场景以适配新的宽高比,让你的视频看起来从一开始就是那样拍摄的。在今天的 Runway Academy 中了解操作方法。
产品更新视频
03:05
TechCrunch:AI(RSS)
精选70
Google DeepMind 7500 万美元投资 A24,合作开发电影 AI 工具

Google DeepMind 宣布向独立电影制片厂 A24 投资 7500 万美元(据《华尔街日报》),双方将合作开发电影制作 AI 工具。A24 出品过《万事俱备》《后室》等影片。Google DeepMind CEO Demis Hassabis 称,希望通过与艺术家直接合作,打造支持创意表达的 AI 功能。此举是好莱坞最新一次科技公司与电影 AI 联手,此前 Netflix 已收购 Ben Affleck 的 AI 工具公司 Interpositive,亚马逊 MGM 工作室也在去年设立了影视 AI 部门。

DeepMind行业动态视频

推荐理由:Google DeepMind 首次在影视内容创作上投入 7500 万美元,与 A24 合作开发 AI 工具,这标志着顶尖 AI 实验室开始直接渗透好莱坞核心创意流程,做文娱 AI 工具的人和关注产业交叉点的人应该留意。
00:39
Artificial Analysis@ArtificialAnlys
50
Artificial Analysis 推出视频编辑竞技场(Video Editing Arena)

Artificial Analysis 推出 Video Editing Arena,用于对比 Seedance 2.0、Runway Aleph 2.0、Wan 2.7、HappyHorse 1.0、Kling 3.0 Omni、SkyReels V4 六款模型的短片段编辑能力。测试基于文本指令,覆盖有/无音频场景,聚焦视觉特效、声音/语音编辑、物体编辑和物理模拟等维度。初始分析已揭示各模型编辑能力的显著差异。投票现已开放,首个排行榜将在 24 小时内公布。

视频评测/基准
6月22日
23:13
The Decoder:AI News(RSS)
52
Google Deepmind与A24合作开展AI电影制作研究

Google Deepmind与电影工作室A24建立长期研究合作伙伴关系,Google同时向A24投资约7500万美元。A24电影制作人将在日常工作中测试并帮助塑造AI工具,作为交换,Google Deepmind获得来自专业从业者的实际反馈。目前尚无具体产品或成果,双方表示将共同探索AI在电影制作中的可用方式。A24曾出品《瞬息全宇宙》及近期作品《Backrooms》。

Google行业动态视频
23:04
Kling AI@Kling_ai
37
可灵AI创作者Maria Rubtsova分享病毒视频秘诀

Maria Rubtsova 使用 Kling AI 创作了多支爆款 AI 视频,其中一支累计超 1 亿次观看、近 500 万次互动。她以数字艺术家的眼光进行 AI 创作,打造逼真的女性形象与流畅动作,风格时尚、自信且生动。在本次对谈中,她分享了如何定位自己的创作方向、利用 Kling 让 AI 视频更加真实精细,以及品味始终主导创作过程。完整问答见视频。

现象/趋势视频
22:05
IT之家(RSS)
63
生数 Vidu Q3 多模态视频大模型上线华为云 MaaS,主打文/图生视频一体化成片

6 月 22 日,生数科技多模态视频生成大模型 Vidu Q3 上线华为云 MaaS,面向企业营销、内容制作等行业提供视频生成服务。Vidu Q3 是全球首个“为剧而生”的视频大模型,支持 16 秒声画同出、1080P 画质,具备稳定多镜头叙事与精准切镜能力及多国语言文字渲染。本次上线两个版本:Vidu Q3 Turbo 极速版包含 T2V、I2V、H2V、R2V 四种能力,推理快、成本低;Vidu Q3 Pro 专业版包含 T2V、I2V、H2V 三种能力,画面细节最优,最高支持 4K 分辨率,适合广告大片等精品创作。

多模态模型发布视频
21:07
PixVerse@PixVerse_
28
云上的城市。一个谎言让它悬浮在空中。 Skyforged - PixVerse Originals S1。 由 @VladyWir 及其团队在阿姆斯特丹、芝加哥和基辅共同打造,PixVerse 全程保持整个蒸汽朋克世界的一致性。 转发+关注+回复"Skyforged" = 150 Credits 及完整影片私信发送(仅限 72 小时)
图像生成行业动态视频
19:40
Alibaba Cloud@alibaba_cloud
48
🚀 推出 HappyHorse 1.1 - 现已正式在阿里云模型工作室上线! 所有 HappyHorse 1.1 功能均可通过 API 获取,为企业客户和开发者提供完整的集成解决方案。此次发布带来了生产级视频合成,已在核心内容生成场景中系统优化。 🔥 发布促销:前两周享受全场 40% 折扣!立即优化您的集成成本。
模型发布视频
19:30
公众号:卡尔的AI沃茨
65
字节小云雀短剧 Agent 2.0 上线:Seedance 2.0 Mini 模型降价,新增720度场景与3D导演台

字节旗下小云雀短剧 Agent 2.0 上线,核心升级包括 Seedance 2.0 Mini 模型(价格更低)及 720 度场景观看、3D 导演台(可摆放 3D 人偶设定角色位置与机位)等功能。资产库根据剧本生成详细提示语,支持多角色形象切换。单个镜头时长 1-10 秒,生成 15 秒视频约需 4-5 分钟,自带字幕可抹除。用户可用约三百元成本完成一集短剧,支持片段续接和首尾帧参考,最终一键导出到剪映。该工具旨在降低原创短剧制作门槛,尤其适合规则类、多场景反转等题材。

图像生成教程/实践视频
19:10
Alibaba Cloud@alibaba_cloud
61
🚀 HappyHorse 1.1 正式上线阿里云百炼! 所有 HappyHorse 1.1 功能均可通过 API 使用,为企业客户和开发者提供完整的集成方案。本次发布带来生产就绪的视频合成能力,已针对核心内容生成场景进行系统性优化。 🔥 上线促销:前两周全场 40% 折扣!立即优化您的集成成本。
产品更新视频
19:07
PixVerse@PixVerse_
29
PixVerse 官方感谢创作者利用其 Canvas 节点功能构建工作流与创意。引用用户 @opener_ai 的反馈,称 Canvas(节点式工作流)大幅提升了创作便利性,是"游戏规则改变者";虽然 PixVerse V6 已发布,但该用户本次视频项目改用 Seedance 2.0 制作,并分享了提示词。

Jin.B: Koda's ideas are always so brilliant and inspiring. @aimikoda I actually made another video this time using the insights...

其他视频
17:05
IT之家(RSS)
同事件精选71
让大模型从"一问一答"走向"边看边说",京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction

京东官方宣布开源实时视频视觉语言交互模型 JoyAI-VL-Interaction,这是全球首个全栈开源的 interaction 模型和系统,获 vLLM-Omni day-0 原生支持。该模型具备三重突破:主动判断(持续观察视频流自主决定何时说话)、实时响应(面向正在发生的视频流即时响应)、适时智能体委托(复杂任务转交后台模型,前台继续观察)。支持摄像头、直播流、监控流等视频输入,以及语音输入输出、可视化界面、长期记忆和 vLLM 部署。在 58 个真人盲评案例中,对比豆包视频通话助手总体胜率 77.6%,对比 Gemini 视频通话助手总体胜率 87.9%。

多模态模型发布视频
同一事件,精选展示《京东全栈开源JoyAI-VL-Interaction,从"一问一答"走向"边看边说"》
推荐理由:京东开源了首个全栈实时视频交互模型,让大模型能持续观察并主动响应,开发者可以直接用代码搭建安防、导购等实时AI助手,实用性很强。
16:11
Berryxia.AI@berryxia
27
CuiMao用seedance2和Grok Imagine Video 1.5制作Fable 5谍战短片

CuiMao使用seedance2与Grok Imagine Video 1.5制作了一部7分钟谍战短片,讲述Fable 5发布后24小时内的虚构事件:Anthropic CEO Dario突然失联,美国国防部长Pete亲自审讯,正在美国度假看世界杯的CuiMao收到神秘取件短信,内含验证码、太阳花与自毁录音。短片将近期真实出口管制事件包装成完整剧情,结尾暗示封杀背后更深原因。近日CuiMao为扩大影响力,追加了日语字幕版本。

CuiMao: Fable 5发布后的24小时内,Anthropic CEO Dario突然失联,美国国防部长Pete亲自审讯。与此同时,在美国度假观看世界杯的 CuiMao收到一条来自Dario的神秘取件短信。一个验证码,一朵太阳花,一段即将自毁的录音,...

其他图像生成视频
16:07
DogeDesigner@cb_doge
18
Grok 终有一天能制作好莱坞级别的电影,而且那一天并不遥远。
xAI大佬观点视频
15:05
IT之家(RSS)
62
阿里巴巴发布视频生成模型 HappyHorse 1.1

阿里巴巴今日发布视频生成模型 HappyHorse 1.1,在动态表现力、主体一致性、指令遵循、视觉质感和音频能力等维度系统性升级。技术规格与 1.0 版本一致,单次生成 3 到 15 秒,支持 720p 和 1080p 分辨率及自由宽高比。HappyHorse 官网、阿里云百炼和千问云均已接入最新版本。同日,HappyHorse 联合虎鲸文娱集团启动“Horsepower”AI 影像大赛,优胜者可获百万商单合作,张纪中等担任评委。

多模态模型发布视频
09:04
IT之家(RSS)
45
索尼再谈AI游戏战略:自动化流程解放开发者,打造个性化玩家体验

索尼在2025财年年度报告中专门章节阐述AI对PlayStation平台的作用。索尼正落地各类AI工具,实现重复工作流程自动化,提升品控、动画制作、3D建模等部门效率,让开发人员专注玩法设计与世界观搭建。AI还将用于为玩家打造个性化使用体验,在海量游戏中精准推荐作品。同时索尼持续投入AI与机器学习研发,提升游戏画面精细度。世嘉、卡普空等日本厂商也正落地AI工具,日本游戏行业普遍借助AI加快开发节奏。

行业动态视频
6月21日
19:03
PixVerse@PixVerse_
19
这个东西简单却有力--它真正展示了记忆如何让平凡之物变得有意义。喜欢这个 PixVerse 创作。

Blujeanmomma: Sometimes it's not the object we keep... it's the memory attached to it. What's something you've saved for years and cou...

其他视频
6月20日
23:21
Kling AI@Kling_ai
20
预告片已出!完整MV三天后发布,敬请期待。🔥
行业动态视频
12:01
AYi@AYi_AInotes
68
Cascadeur 取消 AI 动画 token 计费,实现全本地无限生成

Cascadeur 取消 AI 动画 token 计费,实现全本地运行,无 token、无 credits、无云端排队,支持无限生成。演示用低多边形 blockout rig 直接生成复杂奔跑动画,多场景秒切。核心功能:导入自定义 rig、AI 补帧与智能摆姿、物理工具自动计算重量感和接触。全程不联网,本地算力即可运行,将动画迭代变为像 Photoshop 滤镜一样随意尝试。

产品更新视频
11:23
PixVerse@PixVerse_
52
Pick your signature shot 官方《足球小将》模板已在 PixVerse Web 上线。 上传照片,选择如 Curve Shot 或 Tiger Shot 等招式,创建你自己的动漫足球时刻。 转发+关注 = 私信获得 100 Cred(仅限 24 小时) #CaptainTsubasa
产品更新视频
03:21
Luma@LumaLabsAI
51
你的素材。你的剪辑。一张画布。 在 Timeline 上组装,你的剪辑逐渐成形。将全分辨率文件保留在你工作的地方,无需代理或降级。然后通过 EDL 导出,逐帧发送到你的后期合成套件。 初剪和终剪现在同在一路。你只需构建一次,它随你而动。 立即试用 → http://lumalabs.ai/app
产品更新视频
01:23
Runway@runwayml
26
你不需要环游世界来制作全球广告活动。 从构思到执行,这整支广告仅由一个人用 Runway 在一天内完成。点击下方链接亲自尝试。#MadeWithRunway
其他视频
01:21
Luma@LumaLabsAI
30
独立机构如今能用AI做什么,是一年前做不到的? 加入Luma欧洲、中东和非洲地区副总裁Jason Day,一探究竟。 名额有限: https://events.pmg.com/aiandtechsandbox/agenda
行业动态视频
6月19日
21:19
OpenBMB@OpenBMB
54
社区开发者基于 VoxCPM2 和 ComfyUI 构建 VoiceGate,实现跨语言视频配音

社区开发者基于 VoxCPM2 与 ComfyUI 构建了 VoiceGate,实现自动语音提取(ASR)、大语言模型翻译、多语言语音合成(支持 30 多种语言和 9 种方言,含语音克隆与音色设计)、时间戳对齐音频以及背景音分离混音。核心创新 VoiceBridge 插件首次在 ComfyUI 中引入 SRT 时间戳驱动的 TTS 对齐,实现字幕级精细控制,解决 AI 配音音视频不同步问题。应用包括中文视频转英/日/韩等多语言,以及全球视频转中文及方言。

开源/仓库视频语音
21:02
Berryxia.AI@berryxia
23
日本人整动漫不得不说有一套,没有AI的化做这个视频得多久呢?
现象/趋势视频
20:51
elvis@omarsar0
精选75
YT 视频 -> Artifacts 看看我如何使用新的 /youtube-notetaker 技能从 YT 视频生成 Artifacts。 捕获幻灯片、笔记、转录内容…… 快去试试 ↓
开源/仓库教程/实践视频

推荐理由:Elvis 新做的 /youtube-notetaker skill 能直接从 YouTube 视频提取幻灯和笔记,学生和 UP 主会很受用,对业界整体没什么推动,但实用度很高。
16:42
PixVerse@PixVerse_
55
想在一场《足球小将》比赛中看到自己吗? PixVerse Web 现已推出全新官方模板。 上传一张照片,选择一个招牌动作,制作你自己的动漫足球短片。 转发+关注 = 私信获得 100 Cred(仅限24小时)
产品更新图像生成视频
10:47
HuggingFace Daily Papers(社区热门论文)
56
当前世界模型缺乏持久状态核心

世界模型现有基准仅奖励帧保真度、运动控制和摄像机可控性,忽略了无人观察时世界是否持续演化。新诊断基准WRBench将摄像机运动视为对可观测性的干预,通过链式评估:摄像机是否执行请求动作、场景在视野内是否连续可识别、返回目标是否与之前设定事件一致。对23个模型(9600个视频,覆盖四种控制范式)的测试表明,当前系统维持的是跟踪镜头——返回目标停留在被遗弃时的状态,而非不可见期间继续演进。这一失败跨控制范式、模型家族和规模,表明鲁棒的世界状态演化不会随更清晰的图像、更紧的控制、更丰富的几何先验或参数数量自动实现。物理状态核的稳定性和视角干预下的世界线一致性应成为世界模型设计的一等目标。

具身智能视频论文/研究
‹ 上一页
1…34567…28
下一页 ›