字节跳动推出 Seedance 2.0 升级版及 Seedance 2.5 视频生成模型,可一次生成 30 秒短片,原生支持 4K 分辨率,支持 50 个全模台参考素材输入及 3D 白模。同时发布 AI 版权商业化平台,允许用户使用官方授权的 IP 电影版权进行创作并参与分成。
下一周估计有几个好玩的事儿吧? 1️⃣ GPT-5.6 发布 2️⃣ Seedance 2.1 发布 还有什么模型要发布的,然后就看到一堆视频、模型中转站的宣发了😈
字节已经发布了Seedance 2.5 了,直接起跳就是半个点,都不是0.1 说明这次的迭代应该蛮大的。 还挺期待的看看到底有哪些变化,应该有很多产品都会第一时间接入自家的产品了。 开始吧~·
字节跳动在火山引擎FORCE 2026原动力大会上官宣发布Seedream 5.0 Pro和Seedance 2.5,分别聚焦图像和视频的理解与生成。在OpenAI Sora关停、Google Veo迟迟不更新的背景下,图像视频生成赛道基本成为中国大厂的竞争阵地,包括字节跳动、阿里巴巴、快手等。
字节跳动今日在 2026 火山引擎大会上发布 Seedance2.5,同时推出全新豆包 Seed2.1 模型,声称能力达 Opus4.6 水平,以及新款图像模型 Seeddream 5.0。具体参数、性能分数及定价信息尚未公布。
成峰开源了一款2000+ Star的剪辑Skills,与Codex结合后,Agent可自动完成口播视频的剪辑、分镜、动画及合成。流程:先安装Skills,用/剪口播命令上传素材和文稿,生成审核页并输出带字幕视频;再用/口播成片命令生成HTML分镜核对页,用户反馈后Codex通过Computer Use自动调整,最后用HyperFrames合成最终MP4。视频生产从手动执行转向流程编排。
http://x.com/i/article/2068926393719685120
This week we're launching new skills for HyperFrames, each built around a workflow Today is pr-to-video Nobody reads pul...
6 月 23 日,谷歌 DeepMind 宣布向独立电影制片公司 A24 注资 7500 万美元(约合 5.09 亿元人民币),双方将联合研发影视制作人工智能工具。DeepMind 称此为“业内首创”合作模式,将吸纳顶尖创作者的专业指导。A24 曾出品《瞬息全宇宙》等影片,近期与提莫西·查拉梅、安妮·海瑟薇等艺人合作。DeepMind 联合创始人德米斯·哈萨比斯表示,与创作者直接协作是开发赋能工具的最佳途径。
Wan-Streamer v0.1 是原生流式、端到端的交互基础模型,在单一 Transformer 中统一建模语言、音频和视频的输入与输出,序列表示为交错视觉、音频、文本 token,通过块因果注意力实现增量流式。无需外部 VAD、ASR、TTS、视频生成等模块,感知、推理、生成、响应时序等由单一模型联合学习。整套栈围绕流式化重新设计,支持 25 fps 下 160 ms 的流式单元。模型侧响应延迟约 200 ms,结合 350 ms 双向网络延迟后总交互延迟约 550 ms,实现亚秒级全双工音视频通信。
Aleph 2.0 是 Runway 的旗舰视频编辑模型,现已在 Figma Weave 中上线。它是一个基于上下文的视频编辑模型,通过关键帧工作:从视频中提取一帧,重新设计风格并附上时间戳连接回 Aleph 2.0 节点,即可将该编辑传递到主体出现的每一帧,同时保持其他内容不变。支持最长 30 秒、1080p 的片段,可跨多镜头序列应用编辑,无需逐镜头处理。
Google DeepMind 宣布向独立电影制片厂 A24 投资 7500 万美元(据《华尔街日报》),双方将合作开发电影制作 AI 工具。A24 出品过《万事俱备》《后室》等影片。Google DeepMind CEO Demis Hassabis 称,希望通过与艺术家直接合作,打造支持创意表达的 AI 功能。此举是好莱坞最新一次科技公司与电影 AI 联手,此前 Netflix 已收购 Ben Affleck 的 AI 工具公司 Interpositive,亚马逊 MGM 工作室也在去年设立了影视 AI 部门。
Artificial Analysis 推出 Video Editing Arena,用于对比 Seedance 2.0、Runway Aleph 2.0、Wan 2.7、HappyHorse 1.0、Kling 3.0 Omni、SkyReels V4 六款模型的短片段编辑能力。测试基于文本指令,覆盖有/无音频场景,聚焦视觉特效、声音/语音编辑、物体编辑和物理模拟等维度。初始分析已揭示各模型编辑能力的显著差异。投票现已开放,首个排行榜将在 24 小时内公布。
Google Deepmind与电影工作室A24建立长期研究合作伙伴关系,Google同时向A24投资约7500万美元。A24电影制作人将在日常工作中测试并帮助塑造AI工具,作为交换,Google Deepmind获得来自专业从业者的实际反馈。目前尚无具体产品或成果,双方表示将共同探索AI在电影制作中的可用方式。A24曾出品《瞬息全宇宙》及近期作品《Backrooms》。
Maria Rubtsova 使用 Kling AI 创作了多支爆款 AI 视频,其中一支累计超 1 亿次观看、近 500 万次互动。她以数字艺术家的眼光进行 AI 创作,打造逼真的女性形象与流畅动作,风格时尚、自信且生动。在本次对谈中,她分享了如何定位自己的创作方向、利用 Kling 让 AI 视频更加真实精细,以及品味始终主导创作过程。完整问答见视频。
6 月 22 日,生数科技多模态视频生成大模型 Vidu Q3 上线华为云 MaaS,面向企业营销、内容制作等行业提供视频生成服务。Vidu Q3 是全球首个“为剧而生”的视频大模型,支持 16 秒声画同出、1080P 画质,具备稳定多镜头叙事与精准切镜能力及多国语言文字渲染。本次上线两个版本:Vidu Q3 Turbo 极速版包含 T2V、I2V、H2V、R2V 四种能力,推理快、成本低;Vidu Q3 Pro 专业版包含 T2V、I2V、H2V 三种能力,画面细节最优,最高支持 4K 分辨率,适合广告大片等精品创作。
字节旗下小云雀短剧 Agent 2.0 上线,核心升级包括 Seedance 2.0 Mini 模型(价格更低)及 720 度场景观看、3D 导演台(可摆放 3D 人偶设定角色位置与机位)等功能。资产库根据剧本生成详细提示语,支持多角色形象切换。单个镜头时长 1-10 秒,生成 15 秒视频约需 4-5 分钟,自带字幕可抹除。用户可用约三百元成本完成一集短剧,支持片段续接和首尾帧参考,最终一键导出到剪映。该工具旨在降低原创短剧制作门槛,尤其适合规则类、多场景反转等题材。
Koda's ideas are always so brilliant and inspiring. @aimikoda I actually made another video this time using the insights...
京东官方宣布开源实时视频视觉语言交互模型 JoyAI-VL-Interaction,这是全球首个全栈开源的 interaction 模型和系统,获 vLLM-Omni day-0 原生支持。该模型具备三重突破:主动判断(持续观察视频流自主决定何时说话)、实时响应(面向正在发生的视频流即时响应)、适时智能体委托(复杂任务转交后台模型,前台继续观察)。支持摄像头、直播流、监控流等视频输入,以及语音输入输出、可视化界面、长期记忆和 vLLM 部署。在 58 个真人盲评案例中,对比豆包视频通话助手总体胜率 77.6%,对比 Gemini 视频通话助手总体胜率 87.9%。
同一事件,精选展示《京东全栈开源JoyAI-VL-Interaction,从"一问一答"走向"边看边说"》CuiMao使用seedance2与Grok Imagine Video 1.5制作了一部7分钟谍战短片,讲述Fable 5发布后24小时内的虚构事件:Anthropic CEO Dario突然失联,美国国防部长Pete亲自审讯,正在美国度假看世界杯的CuiMao收到神秘取件短信,内含验证码、太阳花与自毁录音。短片将近期真实出口管制事件包装成完整剧情,结尾暗示封杀背后更深原因。近日CuiMao为扩大影响力,追加了日语字幕版本。
Fable 5发布后的24小时内,Anthropic CEO Dario突然失联,美国国防部长Pete亲自审讯。与此同时,在美国度假观看世界杯的 CuiMao收到一条来自Dario的神秘取件短信。一个验证码,一朵太阳花,一段即将自毁的录音,...
阿里巴巴今日发布视频生成模型 HappyHorse 1.1,在动态表现力、主体一致性、指令遵循、视觉质感和音频能力等维度系统性升级。技术规格与 1.0 版本一致,单次生成 3 到 15 秒,支持 720p 和 1080p 分辨率及自由宽高比。HappyHorse 官网、阿里云百炼和千问云均已接入最新版本。同日,HappyHorse 联合虎鲸文娱集团启动“Horsepower”AI 影像大赛,优胜者可获百万商单合作,张纪中等担任评委。
索尼在2025财年年度报告中专门章节阐述AI对PlayStation平台的作用。索尼正落地各类AI工具,实现重复工作流程自动化,提升品控、动画制作、3D建模等部门效率,让开发人员专注玩法设计与世界观搭建。AI还将用于为玩家打造个性化使用体验,在海量游戏中精准推荐作品。同时索尼持续投入AI与机器学习研发,提升游戏画面精细度。世嘉、卡普空等日本厂商也正落地AI工具,日本游戏行业普遍借助AI加快开发节奏。
Sometimes it's not the object we keep... it's the memory attached to it. What's something you've saved for years and cou...
Cascadeur 取消 AI 动画 token 计费,实现全本地运行,无 token、无 credits、无云端排队,支持无限生成。演示用低多边形 blockout rig 直接生成复杂奔跑动画,多场景秒切。核心功能:导入自定义 rig、AI 补帧与智能摆姿、物理工具自动计算重量感和接触。全程不联网,本地算力即可运行,将动画迭代变为像 Photoshop 滤镜一样随意尝试。
社区开发者基于 VoxCPM2 与 ComfyUI 构建了 VoiceGate,实现自动语音提取(ASR)、大语言模型翻译、多语言语音合成(支持 30 多种语言和 9 种方言,含语音克隆与音色设计)、时间戳对齐音频以及背景音分离混音。核心创新 VoiceBridge 插件首次在 ComfyUI 中引入 SRT 时间戳驱动的 TTS 对齐,实现字幕级精细控制,解决 AI 配音音视频不同步问题。应用包括中文视频转英/日/韩等多语言,以及全球视频转中文及方言。
世界模型现有基准仅奖励帧保真度、运动控制和摄像机可控性,忽略了无人观察时世界是否持续演化。新诊断基准WRBench将摄像机运动视为对可观测性的干预,通过链式评估:摄像机是否执行请求动作、场景在视野内是否连续可识别、返回目标是否与之前设定事件一致。对23个模型(9600个视频,覆盖四种控制范式)的测试表明,当前系统维持的是跟踪镜头——返回目标停留在被遗弃时的状态,而非不可见期间继续演进。这一失败跨控制范式、模型家族和规模,表明鲁棒的世界状态演化不会随更清晰的图像、更紧的控制、更丰富的几何先验或参数数量自动实现。物理状态核的稳定性和视角干预下的世界线一致性应成为世界模型设计的一等目标。