用户用 Seedance 2.0 以原生 4K 分辨率重新生成 Codepilot 宣传片,文字清晰度极高,材质质感远超 1080P 超分效果。Seedance 2.0 在文字渲染和视觉细节上实现显著提升。
用 Seedance 2.0 重新做了一下 Codepilot 的宣传片
用户用 Seedance 2.0 以原生 4K 分辨率重新生成 Codepilot 宣传片,文字清晰度极高,材质质感远超 1080P 超分效果。Seedance 2.0 在文字渲染和视觉细节上实现显著提升。
用 Seedance 2.0 重新做了一下 Codepilot 的宣传片
阿里通义实验室Wan团队发布Wan Streamer v0.1,首个端到端Transformer实现实时音视频对话。模型侧响应延迟约200ms,总延迟约550ms,25fps下流式处理单元160ms,分辨率192p。同步生成语音与面部视频,支持全双工打断,取消外部ASR/TTS/动画模块,通过thinker-performer部署压至200ms。官方称唯一单模型同步音视频且延迟<1秒的方案。目前为技术验证,未开放使用。
推文指出,现在用AI做视频已变得极为简单,无需支付700多元的剪映SVIP。只需安装6个2026年最顶级的插件和Skills,提供安装链接,可直接交给AI Agent(如Claude Code、Cursor、Hermes、OpenClaw等)自动安装。具体链接和使用建议可在评论区自取。
http://x.com/i/article/2069352641423896576
Webcamのリアルタイムの映像を画像をドラック&ドロップでその人になれるものを作ってみた。 モデルを読み直さなくても、さくさく動くように改変 おっさんが美少女になる日も近い
阿里云宣布HappyHorse 1.1即日起成为Creative Fabrica Studio的默认AI视频生成模型。为纪念此次升级,平台提供为期一周的视频生成50%折扣,适用于设计师、营销人员和内容创作者。附试用链接及模型详情页。
开发者@zicohacks利用AI构建了一个实时世界杯解说员。系统像观众一样观看直播,采样最新帧,让GPT-5.4-mini理解比赛内容并生成解说词,再通过ElevenLabs以体育解说员语气播报。整个过程端到端实时调用,已能较自然跟上比赛节奏,支持英语和法语切换。项目已开源,目前主要挑战是延迟和解说精准度,但方向明确——AI正从辅助内容变为实时内容生产者。
i tried building an AI commentator for the World Cup it watches the live stream as the viewers, samples the newest frame...
Video-MME-Logical围绕五种时间逻辑操作(状态跟踪、顺序计数、时序排序、动态空间性、结构组合)构建,包含25个细粒度任务类别,通过控制对象状态、转换和逻辑组合来分离评估多模态大语言模型(MLLM)的视频时间逻辑推理能力。实验表明,当前SOTA MLLM与人类之间存在显著差距,且随时间逻辑复杂度增加而扩大。即使对多达500K生成样本进行监督微调,仍无法弥合这一推理鸿沟。该基准为分析和改进MLLM的时间逻辑推理提供了可扩展的测试平台。
视频生成模型常生成物理不合理的操作。PhysisForcing 通过联合优化像素级和语义级特征,重点监督物理信息区域来强化物理一致性,包括像素级轨迹对齐损失和语义级关系对齐损失。在 R-Bench、PAI-Bench 和 EZS-Bench 上,PhysisForcing 一致提升基线模型:Wan2.2-I2V-A14B 和 Cosmos3-Nano 在 R-Bench 分别提升 22.3% 和 9.2%(优于普通微调的 7.1% 和 3.7%),Cosmos3-Nano 变体取得最佳总分。作为 WorldArena 世界模型,闭环成功率从 16.0% 提升至 24.0%,并改善下游策略。
Runway发布Agent 2.0,帮助营销人员创建、测试和优化广告、视频及营销活动。品牌营销人员可在对话中开发活动概念、生成变体并自动本地化;绩效营销人员可上传创意并导入Meta、YouTube、TikTok或Google广告数据,由Agent分析后生成下一轮待测广告。社交媒体营销人员可一次性生成一周内容,自动裁切为9:16、16:9、1:1等格式;产品营销人员可借助Agent确定定位角度并构建活动资产。Agent 2.0面向所有用户开放。
Artificial Analysis 发布最新 AI 视频编辑排行榜,HappyHorse-1.0 综合实力第一,Seedance 2.0 第二,Wan 2.7 第三。榜单基于约 8 万次人工盲评,从视觉效果编辑、物理与世界模拟、声音与语音编辑、对象编辑、复杂编辑五个能力维度评分。HappyHorse-1.0 是唯一在所有五个能力中均进入前三的模型,并在其中四个能力排名第一或并列第一。Kling 3.0 总排名第五,但在视觉效果编辑上排名第一。
Adobe 宣布与 AI 图像及视频增强工具开发商 Topaz Labs 达成最终收购协议,交易预计 2026 年下半年完成,尚需监管批准。Topaz Labs 拥有超二十年技术积累,2025 年获艾美奖,旗下有 AI 视频放大模型 Astra、图像润饰模型 Wonder 及让大型 AI 模型在消费级 GPU 本地运行的 Neurostream。收购后其 AI 模型将整合至 Adobe Firefly 及 Photoshop、Lightroom、Premiere 等 Creative Cloud 产品,现有产品仍独立运营。CEO Eric Yang 将继续领导团队。
国家广电总局网络视听司6月25日发布AI微短剧分类分层标准,自2026年7月1日起施行。按投资额度和题材分为三层:投资80万元及以上或涉及政治、军事等特殊题材的,按“重点微短剧”管理;投资30万元(含)至80万元且一般题材的,按“普通微短剧”管理;不足30万元且一般题材的,按“其他微短剧”管理。旨在应对AI降低制作成本,推动行业健康发展。
Adobe 本周四宣布收购图像与视频增强工具开发商 Topaz Labs。该公司成立已超过20年,去年凭其制作技术获艾美奖,近年推出 AI 视频升频模型 Astra 和图像修饰增强模型 Wonder,并开发了让大型视频模型在消费级 GPU 上运行的技术。Adobe 计划将 Topaz 的模型集成到 Firefly AI 应用及旗下编辑套件中,同时保留独立服务。交易预计2026年下半年完成。
百度智能云携手酱油文化、VAST、炫佳科技、魔方元启、LIKEAI,将千帆、百舸等能力落地于AI漫剧、3D内容、短剧创作。酱油文化漫剧制作周期压缩90%,月产能超200部,单月营收达5000万量级,抖音破亿作品中五分之一出自其手。VAST的Tripo大模型基于百度百舸数秒生成生产级3D网格。炫佳科技Kino-AIGC模型通过网信办备案并登顶VBench,累计生成超10万分钟AI视频。魔方元启制作周期缩短50%-80%。LIKEAI实现7-10人班组单周单部短剧交付,代表作《哎呀,我的娘亲是女帝》上线24小时播放量超2亿。
6月24日,生数科技与极豆科技签署战略合作协议。双方将整合生数科技多模态大模型(Vidu等)与极豆科技汽车AI解决方案、AI中台及车规级研发能力,围绕座舱内容、车主服务等场景打造汽车行业AIGC解决方案。重点探索个性化欢迎、亲子互动、旅途影像等场景,通过模型接入与场景编排将内容生成从预置供给升级为实时动态生成。同时将AIGC延伸至通勤、补能、车辆服务等环节,探索API、SDK及私有化部署等交付方式。极豆科技已与30余家车企合作,累计量产装车超1400万辆。
Tried making a more advanced chase sequence this time The fast-paced camera movement and continuous action make it feel ...
MVTrack4Gen提出运动感知训练框架,将多视角点跟踪作为额外几何与运动监督信号,用于仅依赖相机条件的新视角视频扩散模型。关键发现是特定注意力层编码了跨视角和时序上的几何对应关系,对齐偏差会导致运动不一致。通过将这些特征路由到辅助多视角跟踪头并联合训练点跟踪目标,MVTrack4Gen增强运动感知对应,使模型更好地保持参考视角的运动和跨视角几何一致性。在多个基准上,该方法达到最优几何一致性和有竞争力的相机精度。
HappyHorse 1.1 is now available in ComfyUI as a Partner Node. Native audio. Multi-character consistency. Cinematic frami...
Happy Horse 1.1 is now live on fal! Generate video with synchronized native audio and multilingual lip-sync Text to Vide...
Happyhorse 1.1 from Alibaba is up on Replicate! -Text, image, and reference to video options with multilingual lip-sync ...
JoyAI APP 上线「欢乐足球季」主题活动,用户上传一张人像照片即可生成沉浸式赛场动态视频,支持近 20 款视频模板(看台抓拍、进球巅峰时刻、足球手势舞等),内置全景推进、特写定格等多类运镜逻辑,人物动作与表情自然拟合,赛场光影与人群动效同步渲染。同时上线近 50 款足球主题 AI 智能体,覆盖战术复盘、趣味评球、互动陪伴等方向。活动上线首周日均互动增长率超 158%。
TryOnCrafter是首个面向相机可控视频虚拟试穿(CaM-VVT)的统一DiT框架。它引入可渲染4D试穿代理,将高保真2D试穿先验蒸馏为基于3DGS的服装化身,再由SMPL-X序列驱动动画并度量对齐至重建背景点云,实现人体与环境的显式解耦。基于该代理作为几何锚点,Proxy-Anchored Video DiT生成严格遵循指定相机轨迹和物理形变的光照真实视频。该框架还支持人体重定位、子弹时间效果和360度轨道观看等应用。
Causal-rCM将扩散蒸馏框架rCM扩展至自回归视频扩散,提出教师强制(TF)与自强制(SF)互补训练范式,并发布统一开源算法与基础设施。通过自定义掩码FlashAttention-2 JVP内核,首次实现基于教师强制的连续时间一致性模型(sCM/MeanFlow)用于自回归视频扩散,收敛速度比离散时间版本快10倍。蒸馏后的2步因果Wan2.1-1.3B模型在仅1或2步采样下取得VBench-T2V分数84.63,仅使用合成数据即达到帧级和块级流式视频生成SOTA。该方法还应用于Cosmos 3全模态世界基础模型,实现动作条件生成的交互式世界模型。
DomainShuttle 提出一种面向开放域主题驱动文本到视频生成(S2V)的方法,支持域内(高保真保留参考主体特征)和跨域(允许主体无关属性随文本提示灵活变化)两种场景。该方法引入 Domain-MoT 模块,通过解耦视频与参考特征并采用域感知 AdaLN 进行主体特定建模;提出 Video-Reference DualRoPE 方案,将参考图像 token 与视频 token 置于独立 RoPE 空间实现主体级空间建模;设计 Cross-Pair Consistent Loss 提取不受无关特征干扰的内在主体特征。实验表明,DomainShuttle 在多种开放域场景中相比现有方法实现显著提升,兼具高主体保真度与生成灵活性。
SAM2Matting 是一种追踪器到抠图的框架,通过为基础追踪器(如 SAM2、SAM3)添加区域提议桥和专用抠图头,将视频对象分割追踪器扩展为高保真视频抠图系统。它解耦了高层时序理解与底层细粒度细节处理。尽管仅使用图像训练,SAM2Matting 在视频抠图上实现了新 SOTA,支持多种提示类型,保持强时间一致性,并在人物及野外场景中展现出鲁棒的泛化能力。
流式视频编辑面临背景保持与低延迟两大瓶颈。LiveEdit提出因果逐帧编辑框架,通过三阶段蒸馏将双向基础模型的编辑能力迁移至单向流式编辑器,实现稳定长时编辑。引入面向AR的掩码缓存跨帧复用区域计算,将推理速度提升至12.66 FPS,在流式基线中取得最优视觉质量,适用于交互式与增强现实场景。
LISA是一种针对视觉条件可控生成的训练正则化方法。它将双分支范式(预训练主网络+侧网络)重新解释为基于分数的生成建模:主网络提供无条件先验分数,侧网络隐式贡献似然分数。LISA通过轻量解码器将侧网络指定层中间特征投影到分数隐空间,与构造的近似似然分数目标计算距离作为正则化损失,并与标准扩散损失联合优化。实验表明,LISA能一致加速训练收敛并提升合成质量,使侧网络特征更解耦,且几乎不增加训练成本、零额外推理成本。