Snap 将内部生成式 AI 视频团队剥离为独立公司 Dotmo,专注开发用于互动游戏体验的 AI 模型,原因为内部开展此类工作成本高昂。Dotmo 与 Snap 保持紧密联系:Snap 将授予技术许可用于游戏平台;初始团队由 Snap 现职员组成并离职加入;Snap 首席技术官 Bobby Murphy 以个人身份成为主要投资者,仍全职担任 CTO;作为交换,Snap 将获得 Dotmo 大量股权。这是 Snap 2026 年第二次重大剥离,此前已将智能眼镜业务 Specs 剥离。
推文测试了 Grok imagine 1.5 的动作生成效果,认为其相比 seedance2.0 稍弱,但进步明显、潜力较大,并归因于 Elon 收购 Cursor 后的效益最先在 Grok 显现。
Adobe 今日在 private beta 中上线了重新设计的 Firefly AI 工作室,新增“Elements”(可保存已创建的角色、地点和对象并命名复用)和“Projects”(将资产、生成内容与创作上下文集中管理)两项功能。Firefly AI 助手新增品牌套件生成(根据公司名和风格生成 Logo 与色板)、Quick Cut(快速剪辑视频成初稿)、故事板生成以及图片转短视频能力,旨在减少繁琐任务同时保留人工控制权。
ListenHub全面升级为AI创作者平台,已接入Seedance 2.0、HappyHorse、GPT Image 2、Nano Banana Pro等顶级的视频和图像模型,价格优惠。即日起进行为期一周的“618+端午节”限时福利:订阅月费或年费会员额外赠送50%积分;新用户注册即赠100积分;老用户每日签到免费获得2张生图额度。活动限时7天,逾期需等到黑五。
可灵AI携手阿那亚戏剧节候鸟300,在阿那亚黄金海岸·候鸟300沙城举办系列活动。6月16日至26日进行300小时AIGC影像限时创作;6月19日至21日开设可灵AI创作者课堂;6月19日设可灵AI主题放映日;6月27日举行AIGC大赛颁奖典礼及可灵AI先锋艺术家签约仪式。活动覆盖AIGC影像大赛、影像放映与创作教学,将AI与艺术实验融入海边场景。
PixVerseのイベントに来ました #PixVerseTokyo @btrax_jp @PixVerse_
🥇MaineCoon: From Passive Video to Real-Time AI Presence The first unlimited-duration interactive audio-visual model. Mo...
本文对Physics-IQ基准进行系统审查,指出其缺陷并提出三项改进:优化提示词与真实数据质量以减少混淆因素,引入样本级评分系统使每个样本和指标权重相等。改进后的Physics-IQ Verified基准优化了57.6%的样本和34.8%的提示词。在六种图像到视频生成模型的对比研究中,排名出现中等但有意义的变化(Kendall's τ=0.46)。基准代码已开源。
Go-with-the-Track将精确合成与运动控制统一在单一视频扩散Transformer中,通过联合多个参考图像和参考锚定点追踪实现。模型引入空间感知点追踪嵌入,利用坐标MLP和时序池化编码完整点轨迹序列,再通过轻量适配器注入模型,避免像素与补丁分辨率不匹配及下采样导致的信息损失。混合训练策略在动态、静态及合成视频数据集上联合训练以增强运动可控性。实验表明,该模型能支持多参考条件视频生成、点追踪驱动合成,并对静态与动态场景提供相机控制。
World Action Models(WAM)是具身预测动作模型,通过重用水视频生成模型或依赖语言/视觉-语言骨干实现未来预测。该综述厘清了WAM与视频生成模型、动作基础视频世界模型、视觉-语言-动作策略等概念的边界,从生成内容(渲染未来、潜在未来、无视频生成的动作推理)和设计维度(预测基质、骨干、动作耦合、部署机制)两个视角组织现有方法。分析表明:WAM并非仅带动作头的视频生成器,其设计在表示丰富性与计算、内存、延迟、动作标签成本之间权衡。领域正朝向生成更少未来但保留控制所需信息的方向发展。
🚨ByteDance is planning to release Seedance 2.5 in early July > will support generations longer than 15 seconds. > Seeda...
🚨ByteDance is planning to release Seedance 2.5 in early July > will support generations longer than 15 seconds. > Seeda...
Grok Imagine Video 1.5 能一键生成电影级视频,完美复刻《黑客帝国》Neo躲子弹的 Bullet Time 场景(雨中后仰、绿色调、皮风衣墨镜),以及《权力的游戏》龙妈骑龙低空飞越君临的史诗镜头。用户感叹该模型“这么便宜还这么好用”,对比之下自己刚充的 6000 多元 seedance 会员显得不值。两个示例均附有详细 Prompt,涵盖镜头运动、物理模拟、光照与音频要求,展现出强大的文生视频能力。
Grok Imagine Video 1.5真的要吹爆,这么便宜还这么好用,一键复刻权力的游戏! 我刚充的6000多块的seedance会员算什么🥹 Prompt: Faithfully animate this reference im...
用户实测 xAI 的 Grok Imagine Video 1.5 视频生成模型,用详细 prompt 生成《权力的游戏》龙妈骑龙飞越君临城场景,火焰特效、物理模拟、原生音频和光影均达电影级水准。另一测试复刻 Tyrion 法庭演讲,面部微表情、布料动态、火把光影互动自然,效果不输 seedance 2。用户感叹仅需低廉价格(对比刚充的 6000 多元 seedance 会员)即可生成如此高质量视频。
Grok Imagine Video 1.5 实测: 复刻《权力的游戏》Tyrion 经典法庭演讲,效果真的有点吊炸,完全不输seedance 2, 整个场景真实感、物理表现和原生音频都拉满了......面部微表情、布料动态、火把光影互动都...
关联讨论 3 条xAI:News(网页)X:Elon Musk (@elonmusk, xAI)X:cb_doge (@cb_doge)6月17日,阿里云发布开放式世界模型HappyOyster 1.0(快乐生蚝)。该产品基于原生多模态架构,支持多模态输入与音视频联合生成,可在生成过程中持续接收用户指令并实时响应画面。它深度学习物理世界状态转移规律,保持人物和环境长程一致性。官网开放“实时导演”与“世界探索”两种玩法:前者可随时叫停改写故事、与虚拟男友实时互动等;后者支持自由漫游、滑板冲刺、翼装滑翔、骑马奔驰、攻击打怪等交互。该产品已于今年4月16日开放内测,即日起至7月17日官网不定期掉落体验积分。
🥇MaineCoon: From Passive Video to Real-Time AI Presence The first unlimited-duration interactive audio-visual model. Mo...
视频Agent Seko在最新更新中推出无限画布,并能自动将创意、剧本、角色、场景和分镜等素材节点连接成完整工作流。用户可通过Seedance 2.0全能模式输入一句话或完整剧本,Seko自动生成多集短剧大纲、人物、场景、美术风格及分镜描述,并支持逐段修改提示词和生成视频。画布提供全自动与精细手动编辑的双重控制,解决了AI视频从70分改到85分时反复重做的痛点。实测用该流程三小时完成两集悬疑短剧,角色一致性、故事节奏和画面氛围表现力均超出预期。
Pixverse(@PixVerse_)のCanvasで作成しました。 #pixversecpp #zargates #pvpvibe @Nika_Ruis Rosmira Thornvale is a young cat knight w...
火山引擎一站式营销创作平台Kickart 3.0(原“创作Agent”)正式上线,升级为对话式视频生成模式,用户可通过多轮对话调整商品图、故事板等,用自然语言生成营销视频。新增“爆款裂变”能力,上传视频链接后自动拆解爆款逻辑并重构至新商品视频,支持抖音电商内容合规与质量预审核。平台开放SaaS、API及Skill等多种交付方式,并已接入Seedance 2.0 mini,助力降低广告营销成本。
Imagine Video 1.5 is generally available in our API: https://x.ai/news/grok-imagine-video-1-5 We've also rolled out Vide...
Grok Imagine Video 1.5 实测: 复刻《权力的游戏》Tyrion 经典法庭演讲,效果真的有点吊炸,完全不输seedance 2, 整个场景真实感、物理表现和原生音频都拉满了……面部微表情、布料动态、火把光影互动都很自然
Grok Imagine Video 1.5 is here Our new image-to-video model with sharper realism, better physics and faster generations ...
6 月 17 日,xAI 宣布 Grok Imagine Video 1.5 模型正式在 xAI API 上线。该模型支持静态图一键生成带同步音频的短视频,单次生成同时输出音效、环境音和对话,语音清晰度和口型同步效果提升。运动连贯性增强,减少了肢体扭曲和物体漂浮,更好模拟重量感与动量。Fast 模式下生成一段 6 秒 720p 视频约需 25 秒,较前代 40 秒以上显著提速。开发者可通过上传起始图片、描述运动方式并选择分辨率和时长调用 API。
Grok Imagine Video 1.5 is here Our new image-to-video model with sharper realism, better physics and faster generations ...
Grok Imagine Video 1.5 is here Our new image-to-video model with sharper realism, better physics and faster generations ...
xAI 将 Grok Imagine Video 1.5 从预览转为全面可用,在 Imagine API 上提供 grok-imagine-video-1.5,并在 grok.com/imagine 及 iOS/Android 应用上推出 Video 1.5 Fast 版。相比前代,模型在音频与语音(更清晰、嘴型同步更好)、运动与物理(更连贯、重量感更真实)、生成速度(6 秒 720p 视频约 25 秒,此前超 40 秒)上全面提升。同时逐步推出 Projects、Multiple agents(并行运行多个生成任务)、Search 等新功能,以优化创作流程。
字节跳动调整 AI 资源重心,从面向大众的豆包应用转向企业服务。豆包日收入不足百万元,日算力成本达数千万元。企业级产品 Seedance 年化收入达 20 亿美元(约 135.4 亿元),单月超 10 亿元,几乎抵消豆包算力成本,收入主要来自企业客户。6 月 15 日字节上线 Seedance 2.0 Mini 视频生成模型,主打高性价比。
baoyu-design(本地运行 Claude Design 的 Skill)新增动画视频导出功能。其声明式动画引擎基于 f(t) 设计:任意时间点 t 可绝对确定画面状态。导出采用无头 Chromium 逐帧截图 + ffmpeg 编码,每帧等待两帧 requestAnimationFrame 确保渲染完成。截图以 2 倍 DPR(3840×2160)再缩回 1080p,保证细节清晰。95 秒 30fps 动画需 2850 次截图循环,帧帧精确。项目已开源(MIT),获 1.2K star。此前 baoyu-design 已支持 PPT 本地生成和导出可编辑 PPTX。
baoyu-design skill(让你本地运行 Claude Design 的 Skill)更新,本地生成 PPT 的效果,可以借助 Cursor、Codex 内置的浏览器预览 PPT,也可以直接用它们的标记工具修改 PPT 细节。按 ...
流式视频生成需在用户会话中逐块渐进生成视频,面临会话持续时间异质性和用户需求时间异质性两大挑战。TurboServe是首个专为此设计的服务系统,将服务形式化为在线调度问题,联合协调会话放置与GPU资源调配。其闭环调度算法包含迁移感知放置控制器(跨GPU重平衡会话以降低每块最大延迟)和负载驱动自动缩放控制器(根据工作负载调整GPU预算)。运行时通过合并块处理、GPU-CPU卸载和NCCL迁移实现决策。在生数科技生产轨迹上,最多64块NVIDIA B300 GPU的评估显示,相比基线,最坏情况每块延迟降低37.5%,总GPU运营成本平均降低37.2%。
LooseControlVideo通过稀疏定向3D盒子作为“阻挡”代理,使用户能创作高层级布局和轨迹,同时由视频生成模型生成真实的遮挡、动态与交互。该方法微调Wan 2.2骨干网络,并采用DNOCS编码处理3D尺寸、方向和深度顺序遮挡。在nuScenes、HO-3D和BEHAVE基准测试中,轨迹误差提升1.2倍到3倍,刚性运动一致性提升2倍,遮挡准确率提升1.5倍到2倍,显著优于现有2D盒子和流基线方法。
Catnip推出MaineCoon,一个22B参数的实时音频-视觉基础模型,能将文本提示词转化为带同步语音、动作和表情的实时角色流,支持无限时长交互。作为首个流式原生模型,MaineCoon实现亚秒级首帧,单张H100上达47.5FPS,单张RTX Pro 6000上达30FPS,内部测试吞吐量比同类音频-视觉系统快约7倍。与被动视频生成不同,它能因果性地实时响应,记住自身不完美的过去,并保持角色身份、声音和节奏的连贯一致,让AI从轮次式应答变为“与你同在”的实时存在。
🥇MaineCoon: From Passive Video to Real-Time AI Presence The first unlimited-duration interactive audio-visual model. Mo...
Let me show you how you can win $2.5M to fund your dream film. I originally made this trailer for the XPRIZE competition...