🇧🇷⛩️🌊 For about a year I built a world, packed with everything I wanted to see on screen. Today it goes public and st...
🇧🇷⛩️🌊 For about a year I built a world, packed with everything I wanted to see on screen. Today it goes public and st...
🤖 made this entire 15-second UGC ad with AI zero camera, zero studio, zero real product shoot. Here's the quick breakdo...
DreamX-World 1.0 是一款通用交互式文图生视频世界模型,支持可控长序列生成、相机导航、回溯已观测区域及提示事件,覆盖写实、游戏和风格化域。其数据引擎结合虚幻引擎渲染、动作丰富的游戏录制及带恢复相机几何的真实视频。相机控制引入 E-PRoPE(PRoPE 投影位置编码的轻量变体)。通过因果强制、DMD 风格蒸馏和长序列训练,将双向视频生成器转为自回归模型。采用记忆条件场景持久性与残差回收,并加入事件指令微调和强化学习对齐。混合精度 DiT、残差重用、75% 剪枝 VAE 解码及异步流水线并行在八块 RTX 5090 GPU 上达 16 FPS。5 秒基础评估中,相机控制得分 73.75,总体 84.76,优于 HY-WorldPlay 1.5(80.79)和 LingBot-World(80.45)。
VisualClaw是一个自进化多模态智能体,通过级联门过滤流式帧与热/冷top-k注入技能库,将单问题API成本降至全帧上传的-98%、均匀8帧基线的-25.9%。技能进化模块从失败中学习并更新技能库,在4个视频QA基准上平均准确率提升+3.85%,EgoSchema上Gemini 3 Flash达+15.80%。研究者构建了VisualClawArena(200场景多模态智能体基准),在该基准上结合计算机使用后端使Codex (GPT-5.5)宏观准确率+2.9%、Claude Code (Sonnet 4.6)+3.2%,成本降低-9.5%。级联机制将1小时流媒体从~3,600次API调用降至5-20次,适合边缘部署。
字节跳动火山引擎旗下火山方舟体验中心于 6 月 15 日上线 Seedance 2.0 Mini 视频生成模型,计划近期开放 API。该模型比 Seedance 2.0 Fast 快 2 倍,输出质量相当。图生视频定价 0.023 元/千 tokens,视频生视频 0.014 元/千 tokens,720P 规格下单秒生成成本约 0.5 元,较 Seedance 2.0 标准版降低约一半。模型面向电商内容生产、营销素材批量生成、UGC 创作及特效玩法等高频率、大规模视频生成场景。
GPT Image 2 加 Grok简直是目前玩AI视频的性价比之王,而且grok还能给你加字幕,真的厉害,@grok bro你还藏了多少我不知道的? 自从Seedance一直涨价我就没续订会员了, 本来以为 Seedance 2.0 是当...
Here's a fun hack that nudges Omni into a style space that it's hard to get to with just a prompt: - take a video and tr...
We rebuilt Premiere Pro from scratch for AI agents. Not a toy that generates clips. A real editor that watches footage, ...
We rebuilt Premiere Pro from scratch for AI agents. Not a toy that generates clips. A real editor that watches footage, ...
昆仑万维Skywork首席科学家成宇在智源大会上介绍SkyReels V4与Mureka V9。SkyReels V4在Artificial Analysis全球视频生成评测中夺得Text to Video(With Audio)与Image to Video(With Audio)双赛道第一,超越Veo 3.1和Sora 2。其四大突破包括双流MMDiT架构实现毫秒级音画同步、全模态强化学习提升视频逻辑连贯性,以及1080p/32FPS/15秒电影级画质联合生成策略。Mureka V9引入MusiCoT音乐思维链技术,实现段落级文本控制与母带级混音,在旋律性(7.25)、表现力(6.89)等维度排名第一。此外,昆仑万维以“4+3”AGI战略支撑AI短剧、AI音乐、AI游戏三大AI原生娱乐经济体。
OiiOii 2.0新增智能画布、一键拉片复刻和skill库三个功能。一键拉片复刻可将输入片段拆解为含关键帧、叙事要素、镜头语言等维度的拉片表格,用户替换角色、场景、元素后,半小时内可复刻出镜头设计一致度达90%的动画片段。智能画布支持直接点击素材唤醒Agent对话修改,不同素材可并行调用多个Agent同步推进任务。skill库内置自媒体、广告营销、周边设计等类型,电商广告skill可指定卖点并上传商品图生成专业短片,3C数码广告skill也能通过自然语言对话逐步调优,另有世界杯搞笑玩梗skill可直接生成搞怪视频。
Hacker News 上一则 Ask HN 帖子显示,用户利用搭载 M1 Max 芯片的电脑和本地机器学习模型,成功索引了 669 GB 的 GoPro 视频。该帖子获得 105 个 HN 点数。
微软研究院与多所高校联合开发的视频世界模型 Mirage 将场景信息直接存储在潜在空间中,而非基于像素的点云。这大幅降低了计算时间和图形显存消耗,同时能在长镜头移动中保持场景空间一致性。不过,该模型目前仍无法可靠地跨片段跟踪运动物体。
用户推荐 GPT Image 2 + Grok 混合工作流制作 AI 视频,称性价比极高。SuperGrok 月费 30 美元,当前 3 个月优惠 67%,单条短片零边际成本;GPT Image 2 把控角色风格一致性,Grok 负责动态效果。另提及 Claude 的 Fable 模型被美国政府管制,真正触发原因并非防中国,而是美国本土竞争对手提交越狱演示证明其安全层 Mythos 可被绕过。Anthropic 事后复测称此漏洞狭窄且非通用。
很多人都以为Fable5下架是为了防中国,但其实真正触发管制的,是美国本土的竞争对手, 大家都被官方的国家安全话术带偏了,默认下架是防范技术外流的常规操作。 实际上真正触发这次管制的,是美国本土一家公司提交的越狱演示,他们证明Mythos的...
Bro committed grand theft diamond with ZERO exit strategy 😭💎 Created using @PixVerse_ Check the process below of how t...
SpatialAvatar-0 提出基于 FLAME-mesh 约束的高斯表示,结合前馈生成器与 10K 迭代布局保持的逐主体精化循环。前馈阶段采用无参数 K 源均值池化及单目-时序到多视图-空间两阶段调度;精化阶段冻结 FLAME 绑定与高斯数量,以三组件抗尖峰正则化替代密集化。在 VFHQ/HDTF 跨域零样本测试中,PSNR 超越领域内领先模型 GAGAvatar 1.5 dB;在 SplattingAvatar 单目基准上,所有指标均领先,PSNR 超越 300K 迭代的 GeoAvatar 1.3 dB,且逐主体调度周期比常见 SOTA 基线快 60 倍。
Track2View将视频扩散Transformer与配对的3D点轨迹条件结合,通过源视图和目标视图中场景点的稀疏轨迹提供显式、时序连续的时空对应。其双视角轨迹调节器利用无参数几何操作和时序聚合转移视觉上下文,能泛化到任意相机轨迹。在含400个视频(静态和动态场景)的基准测试中,Track2View在视觉质量、视图同步和相机精度上均达最优,旋转误差比领先基线降低30-65%,平移误差降低61-72%。
If the world refuses to give you moonlight, light the moon yourself. The Uninvited Sea - PixVerse Originals S1. Built on...
生成式AI被宣传将彻底改变电影制作,但至今未出现值得付费观看的AI项目。大多数AI视频模型只能产出短暂且视觉不一致的片段,好莱坞部分重大AI合作也已消失。Google DeepMind使用“Dear Upstairs Neighbors”的概念艺术训练了其Veo和Imagen模型的自定义构建,展示了不同于直接调用通用模型的路径。目前大型制片厂主要产出的仍是短视频垃圾。
美团 LongCat 团队推出 WBench,首个面向交互式视频世界模型的系统性多轮评测基准。包含 289 个测试案例、1058 个交互轮次,覆盖导航、主体动作、事件编辑、视角切换四种交互方式,从视频质量、设定遵循度、交互遵循度、一致性、物理真实性五维度评测 20 个前沿模型(包括 Kling 3.0、HY-World 1.5、Genie 3 等)。核心发现:无全能模型,导航能力与画质无关;多轮交互后所有模型性能下降,导航平均分下降 33 点;开源模型 HY-World 1.5 导航能力突出;视角切换最难(平均分 30.7)。WBench 已开源。
6月12日,TVB与火山引擎达成合作,围绕豆包视频生成模型Seedance 2.0,在影视内容智能化生产、短剧制作、IP商业化及云基础设施等领域展开探索。双方将协同TVB旗下FF工作室,以AI短剧为契机,利用Seedance 2.0的视频生成能力,通过输入提示词快速生成动画分镜、场景参考等素材,辅助编剧与导演在剧本开发、后期制作中验证创意。火山引擎将为TVB提供虚拟机、对象存储、视频云、CDN等云产品,支持其构建混合云架构,推动媒体内容生产、存储、分发环节的云化升级。
可灵AI迎来两周年,与创作者相伴两年,持续推进模型和产品能力升级。国内创作者通过可灵将奇思妙想落地,海外创作者将其应用于影视、音乐与商业制作,从实验阶段走向专业生产流程。部分作品获得奖项认可或进入专业影视项目,成为创作者突破自我的新起点。
I'm messing around with an agent flow for combining Hyperframes with Gemini video analysis to make interesting annotated...
Congrats to the @MiniMax_AI team on the release of MiniMax M3, a long-context multimodal model for text, image, and vide...
EDIT MOTION IN VIDEOS!!! Quit prompting and start directing I've been shouting for YEARS about 3D as the control layer. ...
An ancient estate. Teenagers forced to devour the nightmares of the powerful. One defective recruit who drags the darkne...
可灵Kling AI迎来上线两周年,多位全球创作者分享使用体验。代表作包括获奖广告《MagicMirror AI》(获WAIFF Seoul 2026广告奖)、短剧《Call in the Sandstorm》和《A Heartbreaking Story Under the Full Moon》(基于Kling 2.6)。关键功能涵盖运动控制与一致性、开始和结束帧工作流、4K细节、微表情与衣物纹理生成,以及同时生成语音、音效和背景音乐。平台持续升级,助力独立创作者和小团队实现电影级视频制作,推动AI创意从实验走向实际生产。
字节跳动旗下火山引擎与香港电视广播有限公司(TVB)达成深度合作。双方将围绕豆包视频生成模型 Seedance 2.0,在影视内容智能化生产、短剧制作、IP 商业化探索及云基础设施建设等方面展开合作。火山引擎将与 TVB 旗下 FF 工作室协同,基于 Seedance 2.0 的视频生成能力探索 AI 在短剧创作与制作流程中的应用。火山引擎还为 TVB 提供虚拟机、对象存储、网络资源、云数据库、视频云、CDN 内容分发等云产品与服务。