字节跳动旗下火山引擎与香港电视广播有限公司(TVB)达成深度合作。双方将围绕豆包视频生成模型 Seedance 2.0,在影视内容智能化生产、短剧制作、IP 商业化探索及云基础设施建设等方面展开合作。火山引擎将与 TVB 旗下 FF 工作室协同,基于 Seedance 2.0 的视频生成能力探索 AI 在短剧创作与制作流程中的应用。火山引擎还为 TVB 提供虚拟机、对象存储、网络资源、云数据库、视频云、CDN 内容分发等云产品与服务。
字节跳动旗下火山引擎与香港电视广播有限公司(TVB)达成深度合作。双方将围绕豆包视频生成模型 Seedance 2.0,在影视内容智能化生产、短剧制作、IP 商业化探索及云基础设施建设等方面展开合作。火山引擎将与 TVB 旗下 FF 工作室协同,基于 Seedance 2.0 的视频生成能力探索 AI 在短剧创作与制作流程中的应用。火山引擎还为 TVB 提供虚拟机、对象存储、网络资源、云数据库、视频云、CDN 内容分发等云产品与服务。
HYDRA-X 是首个在单个 Vision Transformer (ViT) 中统一图像与视频 tokenization 的统一多模态模型。通过帧级因果时间注意力实现视觉重建,并采用层级时间压缩替代单步压缩。轻量级解压器在联合图像-视频教师监督下上采样时间压缩特征。编辑管线中,源-目标交互在分词器内部潜在层面而非 LLM 语义层面进行,提升编辑一致性与收敛速度。7B 密集模型在图像与视频理解及生成任务上表现强劲。
阿里云宣传一部由多位创作者联合制作的AI音乐视频,该片荣获第16届北京国际电影节(BJIFF)[WanMuse+]主题竞赛“优秀AI主题短片”奖。视频从未来视角审视艺术史,描绘一个由权力定义的博物馆——AI吞噬过去以创造自身存在。主角LINYE既是闯入者,也是最新展品,探讨AI作为人类创造力的毁灭与延续。
Avataar AI 推出蒸馏视频生成模型,专为印度的大规模应用打造,定价为每生成一秒视频 0.005 美元。该模型主打更廉价、更快速且具有文化意识,旨在适应印度本地需求。
MoVerse 能从单张窄视野图像生成可交互漫游的实时视频世界模型。它将世界构建与观察渲染分离:先用拓扑感知扩散将输入扩展为重力对齐的 360° 全景图,再通过全景几何感知残差预测将其提升为持久 3D Gaussian scaffold,最后由 Gaussian 条件视频渲染器沿用户指定相机轨迹输出逼真视频。渲染器采用双向扩散教师蒸馏为因果自回归学生,实现有限延迟流式输出。在单个 NVIDIA RTX 4090 GPU 上支持 8 FPS 的实时场景漫游。
VideoMDM是一个基于扩散的框架,从单目视频的精确2D姿态训练3D人体运动先验,无需3D真值。它利用预训练的2D-to-3D提升器提供近似3D序列作为噪声教师,经扩散和去噪后重投影到2D并与准确关键点对比以监督训练。理论证明深度加权的2D重投影损失在期望上等价于直接3D监督。在HumanML3D基准上,VideoMDM几乎缩小了与完全3D监督MDM的差距(FID 0.88 vs 0.54);在真实视频数据集Fit3D和NBA上,生成的运动获得人类一致偏好。
第24話 謎の寝言!? これまでのあらすじ ぺんぎんちゃんは、こわい夢を見て体調をくずしてしまいました。 今は元気になって学校にも戻りましたが、 夢の中で聞こえた「たすけて」という声や、 星を見ると感じる不思議な気持ち、 知らない歌、夢に出...
MVEB是一个包含23项任务的视频嵌入基准,涵盖分类、零样本分类、聚类、对分类、检索及视频问答。对33个模型的评估显示无单一模型主导:基于MLLM的嵌入在分类、聚类、对分类和问答上领先;多模态绑定方法在检索和零样本分类上领先;缺乏对比适应的生成式MLLM在跨模态任务上崩溃。对比纯视频与音视频评估表明,音频的贡献取决于数据标注来源:标签来自双模态时音频有帮助,仅来自视觉时则有害,差距达6个百分点且跨模型家族一致。MVEB衍生自184项任务的MVEB+池,在降低评估成本的同时保持任务多样性,并集成到MTEB生态系统中。代码和排行榜已开源。
长视频生成中,主体在不同镜头、视角和场景切换下容易丢失。Memento 将主体保持视为身份锚定问题,联合训练自回归下一镜头生成与基于记忆的主体重建,利用历史记忆和全局描述恢复外观;双查询记忆机制分别检索长程身份记忆和短上下文关键帧。主体感知的数据流水线通过无代词描述提供重建监督。实验表明 Memento 在长期主体一致性、跨镜头连贯性和视觉质量上达到 SOTA。
针对视频-音频问答中跨模态关联薄弱、长程时序连接不足的问题,提出自动数据引擎,包含实体锚定视频脚本化(生成摘要、主实体列表和片段描述)和线索引导QA生成两个机制。基于该流程构建指令微调数据集OmniVideo-100K及人工测试集OmniVideo-Test。在VITA-1.5、Qwen2.5-Omni-7B和Qwen3-Omni-30B上微调后,OmniVideo-Test性能最高提升20.59%,在Daily-Omni、JointAVBench等基准上最多提升12.64%。
Gemini Omni Flash is SOTA at image to video, text to video, and video editing : ) Excited to get this to developers in t...
全球内容巨头Lionsgate与生成式AI研究公司Runway今日宣布扩大战略合作。Lionsgate已取得Runway股权,双方将启动联合开发项目,共同创作并制作新IP,首推一部基于Lionsgate现有IP和Runway生成模型的短剧系列。此外,Lionsgate将作为主持伙伴参与6月举行的Runway AI电影节。这是双方继2024年9月首次合作后的深化,Lionsgate此前已在预可视化、故事板及最终帧制作中应用Runway工具。
阿里云发布一段由Qwen和Wan模型生成的AI视频,以墨西哥文化为主题,融合祖先智慧、传统工艺、Mariachi音乐和Zapotec编织艺术,从古老圣地到现代创新枢纽,展现AI如何连接过去与未来。视频旨在展示模型的创意能力,并引导用户通过Model Studio平台使用相关模型进行创作。
阿里云发布AI生成视频,由通义千问(Qwen)和万相(Wan)模型共同创作。视频以阿联酋为主题,融合沙漠、阿拉伯书法、传统待客之道与迪拜现代天际线等元素,从古代天文智慧到未来科技,展现文化遗产与创新的平衡。官方推荐使用Model Studio平台调用模型进行创作。
We Asked AI To Simulate What Would Happen If AOC Was Forced To Learn Economics Made with @grok.
视频完全摒弃 Premiere/Final Cut,由 Claude Code 配合 Fable 5 通过代码与命令行自动剪辑。流程:本地 Whisper 转写 25GB 素材(17 个 Take,4 场景),生成毫秒级单词时间戳 JSON;Subagent 剔除停顿废片选出最佳镜头;代码调用 FFmpeg 自动粗剪;AI 手写 LUTs 调色代码并生成带滑块的 HTML 页面供人工调整;静态图形转为 React 的 Remotion 动画组件,利用时间戳精准卡点;通过 Figma MCP 将画面导出至 Figma 供设计优化,再自动抓回代码,渲染 4K 24fps。作者全程未触碰视频编辑器。
Lots of people asked how I used Fable to edit its own launch video so I made a video about that! TLDR it wrote a lot of ...
InternVideo3框架通过多模态上下文推理(MCR)提升基础模型的长时序多模态任务能力。MCR将理解视为包含观察、指令、推理、工具行动和记忆的闭环过程,将长视频理解为证据积累与验证。为提升效率,引入多模态多头潜在注意力(M²LA),一种保留完整token流同时压缩KV-cache状态的token保持重参数化。训练阶段包括继续预训练、短到长监督微调、基于规则的强化学习和在线蒸馏。InternVideo3在Video-MME、MLVU、EgoSchema等基准上取得强性能,并实例化为带有检索工具的视频智能体,展现基于证据的鲁棒行为。
Supervision 是开源计算机视觉可视化工具库,安装仅需 pip install supervision,几行代码即可实现持久ID对象跟踪、自定义标签标注、区域计数与越线检测、人体姿态关键点连线、YOLO/COCO/Pascal VOC 数据集格式一键互转。模型无关,支持 YOLO、Transformers 等任意检测模型。已被6500+开源CV项目采用,适用于NBA球员实时跟踪、路口车流量统计、工业缺陷检测等场景。
分享一个计算机视觉开发者必藏神器,4 万星GitHub开源! 不用自己写几百行画框跟踪代码, 一行命令搞定所有可视化, Supervision,CV 界真正的瑞士军刀。 1️⃣ 它到底有多强? 自动画框加标签,支持编号、自定义样式, 视频对...
Claude Fable 5 通过纯提示驱动,端到端生成 4K Launch 视频。从 17 个 Sony S-Log3 4K take(约 25GB)出发,流程包括:Whisper 逐词转录、Claude 作为子 agent 选片输出 JSON 编辑决策列表 (EDL)、FFmpeg 拼接粗剪、手写 7 个自定义 .cube LUT 颜色分级、通过 Remotion + Figma MCP 将 11 张设计 PNG 转为 React 组件并实现代码↔Figma 往返迭代。最终渲染 3840×2160@24fps、4334 帧、653MB 成品,全程未打开视频编辑器。
Lots of people asked how I used Fable to edit its own launch video so I made a video about that! TLDR it wrote a lot of ...
从参考视频克隆相机运动是视频生成的重要任务。现有方法依赖参数化表示或合成交叉配对数据,难以处理多镜头生成且数据稀缺。OmniDirector将相机参数编码为网格运动视频作为通用表示,支持多镜头轨迹整合。框架在百万级相机网格-视频对上训练,采用多模态扩散Transformer,协调角色、动作和相机。同时设计层级提示扩展智能体,通过理解信号关系系统描述相机运动和视觉内容,集成不同控制信号。实验证明其在复杂相机运动克隆上性能优越、可控性强。
Avatar V 是一个生产级框架,通过视频参考条件建模替代静态图像驱动。模型直接对参考视频的完整 token 序列进行注意力计算,同时重现静态身份和动态行为(如说话节奏、微表情)。核心技术包括线性复杂度的稀疏参考注意力、支持闭环风格迁移的运动表示流、继承全参考条件的身份感知超分精炼器。数据引擎从 5000 万原始视频中筛选出 1 亿以上训练片段,经 flow matching 预训练、个性微调、两阶段蒸馏(>10 倍加速)和 RLHF 对齐等五阶段训练,部署于数千 GPU。可生成无限时长 1080p 视频,在跨场景基准上保持最优的身份保留、唇同步和生成质量,全面超越 Seedance 2.0、Kling O3 Pro、Veo 3.1 和 OmniHuman 1.5。
Lots of people asked how I used Fable to edit its own launch video so I made a video about that! TLDR it wrote a lot of ...
2024年6月,创作者开始使用可灵Kling AI。用户反复提出“如果角色更生动”“如果动作更真实”“如果她能说话”等需求。从Kling 1.0到3.0,每次迭代都基于创作者反馈改进。2026年6月,可灵Kling AI全球用户突破1亿。官方在二周年之际向所有创作者致谢。
Next Forcing 提出多块预测(MCP)框架,受大语言模型多 token 预测启发,在主模型上添加轻量级辅助 MCP 模块,同时对多个未来时间步的视频块去噪。50fps 下训练 5k 步时相对 LingBot-VA 提升 93.1%,收敛速度加快 2.3 倍;在 RoboTwin 基准上达 94.1%(Clean)/93.5%(Random)新 SOTA。推理时保留 MCP 模块可实现 2 倍加速。在物理规律基准 PhyWorld 上也有显著提升,通用视频预训练 FVD 降低超 50%。
一位10万粉小红书AIGC博主,不带货、不卖课、不引流私域。拆解7篇赞≥5000爆款:封面5篇零文字靠画面,唯二带大字的为品牌广;7篇中5篇品牌合作(兰蔻、李锦记、华为、脉动),产品嵌入“猫咪meme”“穿进古画当厨子”剧情;选题萌宠拟人化,一条AI跳舞猫获7.9万赞、4.2万藏;标题用强动词如“闯进/穿进/征服”+疑问感叹;开头直说用户心里话或具体场景;全部视频、0图文。详细提示词见原文。
http://x.com/i/article/2064536412670562304
Decart 推出 Oasis 3,一个实时世界模型,能够生成逼真的驾驶环境用于自动驾驶车辆测试,现已通过 API 向开发者开放。
Hyperframes is now an official @claudeai connector LLM answers are often dense pages of text that go unread we partnered...
自回归视频生成器的历史 KV cache 随视频长度增长。FadeMem 提出距离感知内存合并机制,在固定缓存预算下将历史 KV 块组织成时间层次,利用频率依赖的时间衰减(细粒度细节快速去相关,粗粒度场景结构保持更久)。生成时新历史作为细粒度条目插入,较旧相邻条目按幂律调度逐步合并,形成近密远疏内存。无需改动架构,即可保留近期上下文并为身份与场景连贯性提供紧凑长程锚点。实验表明在主体一致性、背景稳定性和时间连贯性上优于现有有界缓存策略。