OmniCap-IF 是首个针对全能模态大语言模型(OLLMs)视频描述指令遵循能力的基准,涵盖纯视觉、纯音频和视听三种模态下的 50 种约束类型,并引入时间定位评估时空精确性。在 1920 个高质量样本上的评测显示模型间存在显著性能差距,并发现“格式-内容权衡”——格式复杂度增加会损害模型的全能模态推理能力。研究团队还构建了 54K 指令微调数据集 OmniCap-IF-54K,并发布 OmniCaptioner-IF 模型,在复杂指令遵循与通用全能模态描述性能上均取得明显提升。
OmniCap-IF 是首个针对全能模态大语言模型(OLLMs)视频描述指令遵循能力的基准,涵盖纯视觉、纯音频和视听三种模态下的 50 种约束类型,并引入时间定位评估时空精确性。在 1920 个高质量样本上的评测显示模型间存在显著性能差距,并发现“格式-内容权衡”——格式复杂度增加会损害模型的全能模态推理能力。研究团队还构建了 54K 指令微调数据集 OmniCap-IF-54K,并发布 OmniCaptioner-IF 模型,在复杂指令遵循与通用全能模态描述性能上均取得明显提升。
CoVEBench 是一个组合视频编辑基准,包含 416 个源视频、626 条多点编辑指令和 9,990 个细粒度检查项,覆盖多维度编辑任务。它通过 MLLM 评判指令遵守度与视频保真度,并结合自动指标评估视频质量。实验表明,当前模型在同时处理多操作时仍频繁遗漏编辑、违反保留约束或引入伪影,组合编辑是重大挑战。
Start with an image of a building and prompt for a projection mapping with Omni.
百度MEG(移动生态事业群组)进行新一轮组织调整,合并商业部与电商事业部,成立大商业事业部;数字人创新业务部升级为独立部门。在Create 2026百度AI开发者大会上,百度宣布数字人品牌“慧播星”升级为“百度一镜”,并推出“一镜海外版”,将其打造为涵盖直播、视频、实时互动等多形态的全场景数字人平台。李彦宏称数字人是“看得见的智能体”。
《丧尸清道夫》作者刘梓渝公开爆火视频创作思路,核心并非依赖抽卡运气,而是将导演思维、镜头语言和后期剪辑完整嵌入AI工作流。该方法论值得AI短视频创作者逐帧学习。
OpenCut 是一个 GitHub 5 万星的开源 AI 剪辑工具,主打本地优先,视频无需上传服务器,永久免费、无水印、无会员墙。目前处于 Early Beta 阶段,网页版支持基础剪辑(导入视频、时间线、切割),但导出、特效、转场等功能仍在开发。路线图包括 Rust 重写核心、Web+桌面+移动统一、插件系统、Editor API 及 MCP Server(让 AI Agent 直接调用工具),目标是成为可编程的视频底座,而非对标剪映的封闭工具。
http://x.com/i/article/2060717603987791878
MiniMax旗下海螺AI作为第28届上影节独家AI影像战略合作伙伴,6.14-6.15举办开放日。活动包括:AI片场·海螺专属Booth(展示1+1组合作品及过程)、6.14多模态行业交流会、6.15专题圆桌(超级创作者呈现四种图景、《流浪地球》制片人与青年导演对谈)。具体时间地点详见图片。
DESERT STARS ✨💫⭐️🌟 Full AI Animated Music Video I created this video using VibeMV on @PixVerse_ Make your first video ...
🤓mocap搞起来。 现在这个时代真是太好了。手机拍个视频就能动作捕捉。 想要什么技能就拍一个。
AI 初创公司 Quilty 宣称其工具仅通过阅读剧本就能准确预测电影的市场表现。然而,实际测试结果引发质疑:在拥有全球数据的情况下,Quilty 预测后来票房惨败的《Christy》会优于最终成为奥斯卡获奖大片的《Sinners》。Quilty 创始人认为这类工具能“民主化”电影行业,为新兴创作者提供辅助,但权威性有待验证。
6月5日,快手旗下可灵AI宣布全球用户突破1亿,企业客户近5万。过去一年,可灵完成26次迭代,深入影视、广告、音乐MV、游戏、电商、智能硬件等场景,并发布由可灵AI全片生成的两周年短片。据IT之家此前报道,快手正评估拟议重组可灵AI相关资产及业务,或引入外部融资;目前可灵AI正在进行Pre-IPO轮融资,投前估值180亿美元,内部按2027年初递交港股上市申报材料推进。
火山引擎豆包视频生成模型Seedance 2.0以音画同出、全能参考、物理规律遵循、长视频一致性及电影级审美,打通品牌广告高质感创作与效果广告规模化量产。品牌场景已应用于智己汽车、华为手机、芝华仕等;效果广告场景下,30秒素材制作成本30-45元/条,单日稳定产出上百条,AIGC优质素材平均ARPU提升80.2%。基于Seedance 2.0的KickArt 3.0 Agent可实现爆款素材参考生成与批量裂变,已在汽车、3C、电商、快消等行业落地。
一对多时间定位(OMTG)旨在定位文本查询对应的多个不连续视频片段。现有SOTA多模态大模型(MLLMs)在此任务上几乎得零分,缺乏事件基数感知。为此,研究者建立了首个综合OMTG基准,引入计数准确率(C-Acc)和有效时间F1(EtF1)作为评测指标;构建包含56k样本的高质量OMTG数据集;开发了针对OMTG的时间奖励和描述奖励函数,其中描述奖励利用密集视频描述的链式推理指导策略优化。该方法在OMTG Bench上达到43.65%的EtF1,分别超过Gemini 2.5 Pro和Seed-1.8达15.85%和15.61%。
今日はPixVerseのseedance2.0で! PixVerse上でキャンバス機能がお試しで使えるようになっていたので触ってみました✨ やっぱりストーリーボードから動画まで一貫して作れるのはいいね🎵 Seedance2.0 #pixv...
xAI 通过 API 开放预览版图像转视频模型 grok-imagine-video-1.5-preview,可将一张静态图像扩展为流畅的电影感视频片段。用户提供起始图片并用自然语言描述运动方式后,模型可控制镜头移动、画面节奏、环境氛围与物理效果。该模型最高支持 720p 视频生成,适合概念验证、分镜测试和短内容生产,并能通过逐段动画化将多镜头串联为更长场景。
Future-L1 是一种交错潜在视觉推理框架,让 MLLM 在自回归解码中交替生成语言 token 与连续潜在视觉 span。为此构建了 Future-L1-50K 数据集,并用潜在感知 RL 目标 LA-DAPO 优化采样轨迹。在 FutureBench 上,Future-L1 将 Qwen3-VL-8B 得分从 61.0 提升至 85.4,超过此前最优 Video-CoE 10.4 分;在 TwiFF-Bench 上平均分从 2.44 升至 3.04。结果表明,将中间视觉语义保留在潜在空间而非转化为文本,有益于未来视频推理。
LoomVideo是一个5B参数的高效统一架构,支持视频生成与编辑。它用多模态大语言模型(MLLM)替换标准文本编码器,通过Deepstack注入机制对齐MLLM特征与扩散Transformer。核心创新为零开销的Scale-and-Add条件方法,直接缩放和加性处理源视频潜变量,避免token拼接导致的序列长度翻倍与自注意力计算复杂度增加。集成Negative Temporal RoPE策略处理多张参考图像。该模型在综合基准上达到或接近SOTA,尤其在电商和时尚生成场景表现突出,推理速度相比同类模型提升至少5.41倍。
StreamForce 是一个因果统一的流式视频生成框架,通过连续力输入实现物理可控的视频生成。其采用统一力表示作为控制信号,并配合蒸馏流程训练,能即时且连贯地响应局部和全局时变力。StreamForce 在单个 GPU 上可达 16.6 FPS,兼具自回归效率和力响应能力,在力遵循度和运动真实性方面达到当前最优水平。
Stream3D-VLM 是一种在线3D视觉语言模型,能从流式视频中实时进行空间理解。它基于LLM的下一token预测目标采用自回归流控制建模决定何时响应,通过轻量级Visual-Spatial Feature Integration(VSFI)模块逐步注入时序对齐的几何先验,并提出Geometry-Adaptive Voxel Compression(GAVC)模块用于视觉token的高效压缩。为缓解流式3D语言数据稀缺,构建了超过1M在线时空3D问答对的数据生成流程,并建立涵盖29个任务的benchmark。实验显示,该模型在在线和离线3D空间理解、推理与定位任务上均显著优于闭源及开源模型。
该综述从人类视角审视基于多模态大语言模型的视频理解,将其组织为观看、记忆、推理三项核心能力。论文提出统一框架,通过感知表征、记忆状态、推理轨迹和最终预测刻画系统,识别了时空感知、高效长视频处理、记忆建模、流式理解及忠实推理等关键挑战。工作梳理了细粒度/全面/音视频/高效感知(观看)、离线与流式记忆(记忆)、纯文本与视频思维推理(推理)的方法,覆盖自我中心、体育、教学、医学、叙事等应用,并整理了训练数据集与评估基准,最后指明可扩展、记忆感知和证据驱动的视频智能等开放问题。
Bring your images to life ⚡️ Upload your picture as a first frame and add a prompt to generate your own unique video wit...
Introducing Tavus Solutions. Complete, production-ready AI humans for the enterprise workflows where human-quality conve...
open-design(项目名html-video)正式开源,被形容为“html版剪映”。Agent可通过编写HTML生成世界级产品宣传、知识解说视频,成本极低。项目历时3天、3万行代码,支持20多套视频风格模板,分页编辑,可导出mp4,支持Claude Code等主流Agent接入。
正式开源 html-video 🚀 html版剪映来了! 你的 Agent 现在可以通过写 html轻松做出世界级水准的产品宣传、知识解说视频,成本极低!🔥 历时 3 天,3 万行代码!支持20多套顶尖视频风格模板,分页编辑,mp4 导...