I heard the AI creator role at @EnergyWabbits is filled But I tried making a match cut ad for wabbits because their ener...
在戛纳电影节期间,导演贾樟柯与火山引擎探讨AI对电影行业的影响。贾樟柯认为,AI降低了电影制作的技术门槛,让普通人也能参与拍摄和创作,电影行业正迎来平民化变革。
上海市出台《加快推进人工智能赋能微短剧高质量发展的若干措施》,提出8方面24项举措。政策重点支持企业租用智能算力、调用第三方大模型API、采购语料进行垂类模型训练,并对优秀微短剧剧本给予奖励。措施旨在构建“AI+微短剧”技术体系、搭建公共服务平台、促进文化出海,并在徐汇、杨浦、闵行打造产业集聚区。
"The Dark Lullaby of Little Red" 🧣• Sad Song 🎶 Little Red Riding Hood Fairy Tale 🐺 "A happy ending doesn't mean the w...
美团发布数字人模型LongCat-Video-avatar-1.5,可通过图片和音频生成口播视频。demo仅支持5秒480p视频。实测中人物嘴部遮挡案例效果与SOTA有差距,主要在口型。最大分辨率720p,但可AI提升至4K。模型本地部署可行,对动漫人物泛化,但体积大,int8量化需16G显存。
あの「ブラジルの至宝」がワールドカップに電撃招集! 乗るしかない!このビッグウェーブに! Cam Live on PixVerse @PixVerse_ #PixVerse #WorldCup #DribbleRun #Ponta
本研究旨在评估现有视频质量模型能否准确评估基于扩散模型的视频超分辨率方法。通过将模型预测与主观测试结果进行对比,研究分析了六种超分辨率方法(Lanczos, Rhea, SCST, DOVE, SeedVR2, Starlight Mini)在处理压缩(AV1, DCVC-RT)和未压缩低分辨率视频时的表现。结果表明,基于CNN的全参考模型(如LPIPS, DISTS, CVQA-FR)表现出更高的相关系数。大多数模型高估了SCST的结果,而VMAF主要因Starlight Mini引入的空间不一致性而失效。最终,所有测试的视频质量模型均未达到足以替代主观测试的准确度。
LLaVA-OneVision-2 是 LLaVA-OneVision 系列中能力最强的视觉语言模型。其核心是编解码流 tokenization 技术,通过分析压缩视频的比特成本动态进行自适应分组,并利用运动残差线索将关键空间信息压缩到紧凑的视觉画布中。模型采用共享的 3D RoPE 统一图像与视频的时空坐标,并在约 800 万重标注视频样本上预训练、400 万空间语料上微调。在面向高频重复动作定位的 JumpScore 评测中,其 8B 版本达到 74.9 分的 mAP,显著超越 Qwen3-VL-8B(30.1 分),且在匹配 token 预算下,编解码流输入较帧采样在时序定位上提升 9.7 点。该模型在视频、空间和跟踪任务基准上也全面领先。
LongAV-Compass 是一个针对分钟级音视频生成的系统化评测基准。它包含 284 个精选测试用例,覆盖文本到音视频(T2AV)、图像到音视频(I2AV)和视频到音视频(V2AV)三种条件模态。该基准采用分类引导构建方法,并整合了统一评估框架。该框架结合了多模态大模型(MLLM)辅助评估与多种感知及多模态指标,例如 DINO-v2、ArcFace、CLIP 和 ImageBind,对超过 20 个细粒度维度进行评分,涵盖片段内质量、跨片段一致性、全局叙事连贯性、语义对齐以及音视频同步等方面。通过对 11 个代表性模型进行实验并经过人工对齐验证,LongAV-Compass 为分析现有系统在跨模态条件下维持连贯、语义对齐且时间一致的分钟级音视频生成方面的局限性提供了诊断性测试平台。
WorldCraft将交互式视频世界模型从相机导航扩展到物体级轨迹操作。用户点击并绘制路径后,模型生成未来帧,使选定物体沿轨迹运动同时相机继续导航。其核心包括:Normalized World Trajectory (NWT) 在相机不变的世界坐标系表示用户运动并动态重投影;Spatial-Pathway LoRA (SP-LoRA) 注入世界空间信号以增加物体操作能力;Trajectory-Anchored State Persistence (TASP) 将世界轨迹作为持久状态刷新自回归记忆。实验表明WorldCraft实现精确物体控制,保持相机保真度,并维持跨长自回归滚动的物体状态。
现有指代分割模型通常假设用户查询精确无歧义,但在实际应用中这一假设难以成立。为此,本文提出IC-Seg,一个新颖的智能体框架,它能在分割前通过多轮对话主动澄清用户意图。为有效激励此能力,进一步引入Hi-GRPO分层优化策略,在轨迹、对话轮和步骤层级注入密集监督信号,以减少冗余交互并提升对话质量。研究建立了包含歧义查询的指代视频对象分割基准Ambi-RVOS,实验证明IC-Seg在处理歧义查询上显著优于现有方法,并在标准推理分割基准上保持state-of-the-art性能。
Google发布了新款Gemini AI模型,其核心特点是能跨模态处理“万物到万物”的生成任务,例如直接从文本生成高质量视频。文章通过作者用该工具为孩子的毛绒玩具鹿生成“度假视频”的实验,展示了当前生成式AI技术的强大与易用性——仅需极低的操作门槛和专业知识,即可创建逼真内容。这一趋势标志着强大的AI创作工具正快速普及,同时也引发了对生成式AI应用边界、内容真实性及潜在影响的深入思考。
Kling AI在戛纳电影市场(Marché du Film)举办官方会议,首次登上这一世界顶级电影舞台。会议汇集全球电影专业人士,共同探讨AI如何融入实际电影制作流程。Kling AI已证明其能力可服务于动画长片、好莱坞剧集、实验短片及影院电影等多种创作形式。未来,Kling AI将继续推进电影级AI影像技术,与全球创作者合作,将更多“不可能”的故事呈现在银幕上。
A walkthrough of what PINOC does: 🧵 1. Upload a motion video, get clean skeletal animation. Export as .fbx/.glb, ready ...
◆◇ @PixVerse_ ◇◆ \CPPに参加😆/ イトパンさん@takamasa045 の企画のおかげでございます( ⊙‿⊙)❤️🔥 スマホで動画生成するの苦手で、いつもPCでやってたけど、PixVerseはアプリが使いやすいからス...
Kling AI在戛纳电影节的市场展(Marché du Film)上成功展示其AI驱动电影制作的未来愿景。活动中汇聚了全球影视创作者与行业人才,其关于AI创意叙事的理念获得了广泛反馈与支持。此次展示标志着Kling AI推动AI与创意产业结合的旅程刚刚开始,未来将继续探索拓展AI在叙事创作领域的边界。
美团技术团队开源了数字人视频生成模型 LongCat-Video-Avatar 1.5。该版本在唇形同步、物理合理性、长视频稳定性和多人互动方面全面升级,支持复杂语音输入与多种主体。通过 DMD 蒸馏技术,推理效率提升约 15 倍,生成 10 秒视频仅需约 1 分钟。在性能评测中,模型在四个关键维度表现领先,用户偏好对比中胜率均超 54%,旨在推动数字人视频从技术演示走向商业应用。
关联讨论 1 条美团 LongCat:HuggingFace 新模型说个热知识吧~ 很多海外的功能免费,国内收费😂 记得当年做TikTok的时候就天天拿CapCut来剪视频。 并且看到CapCut & Google 合作也是证明这几年做的东西得到国际市场和用户的认可。
Introducing Director Mode in CapCut Video Studio. The future of AI filmmaking. From first idea to final cut, Director Mo...
美团技术团队正式开源 LongCat-Video-Avatar 1.5,该版本从高拟真走向真可用,将视频头像生成从室内彩排演练推向千人千面的真实应用场景。
传统视觉目标跟踪方法依赖特定任务的监督训练,泛化能力有限。近期以SAM 2为代表的基础模型虽具强大视频理解能力,但直接用于跟踪时缺乏对目标运动、几何一致性和语义偏移的显式建模。为此,本研究提出SAMOSA框架,通过引入轻量级非线性运动预测器建模目标动态,利用语义线索检测偏移并恢复跟踪,并结合几何约束提升稳定性,从而将SAM 2的通用先验适配到复杂跟踪任务。实验表明,SAMOSA在通用基准上优于现有SAM 2方法,并在反无人机等非线性运动场景中取得显著性能提升。
针对现有短剧生成方法在叙事节奏、空间一致性及生产级质控方面的不足,本研究提出了“一句一剧”分层多智能体框架。该框架包含三大核心组件:多智能体辩论式故事生成以保障叙事张力、3D锚定首帧生成以维护跨片段空间一致、以及多阶段审核循环以实现全流程质量控制。此外,系统引入了场景级BGM匹配与转场规划以增强沉浸感。团队还构建了专用基准Short-Drama-Bench进行评估。实验表明,该方法在叙事连贯性、角色场景一致性及整体观看体验上均显著优于现有流程。
该研究提出Swift Sampling,一种免训练的视频帧选择算法。其灵感源自人脑的预测编码机制,将视频建模为视觉潜在空间中的可微轨迹,计算特征的速度与加速度,并通过泰勒展开预测后续帧的预期路径。算法识别出大幅偏离预测轨迹的帧,即“时间信息突变帧”,作为包含关键信息的帧进行采样。该方法极其轻量,仅增加0.02倍计算开销,比主流方法低30倍。在长视频问答的多个基准测试中,它均优于均匀采样等方法,在帧预算有限时尤为有效,准确率最高可提升12.5个百分点。
本文提出了Bernini,一个用于视频生成与编辑的统一框架。该框架创新性地将多模态大语言模型与扩散模型分工协作:MLLM负责在ViT嵌入空间预测目标语义表示,扩散模型则依据此语义规划及文本特征合成像素。为处理多视觉输入,模型引入了分段感知三维旋转位置编码,并结合思维链推理,显著提升了从理解到生成的转化能力。该架构支持模块化训练与轻量协同优化,在多项视频生成与编辑基准测试中均取得最优表现。
苹果Persona团队在WWDC26前发布新论文,展示了面部捕捉与动画技术的最新进展。从演示来看,其在眼部微表情、头部细微动作和皮肤质感等细节上实现了显著提升,使数字形象的真实感进一步增强,已超越简单“数字头像”,趋近于可信的“数字分身”。这类突破对AR/VR、游戏和远程协作等领域的沉浸式体验至关重要,能够有效打破虚拟交互中的“不真实感”。苹果持续重仓该技术赛道,相关论文与演示视频已公开。
Apple's Persona team continuing to do amazing work with face capture and animation. New paper released ahead of WWDC26 h...