移除视频中出现的路人,小米开源 CVPR 2026 夺冠技术 SVOR
阅读原文· ithome.com小米技术宣布开源视频消除技术SVOR,可精准移除视频中的路人。该技术针对真实世界视频中掩码边缘不准、阴影残留、快速移动目标闪烁等痛点,采用MUSE窗口化联合策略、DA-Seg去噪感知分割及课程式两阶段训练方案。SVOR在CVPR 2026物理感知视频实例消除挑战赛中从18支队伍中夺冠,并在多个标准数据集上达到SOTA水平。目前相关论文与代码已开源,并提供可直接调用的skill。
IT之家 4 月 22 日消息,小米技术今日宣布,开源视频消除技术 SVOR,该技术可以移除视频中出现的路人。
官方表示,现有的方法大多在理想条件下设计和验证,而真实世界的视频远比论文里的测试场景复杂 —— 模型识别的掩码边缘不够准、物体消除后阴影仍然留在画面里、目标快速移动时逐帧处理频繁“跟丢”导致闪烁。
为此小米提出了 SVOR(Stable Video Object Removal)框架,专门针对上述三类“不完美条件”设计了对应的解决方案:用 MUSE 窗口化联合策略解决运动抖动,用 DA-Seg 去噪感知分割提升遮罩容错能力,并通过课程式两阶段训练让模型真正学会处理阴影和反射残留。
SVOR 在多个标准数据集和退化遮罩基准上均达到了新的 SOTA 水平,并在 CVPR 2026 物理感知视频实例消除挑战赛中从 18 支参赛队伍中脱颖而出,荣获第一名。
相关论文已经发布,项目代码也已开源,并准备好 skill 供直接调用,IT之家附相关链接如下:
论文:https://arxiv.org/abs/2603.09283
GitHub:https://github.com/xiaomi-research/svor
Skill:https://clawhub.ai/wangfei1204/mi-visionforge-svor
小米还表示,在视频消除的评测方案上也做了较多工作,包括评测数据收集整理和创新性评测方法,将在合适的时间进行开源。