OmniShow 是一个面向人与物体交互视频生成(HOIVG)的端到端框架,支持文本、图像、音频和姿态等多模态条件输入。该方法提出统一通道级条件注入(Unified Channel-wise Conditioning)和门控局部上下文注意力(Gated Local-Context Attention)机制,在可控性与生成质量之间取得平衡,并采用解耦后联合训练策略(Decoupled-Then-Joint Training)解决数据稀缺问题。研究团队还建立了 HOIVG-Bench 基准测试。实验表明,OmniShow 在多种多模态条件下均达到行业领先的生成效果。