JoyAI-VL-Interaction:实时视觉-语言交互智能
这是首次把视觉主动交互能力做成开源模型和完整系统,模型不再等问题才回答,而是自己决定何时开口或保持沉默,对做实时助手和直播产品的团队有直接参考价值。
JoyAI-VL-Interaction是一个8B参数的视觉优先交互模型,能像人一样持续观察实时画面,自主决定每秒钟保持沉默、回应或将复杂问题委托给后台模型。模型擅长视觉触发响应和时间感知,并涌现出引导用户切换屏幕、根据幻灯片即兴讲解等未专门训练的能力。配合完整可部署系统,支持实时视频流输入、可插拔ASR/TTS模块、记忆、可视化UI及可连接任意API或智能体的后台大脑。在六个真实场景中,人类评估者更偏好该模型而非豆包和Gemini的应用内视频通话助手。这是首个开源且附带训练配方、数据和完整部署系统的视觉驱动交互模型。
现实世界中的许多瞬间并不会等待用户来提问。安防监控上出现火情,视频通话中掠过一丝表情,或者直播里闪过观众想要的商品。然而,当今的大模型在设计上大多仍是轮询式的:它们只在被点名时才回应,即便是看似互动的视频通话应用,本质上仍是问答系统,仅在受到轮询或提示时才做出反应。我们主张一种不同的范式:一个像人一样存在于世界中的模型。它持续观察当前发生的一切,自行决定是说话还是保持沉默,实时互动,并在遇到难题时委托给后台模型。为了推动交互模型及其在多个领域的应用,我们做出了两项完全开源贡献。首先,我们发布了 JoyAI-VL-Interaction,一个 8B 参数规模、以视觉优先的多模态交互模型。该模型内部自主做出响应决策,每秒选择是保持沉默、做出回应,还是委托给后台模型;它在视觉触发的响应能力和时间感知方面表现出色。我们还提供了可迁移的训练方案,从中涌现出我们从未专门训练过的能力,例如引导购物者切换应用界面,或根据幻灯片即兴授课。其次,我们发布了一个围绕该模型构建的完整、可部署系统。该系统将任何正在进行的视频流输入模型,使其真正能够存在于世界中。所有其他组件都是可插拔的,包括 ASR/TTS 模块、记忆、可视化 UI,以及一个可以连接任何 API 或智能体的后台大脑。在六个真实场景中,人工评分员对 JoyAI-VL-Interaction 的偏好显著高于豆包和 Gemini 的应用内视频通话助手。据我们所知,这是首个完全开源、以视觉驱动的交互模型,并同时发布了其训练方案、数据和完整的可部署系统。