JoyAI-VL-Interaction：实时视觉-语言交互智能

2026-06-10 08:00·14天前

精选理由

这是首次把视觉主动交互能力做成开源模型和完整系统，模型不再等问题才回答，而是自己决定何时开口或保持沉默，对做实时助手和直播产品的团队有直接参考价值。

AI 摘要

JoyAI-VL-Interaction是一个8B参数的视觉优先交互模型，能像人一样持续观察实时画面，自主决定每秒钟保持沉默、回应或将复杂问题委托给后台模型。模型擅长视觉触发响应和时间感知，并涌现出引导用户切换屏幕、根据幻灯片即兴讲解等未专门训练的能力。配合完整可部署系统，支持实时视频流输入、可插拔ASR/TTS模块、记忆、可视化UI及可连接任意API或智能体的后台大脑。在六个真实场景中，人类评估者更偏好该模型而非豆包和Gemini的应用内视频通话助手。这是首个开源且附带训练配方、数据和完整部署系统的视觉驱动交互模型。

AI 翻译 · 中文

现实世界中的许多瞬间并不会等待用户来提问。安防监控上出现火情，视频通话中掠过一丝表情，或者直播里闪过观众想要的商品。然而，当今的大模型在设计上大多仍是轮询式的：它们只在被点名时才回应，即便是看似互动的视频通话应用，本质上仍是问答系统，仅在受到轮询或提示时才做出反应。我们主张一种不同的范式：一个像人一样存在于世界中的模型。它持续观察当前发生的一切，自行决定是说话还是保持沉默，实时互动，并在遇到难题时委托给后台模型。为了推动交互模型及其在多个领域的应用，我们做出了两项完全开源贡献。首先，我们发布了 JoyAI-VL-Interaction，一个 8B 参数规模、以视觉优先的多模态交互模型。该模型内部自主做出响应决策，每秒选择是保持沉默、做出回应，还是委托给后台模型；它在视觉触发的响应能力和时间感知方面表现出色。我们还提供了可迁移的训练方案，从中涌现出我们从未专门训练过的能力，例如引导购物者切换应用界面，或根据幻灯片即兴授课。其次，我们发布了一个围绕该模型构建的完整、可部署系统。该系统将任何正在进行的视频流输入模型，使其真正能够存在于世界中。所有其他组件都是可插拔的，包括 ASR/TTS 模块、记忆、可视化 UI，以及一个可以连接任何 API 或智能体的后台大脑。在六个真实场景中，人工评分员对 JoyAI-VL-Interaction 的偏好显著高于豆包和 Gemini 的应用内视频通话助手。据我们所知，这是首个完全开源、以视觉驱动的交互模型，并同时发布了其训练方案、数据和完整的可部署系统。

智能体多模态模型发布

HuggingFace Daily Papers（社区热门论文）

精选78