# inclusionAI/VISTA-9B：基于VISTA训练的GUI定位视觉语言模型

- 来源：蚂蚁 inclusionAI：HuggingFace 新模型
- 发布时间：2026-06-12 17:14
- AIHOT 分数：71
- AIHOT 链接：https://aihot.virxact.com/items/cmqbwmfgh05sdslam91ctu2zd
- 原文链接：https://huggingface.co/inclusionAI/VISTA-9B

## AI 摘要

VISTA-9B是基于Qwen3.5 9B骨干训练的GUI定位模型，输入截图与自然语言指令，输出0-1000归一化坐标。采用VISTA（视图一致自验证）方法，含view-consistent GRPO与self-verified cross-view anchoring。在SSPro、SSV2、OSWorld-G、OSWorld-G-R上分别取得69.2、95.8、68.1、75.5分，超越Qwen3.5-9B与GRPO-9B基线。模型已开源，可通过HuggingFace加载使用。

## 正文

这是一则列表来源，站内未收录完整正文。
