蚂蚁 inclusionAI:HuggingFace 新模型
inclusionAI/VISTA-9B:基于VISTA训练的GUI定位视觉语言模型
AI 摘要
VISTA-9B是基于Qwen3.5 9B骨干训练的GUI定位模型,输入截图与自然语言指令,输出0-1000归一化坐标。采用VISTA(视图一致自验证)方法,含view-consistent GRPO与self-verified cross-view anchoring。在SSPro、SSV2、OSWorld-G、OSWorld-G-R上分别取得69.2、95.8、68.1、75.5分,超越Qwen3.5-9B与GRPO-9B基线。模型已开源,可通过HuggingFace加载使用。
这是一则列表来源,站内未收录完整正文。
阅读完整原文huggingface.co