Alibaba:GitHub 新仓库
42
alibaba/OSWorld
AI 摘要
阿里巴巴在NeurIPS 2024上发布了OSWorld基准测试框架,用于评估多模态智能体在真实计算机环境中的开放式任务执行能力。该框架提供了一个可复现的虚拟环境,支持对基于GPT、Claude、LLaMA等模型的智能体进行标准化测试。其核心变化在于从封闭任务转向开放任务评估,涵盖了网页浏览、软件操作、文件管理等跨平台实际场景。项目以开源形式发布,鼓励通过Fork提交修改并向上游发起PR贡献。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文github.com