公众号:小红书技术(dots.llm)
小红书发布 SWE-Bench Mobile:当 AI Agent 面对亿级用户 App 代码库,最高通过率仅12%?
AI 摘要
小红书发布移动端代码库基准测试 SWE-Bench Mobile,用于评估 AI Agent 修复亿级用户 App 代码库中 bug 的能力。测试结果显示,当前最高通过率仅为12%。
公众号正文需在微信内阅读,站内仅提供摘要。
在微信中打开原文mp.weixin.qq.com小红书发布移动端代码库基准测试 SWE-Bench Mobile,用于评估 AI Agent 修复亿级用户 App 代码库中 bug 的能力。测试结果显示,当前最高通过率仅为12%。
公众号正文需在微信内阅读,站内仅提供摘要。
小红书发布移动端代码库基准测试 SWE-Bench Mobile,用于评估 AI Agent 修复亿级用户 App 代码库中 bug 的能力。测试结果显示,当前最高通过率仅为12%。
公众号正文需在微信内阅读,站内仅提供摘要。
在微信中打开原文mp.weixin.qq.com