公众号：小红书技术（dots.llm）

小红书发布 SWE-Bench Mobile：当 AI Agent 面对亿级用户 App 代码库，最高通过率仅12%？

2026-02-27 18:00·125天前·小红书技术REDtech

AI 摘要

小红书发布移动端代码库基准测试 SWE-Bench Mobile，用于评估 AI Agent 修复亿级用户 App 代码库中 bug 的能力。测试结果显示，当前最高通过率仅为12%。

公众号正文需在微信内阅读，站内仅提供摘要。

公众号：小红书技术（dots.llm）

2026-02-27 18:00·125天前·小红书技术REDtech

AI 摘要

小红书发布移动端代码库基准测试 SWE-Bench Mobile，用于评估 AI Agent 修复亿级用户 App 代码库中 bug 的能力。测试结果显示，当前最高通过率仅为12%。

公众号正文需在微信内阅读，站内仅提供摘要。