AA-Briefcase 基准测试:最佳 AI 模型仅完全解决 3% 真实知识工作 · AI HOT