AA-Briefcase 基准发布:评估模型长期知识工作智能体能力 · AI HOT