ITBench-AA:前沿大模型在首个智能体企业IT任务基准测试中得分均低于50% · AI HOT