CoffeeBench:长期异构多智能体经济系统中的大语言模型智能体基准测试 · AI HOT