大模型时代的奖励作弊:机制、涌现错位与挑战 · AI HOT