SD-Zero:通过自我修订将二元奖励转化为密集监督 · AI HOT