Meta 研究:量化推理模型因自我怀疑导致过度思考,小幅惩罚可缓解 · AI HOT