RL微调VLM的鲁棒性与思维链一致性研究 · AI HOT