评估策略还是措辞?LLM数学推理中表面多样性与策略多样性之间的鸿沟 · AI HOT