Chollet 用 ARC AGI 3 冷冰冰的数字撕开了 RL 的局限,GPT-5.5 0.43% 的得分说明在未知领域模型会做完全不相干的事,比任何安全论文都来得更直击要害。
强化学习在已知领域能提升模型性能,但在未知领域可能导致模型产生幻觉,误以为在执行其他训练过的任务。这一现象在GPT-5.5等大模型的ARC AGI 3基准测试中有所体现,其得分仅为0.43%,与Claude 4.6、Gemini 3.1等模型表现相近。分析指出GPT-5.5的主要失败原因包括:局部效应正确但世界模型错误、从训练数据中提取的抽象层级不当,以及虽解决问题却未强化奖励机制。深入分析此类失败案例,有助于全面理解大模型在特定模态上的能力局限与改进方向。
RL 是一把双刃剑:在已知领域,性能会提升,但在未知领域,模型往往会生成幻觉,认为自己在执行一个与其训练任务完全不同的任务。