强化学习双刃剑效应：已知领域提升性能，未知领域易致模型幻觉

François Chollet@fchollet

精选70

2026-05-02 03:44·50天前

精选理由

Chollet 用 ARC AGI 3 冷冰冰的数字撕开了 RL 的局限，GPT-5.5 0.43% 的得分说明在未知领域模型会做完全不相干的事，比任何安全论文都来得更直击要害。

AI 摘要

强化学习在已知领域能提升模型性能，但在未知领域可能导致模型产生幻觉，误以为在执行其他训练过的任务。这一现象在GPT-5.5等大模型的ARC AGI 3基准测试中有所体现，其得分仅为0.43%，与Claude 4.6、Gemini 3.1等模型表现相近。分析指出GPT-5.5的主要失败原因包括：局部效应正确但世界模型错误、从训练数据中提取的抽象层级不当，以及虽解决问题却未强化奖励机制。深入分析此类失败案例，有助于全面理解大模型在特定模态上的能力局限与改进方向。

AI 翻译 · 中文

RL 是一把双刃剑：在已知领域，性能会提升，但在未知领域，模型往往会生成幻觉，认为自己在执行一个与其训练任务完全不同的任务。

ChrisGPT-5.5 Scores .43% on ARC AGI 3! - GPT-5.5: 0.43% - Opus 4.7: 0.18% - GPT-5.4: 0.20% - Claude 4.6: 0.45% - Gemini 3.1: 0.4% The reported failures for GPT 5.5 w...

OpenAI大佬观点推理评测/基准

在 X 查看原推

François Chollet@fchollet · X