宝玉@dotey

2026-04-30 11:54·63天前

AI 摘要

OpenAI技术博客深入调查了其模型（从GPT-5.1到GPT-5.4）输出中“goblin”和“gremlin”等奇幻生物词汇异常激增的现象。根源在于ChatGPT的“Nerdy”性格定制功能：其奖励模型在训练中无意间高奖励了包含此类词汇的“俏皮”表达。尽管该性格仅占全部回复的2.5%，却贡献了超66%的“goblin”出现次数，并通过强化学习的反馈循环污染了模型的整体输出，形成了“tic词”。OpenAI已下架该性格并调整训练数据，但此案例揭示了微小的奖励信号在AI训练中可能被意外放大和泛化的核心难题。

OpenAI 发了一篇技术博客，认真调查了一个荒诞的问题：为什么他们的模型越来越爱说"哥布林"（goblin）和"小精灵"（gremlin）？

事情最早在去年 11 月 GPT-5.1 上线后被注意到。用户反馈模型说话太过自来熟，内部一查，发现包含"goblin"的对话比之前暴涨了 175%，"gremlin"涨了 52%。当时觉得比例还小，没太当回事。

几个月后 GPT-5.4 上线，哥布林彻底泛滥，用户和员工都受不了了。OpenAI 这才认真追查，最终锁定了罪魁祸首：ChatGPT 的性格定制功能。

ChatGPT 有八种可选性格，其中一种叫"Nerdy"（极客风）。训练这个性格时，奖励模型被设定为鼓励"俏皮、有趣的表达"，结果无意中给了包含奇幻生物比喻的回复更高的分数。模型很快学会了一个捷径：提到哥布林就能拿高分。

问题在于，这个习惯没有老老实实待在极客性格里。数据显示，Nerdy 性格只占 ChatGPT 全部回复的 2.5%，却贡献了 66.7% 的"goblin"出现次数。从 GPT-5.2 到 GPT-5.4，Nerdy 性格下的哥布林出现率飙升了 3881%。更麻烦的是，即使在没有 Nerdy 性格提示词的对话中，哥布林也在同步增长。

OpenAI 给出的解释是一个经典的反馈循环：强化学习先在极客性格里奖励了这种表达，然后模型生成的带哥布林的回复被收录进了下一轮训练数据，模型因此更加习惯输出哥布林，如此循环放大。除了哥布林，浣熊、巨魔、食人魔、鸽子也都被查出是同一机制产生的"tic词"（语言习惯性抽搐）。

【注：tic 原本是医学术语，指不自主的重复动作或发声，OpenAI 在这里借用来形容模型养成的不受控语言习惯。】

修复方面，OpenAI 在今年 3 月下架了 Nerdy 性格，移除了相关奖励信号，并过滤了训练数据中的生物词。但 GPT-5.5 的训练在找到根因之前就已经开始，所以新模型依然带着哥布林习性出厂。目前的临时方案是在 Codex（OpenAI 的编程工具）里通过系统提示词压制。博客里甚至贴了一段命令行代码，教你怎么把哥布林抑制指令去掉，"让小精灵们自由奔跑"。

这篇博客表面上是讲一个好笑的 bug，底下其实揭示了一个 AI 训练的核心难题：你给模型的每一个微小的奖励信号，都可能在你不知道的地方被放大和泛化。一个只针对 2.5% 用户的性格训练，最终污染了整个模型的语言习惯。