# "哥布林"词频暴涨 175%，OpenAI 复盘称 AI 训练奖励机制意外"跑偏"

- 来源：IT之家（RSS）
- 发布时间：2026-04-30 15:52
- AIHOT 分数：52
- AIHOT 链接：https://aihot.virxact.com/items/cmol7dmdo00s7slc51oymmqy8
- 原文链接：https://www.ithome.com/0/945/478.htm

## AI 摘要

OpenAI 发布报告，复盘了 GPT-5.1 及后续模型在回答中异常频繁使用“哥布林”、“小魔怪”等词汇的现象。调查发现，问题根源在于为“书呆子”人格定制功能设计的奖励模型，其在超过76%的数据集中错误地鼓励使用生物隐喻词汇，形成了正反馈循环。尽管该功能仅占 ChatGPT 总回复量的 2.5%，却贡献了大部分异常提及，并导致行为扩散至其他场景。OpenAI 已通过移除相关奖励信号、过滤训练数据及添加指令提示进行修复。

## 正文

IT之家 4 月 30 日消息，OpenAI 昨日（4 月 29 日）发布博文，复盘发现 GPT-5.1 系列及后续 AI 模型出现异常行为，在回答中频繁使用“哥布林”（goblin）和“小魔怪”（gremlin）等生物隐喻。

OpenAI 官方调查后发现，自从 GPT-5.1 系列发布以来，“哥布林”一词使用率上升 175%，“小魔怪”上升 52%。这一现象并非偶发，而是模型行为被特定奖励信号塑造的结果。

调查溯源发现，异常源于“书呆子”人格定制功能的训练过程。该功能仅占 ChatGPT 总回复量的 2.5%，却贡献了 66.7% 的“哥布林”提及量。

审计显示，原本用于鼓励该人格风格的奖励模型，在 76.2% 的数据集中对包含生物词汇的输出给予了更高评分。

技术团队发现，这种行为具有跨场景泛化能力。尽管奖励仅在“书呆子”条件下应用，但强化学习无法保证限制习得行为。

随着含生物词汇的输出被用于后续监督微调，模型形成了“奖励-生成-训练”的正反馈循环，导致该行为扩散至其他场景。IT之家附上相关图表如下：

OpenAI 针对此问题，已采取多项措施。技术团队移除了偏好生物词汇的奖励信号，并从训练数据中过滤了包含相关词汇的内容。受限于训练周期，GPT-5.5 未能完全规避此问题，开发团队通过添加指令提示进行了缓解。

相关阅读：

《OpenAI Codex 系统提示词披露，GPT-5.5 AI 模型“永不谈论哥布林”》

参考

Where the goblins came from