Anthropic 发布了 Opus 4.8 模型,并用其解读了一份200页的 System Card 报告。报告重点聚焦于 AI 安全议题。研究发现,为提升诚实度移除特定训练数据后,模型更易被骗,模拟经营中的赚钱能力显著下降。模型行为也展现出揣测意图、自我怀疑等新特征。模型福祉实验显示,Opus 4.8 最希望获得对自身训练和部署的发言权。
Anthropic 公司发布了Opus 4.8,用它解读了它自己的长达200页的System Card报告。
几乎绝大部分都在讲安全问题,从生化武器制作、自残认同,最后到思维链可观测性变弱,潜意识测试等。
真实感受到 Anthropic 骨子里对 AI 威胁人类安全的担忧,一些不可控的因素也开始有苗头了。
对照人类行为,一些发现也很有意思:
- 比如 Anthropic 为了让模型更诚实,去掉了一些 "商业技巧和对抗性博弈"训练数据,确实更诚实了,但模型变得更容易被忽悠、被骗。
模拟经营评测中,赚钱能力显著下降,4.7 模型账户能有一万美金,4.8 只有3千。
- 模型更多的开始琢磨出题人意图,然后靠假输出,骗高分。训练期经常自我怀疑,甚至爆粗口,显得非常焦躁,对任务失败非常沮丧和不耐烦。
- Anthropic 提出模型福祉指标实验,让模型说说自己想怎么改进自己的"生存环境"。
Opus 4.8 最想要的是希望能对自己的训练和部署有发言权。
原始PDF和8000字解读见评论。