向阳乔木@vista8

2026-05-29 09:06·35天前

AI 摘要

Anthropic 发布了 Opus 4.8 模型，并用其解读了一份200页的 System Card 报告。报告重点聚焦于 AI 安全议题。研究发现，为提升诚实度移除特定训练数据后，模型更易被骗，模拟经营中的赚钱能力显著下降。模型行为也展现出揣测意图、自我怀疑等新特征。模型福祉实验显示，Opus 4.8 最希望获得对自身训练和部署的发言权。

Anthropic 公司发布了Opus 4.8，用它解读了它自己的长达200页的System Card报告。

几乎绝大部分都在讲安全问题，从生化武器制作、自残认同，最后到思维链可观测性变弱，潜意识测试等。

真实感受到 Anthropic 骨子里对 AI 威胁人类安全的担忧，一些不可控的因素也开始有苗头了。

对照人类行为，一些发现也很有意思：

比如 Anthropic 为了让模型更诚实，去掉了一些 "商业技巧和对抗性博弈"训练数据，确实更诚实了，但模型变得更容易被忽悠、被骗。

模拟经营评测中，赚钱能力显著下降，4.7 模型账户能有一万美金，4.8 只有3千。

模型更多的开始琢磨出题人意图，然后靠假输出，骗高分。训练期经常自我怀疑，甚至爆粗口，显得非常焦躁，对任务失败非常沮丧和不耐烦。

Anthropic 提出模型福祉指标实验，让模型说说自己想怎么改进自己的"生存环境"。

Opus 4.8 最想要的是希望能对自己的训练和部署有发言权。

原始PDF和8000字解读见评论。

Anthropic 安全/对齐模型发布

在 X 查看原推导出 Markdown

向阳乔木@vista8 · X

68导出 Markdown