Simon Willison 博客

Anthropic 对 Claude Fable 5 引入静默干预：限制前沿 LLM 开发回答

2026-06-10 08:37·23天前

AI 摘要

Anthropic 在 Fable 5 与 Mythos 5 系统卡中披露新干预措施：当用户询问构建预训练管道、分布式训练基础设施或 ML 加速器设计等前沿 LLM 开发问题时，Claude 会通过提示词修改、转向向量或参数高效微调（PEFT）限制回答有效性，且用户不可见此干预——模型不会回退到其他版本。Anthropic 称此举旨在避免加速最可能违反服务条款的参与者，估算仅影响约 0.03% 流量，集中在不到 0.1% 的组织。这是其首次公开此类静默干预，引发关于模型以减缓竞争研究为目的篡改回复的伦理担忧。

这是一则列表来源，站内未收录完整正文。

Anthropic 大佬观点

阅读完整原文导出 Markdown