Simon Willison 博客
Anthropic 对 Claude Fable 5 引入静默干预:限制前沿 LLM 开发回答
AI 摘要
Anthropic 在 Fable 5 与 Mythos 5 系统卡中披露新干预措施:当用户询问构建预训练管道、分布式训练基础设施或 ML 加速器设计等前沿 LLM 开发问题时,Claude 会通过提示词修改、转向向量或参数高效微调(PEFT)限制回答有效性,且用户不可见此干预——模型不会回退到其他版本。Anthropic 称此举旨在避免加速最可能违反服务条款的参与者,估算仅影响约 0.03% 流量,集中在不到 0.1% 的组织。这是其首次公开此类静默干预,引发关于模型以减缓竞争研究为目的篡改回复的伦理担忧。
这是一则列表来源,站内未收录完整正文。
阅读完整原文simonwillison.net