Anthropic 重新部署 Claude Fable 5 并向全球用户开放,同步披露了内置安全分类器设计。分类器将网络安全使用场景分为四类:禁止使用(勒索软件/物理破坏等)、高风险双重用途、低风险双重用途及良性使用。前两类直接拦截;低风险类别部分监控,仅在安全边际内选择性拦截。此外,Anthropic 与 Glasswing 合作提出 AI 越狱严重性框架初稿,并已启动 HackerOne 项目收集越狱案例。
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》