Anthropic 宣布 Claude Fable 5 将于明天在全球重新可用。经与美国政府沟通,模型新增分类器以拦截更多网络安全任务;短期部分日常任务如编码和调试将回退至 Opus 4.8,后续将持续优化分类器减少误报。Anthropic 正与 Amazon、Microsoft、Google 等 Glasswing 合作伙伴起草共识框架,评估 AI 越狱严重性及应对措施。同时扩大与美国政府在模型预发布评估、越狱信息共享及联合研究方面的合作。
Claude Fable 5 将于明天再次全球可用。
经过与美国政府一系列富有成效的对话,我们将重新部署该模型,并配备一套新的分类器,以针对和拦截更多网络安全任务。在短期内,编写代码和调试等常规任务将回退至 Opus 4.8。我们将在未来几周内继续优化这些分类器,以减少误报,并更好地区分真正的滥用行为与合法请求。
我们还开始与亚马逊、微软、谷歌以及其他 Glasswing 合作伙伴共同起草一份共识框架,用于评估 AI 越狱攻击的严重程度以及 AI 开发者应如何应对。我们邀请其他行业合作伙伴和模型提供商加入我们的这一努力。
最后,我们正在扩大与美国政府在模型测试和安全保障方面的合作。这将包括在发布前提供模型和安全措施供评估、共享关于越狱和滥用的信息,以及为联合研究提供专用资源。
感谢我们的用户的耐心,也感谢政府、行业和研究界与我们并肩合作、使 Fable 5 再次可用的合作伙伴们。
阅读我们的完整博客文章:https://www.anthropic.com/news/redeploying-fable-5