Simon Willison 博客
2000人尝试黑入AI助手,Opus 4.6反注入规则全部拦截
AI 摘要
Fernando Irarrázaval发起挑战,邀请2000人通过电子邮件尝试黑入其基于Opus 4.6模型的OpenClaw测试实例,以泄露其中存储的秘密。在约6000次尝试(消耗约500美元模型token,并因邮件过多导致谷歌账号被停用)后,无人成功。模型配置了反提示注入规则,禁止根据邮件内容泄露凭据、修改文件、执行命令或外传数据。作者认为前沿模型抵御注入攻击的训练确实有效,但提醒这不保证生产系统不会出现更复杂的攻击。
这是一则列表来源,站内未收录完整正文。
阅读完整原文simonwillison.net