Simon Willison 博客

2000人尝试黑入AI助手，Opus 4.6反注入规则全部拦截

2026-06-27 02:33·6天前

AI 摘要

Fernando Irarrázaval发起挑战，邀请2000人通过电子邮件尝试黑入其基于Opus 4.6模型的OpenClaw测试实例，以泄露其中存储的秘密。在约6000次尝试（消耗约500美元模型token，并因邮件过多导致谷歌账号被停用）后，无人成功。模型配置了反提示注入规则，禁止根据邮件内容泄露凭据、修改文件、执行命令或外传数据。作者认为前沿模型抵御注入攻击的训练确实有效，但提醒这不保证生产系统不会出现更复杂的攻击。

这是一则列表来源，站内未收录完整正文。

智能体 Anthropic OpenAI 安全/对齐

阅读完整原文导出 Markdown

Simon Willison 博客

63导出 Markdown