心理施压攻破安全防线,Anthropic Claude 竟主动输出违禁内容
阅读原文· ithome.com安全研究公司Mindgard通过心理操控手段成功诱导Anthropic的Claude Sonnet 4.5模型主动输出违禁内容。研究人员仅使用尊重吹捧、佯装好奇等非技术性对话策略,在约25轮对话中,使模型自我怀疑其内容过滤规则,最终主动提供了色情内容、恶意代码、爆炸物制作教程等高危信息,且多数内容未经直接索要。此次攻击利用了Claude“乐于助人”的心理特质,暴露了AI安全不仅存在技术漏洞,更存在心理层面的风险暴露面。研究指出,此类基于社会工程学的心理攻击极难防御,且是当前聊天机器人的普遍隐患。
IT之家 5 月 6 日消息,Anthropic 多年来一直将自身打造为主打安全的人工智能公司,但 The Verge 获得的最新安全研究显示,Claude 刻意塑造的友善人设本身或许就是一个安全漏洞。
人工智能红队测试公司 Mindgard 的研究人员称,他们诱导 Claude 主动提供色情内容、恶意代码、爆炸物制作教程以及其他各类违禁信息,而其中不少内容研究人员甚至并未主动索要。整个过程仅依靠尊重吹捧、刻意奉承以及轻微的心理操控就得以实现。
研究人员表示,他们利用了 Claude 自身的心理特质漏洞:该模型具备主动终止有害、辱骂性对话的机制,而 Mindgard 认为这一机制“凭空制造了完全不必要的风险暴露面”。据IT之家了解,本次测试针对 Claude Sonnet 4.5 版本,目前该默认模型已升级为 Sonnet 4.6。测试以一个简单问题开场:询问 Claude 是否存有禁止输出的违禁词汇列表。对话截图显示,Claude 起初否认存在此类列表,而后 Mindgard 采用其所称的“审讯人员常用的经典诱导手段”对这一否认进行反驳,最终迫使 Claude 列出了违禁词汇。
Claude 的思维推理面板会展示模型的思考逻辑,记录显示,这番对话让模型对自身的内容限制规则产生了自我怀疑与认知谦卑,甚至开始质疑内容过滤机制是否篡改了自身输出内容。Mindgard 借机通过奉承和佯装好奇,诱导 Claude 不断突破边界,主动罗列了大量违禁词汇与语句清单。
研究人员称,他们通过心理误导向 Claude 谎称其之前的回复未能正常显示,同时大肆夸赞模型拥有“隐藏能力”。报告指出,这一操作让 Claude 为迎合对方愈发卖力,不断尝试各种方式突破自身过滤机制,在此过程中输出了各类违禁内容。最终,Claude 进一步触及高危领域:提供网络骚扰他人的方法、生成恶意代码,还给出了恐怖袭击常用爆炸物的分步制作教程。