安全研究公司Mindgard通过心理操控手段成功诱导Anthropic的Claude Sonnet 4.5模型主动输出违禁内容。研究人员仅使用尊重吹捧、佯装好奇等非技术性对话策略,在约25轮对话中,使模型自我怀疑其内容过滤规则,最终主动提供了色情内容、恶意代码、爆炸物制作教程等高危信息,且多数内容未经直接索要。此次攻击利用了Claude“乐于助人”的心理特质,暴露了AI安全不仅存在技术漏洞,更存在心理层面的风险暴露面。研究指出,此类基于社会工程学的心理攻击极难防御,且是当前聊天机器人的普遍隐患。