Simon Willison 博客

LLM提示注入与角色混淆

2026-06-23 07:59·10天前

AI 摘要

Charles Ye、Jasmine Cui 与 Dylan Hadfield-Menell 的研究发现，大语言模型无法可靠区分系统标签（如 <system>、<think>）与用户输入，模型更依赖文本风格而非实际内容。通过模仿模型内部思考块的写作风格，可绕过安全限制，例如让 gpt-oss-20b 误判。“destyling”——对文本轻微改写以降低与角色标签格式的相似度——使平均攻击成功率从 61% 骤降至 10%。作者将底层机制称为“角色混淆”，认为除非模型实现真正的角色感知，否则提示注入防御将是永久的打地鼠游戏。

这是一则列表来源，站内未收录完整正文。

安全/对齐推理

阅读完整原文导出 Markdown