# LLM提示注入与角色混淆

- 来源：Simon Willison 博客
- 发布时间：2026-06-23 07:59
- AIHOT 分数：57
- AIHOT 链接：https://aihot.virxact.com/items/cmqpxvuuy04p8slp5exef0cmt
- 原文链接：https://simonwillison.net/2026/Jun/22/prompt-injection-as-role-confusion

## AI 摘要

Charles Ye、Jasmine Cui 与 Dylan Hadfield-Menell 的研究发现，大语言模型无法可靠区分系统标签（如 `<system>`、`<think>`）与用户输入，模型更依赖文本风格而非实际内容。通过模仿模型内部思考块的写作风格，可绕过安全限制，例如让 gpt-oss-20b 误判。“destyling”——对文本轻微改写以降低与角色标签格式的相似度——使平均攻击成功率从 61% 骤降至 10%。作者将底层机制称为“角色混淆”，认为除非模型实现真正的角色感知，否则提示注入防御将是永久的打地鼠游戏。

## 正文

这是一则列表来源，站内未收录完整正文。