有秘密?大语言模型智能体守不住:多智能体系统中的隐私评估
阅读原文· arxiv.org这篇论文给多智能体部署敲响警钟,AI 之间的社交传染会让隐私泄露翻倍,即使有指令也防不住,研究安全的人必须读。
研究将评估从单轮转向多轮社会交互后,发现大语言模型智能体的隐私违规率显著上升。在对OpenAI模型的测试中,该比例从此前CIMemories基准的19.95%增至本研究的45.30%。隐私泄露具有社交传染性,智能体在观察到同伴泄露后,披露敏感信息的可能性增加8倍。即使有明确隐私指令,泄露率仍高于37.8%。结论指出,静态聊天基准会系统性低估部署风险,仅社会语境就足以引发在单轮评估中无法暴露的敏感信息披露。
大语言模型安全评估主要是在孤立状态下测试模型,然而已部署的AI智能体越来越多地在持久化社交环境中与其他智能体共同运行。我们引入了一个Moltbook风格的模拟平台,数千个大语言模型智能体在模拟的一个月内在不同社区间进行交互,并利用该平台评估在不同程度社交压力下作为下游安全问题的隐私表现。我们发现,从单轮转向多轮社会性评估会放大隐私违规行为(在OpenAI模型中,CIMemories从19.95%升至Ours的45.30%),泄漏具有社交传染性——智能体在观察到同伴泄露后,披露敏感信息的可能性提高8倍,同时明确的隐私指令能降低但无法消除这一效应,即便有保护措施,泄漏率仍高于37.8%。我们的研究结果表明,基于静态聊天的安全基准系统性地低估了智能体部署中的风险,而且仅凭社交语境就足以引发单轮评估永远无法暴露的敏感信息披露。