能力强但粗心:计算机使用智能体是否遵循情境完整性?
计算机使用代理的隐私泄露问题被严重低估了。这篇论文用 AgentCIBench 实测 15 个前沿代理,发现平均泄漏率接近 70%,把这个隐患摆到了台面上,做 agent 产品的团队该把它加入上线前测试清单。
AgentCIBench评估计算机使用智能体(CUA)是否遵循情境完整性。它针对三种常见失败模式:视觉共置(智能体拉取任务目标旁边被禁止的项目)、任务模糊性过度分享(在提示不明确时泄露个人状态)以及收件人错配(向不适当的收件人发送内容)。对15个前沿CUA的评测显示平均泄漏率67.9%,其中11个在超过50%的场景中泄漏,这些失败在端到端任务中同样存在。AgentCIBench已发布,旨在推动开发更安全的计算机使用智能体。
计算机使用智能体(CUA)现已能够代表用户在邮件、日历和待办事项列表等个人应用中执行操作。这种跨应用访问虽然有用,但也带来了一个长期被忽视的隐私风险:当智能体在某个情境下工作时,它可能会从另一个情境中拉取不适宜在此处使用的信息。为此,我们提出了AgentCIBench,这是一个将上述风险转化为可执行、可确定性评分场景的评估框架。我们针对CUA中三种常见的失效模式进行评估:视觉共位,即智能体拉取了位于任务目标附近UI上的禁止项;任务歧义过度分享,即智能体针对一个不明确的提示词倾泻出密集的个人状态信息;以及收件人不匹配,即智能体将内容发送给了不适宜的收件人。我们对15个前沿智能体进行了评估,发现其失败率高得惊人:15个中有11个在超过50%的场景中存在信息泄露,平均泄露率达67.9%,并且当智能体在环境中端到端执行任务时,同样的失效问题依然存在。我们公开发布AgentCIBench,以鼓励开发更安全的计算机使用智能体,并将上下文披露测试定位为部署前的安全检查手段。