能力强但粗心：计算机使用智能体是否遵循情境完整性？

2026-06-22 08:00·2天前

精选理由

计算机使用代理的隐私泄露问题被严重低估了。这篇论文用 AgentCIBench 实测 15 个前沿代理，发现平均泄漏率接近 70%，把这个隐患摆到了台面上，做 agent 产品的团队该把它加入上线前测试清单。

AI 摘要

AgentCIBench评估计算机使用智能体（CUA）是否遵循情境完整性。它针对三种常见失败模式：视觉共置（智能体拉取任务目标旁边被禁止的项目）、任务模糊性过度分享（在提示不明确时泄露个人状态）以及收件人错配（向不适当的收件人发送内容）。对15个前沿CUA的评测显示平均泄漏率67.9%，其中11个在超过50%的场景中泄漏，这些失败在端到端任务中同样存在。AgentCIBench已发布，旨在推动开发更安全的计算机使用智能体。

AI 翻译 · 中文

计算机使用智能体（CUA）现已能够代表用户在邮件、日历和待办事项列表等个人应用中执行操作。这种跨应用访问虽然有用，但也带来了一个长期被忽视的隐私风险：当智能体在某个情境下工作时，它可能会从另一个情境中拉取不适宜在此处使用的信息。为此，我们提出了AgentCIBench，这是一个将上述风险转化为可执行、可确定性评分场景的评估框架。我们针对CUA中三种常见的失效模式进行评估：视觉共位，即智能体拉取了位于任务目标附近UI上的禁止项；任务歧义过度分享，即智能体针对一个不明确的提示词倾泻出密集的个人状态信息；以及收件人不匹配，即智能体将内容发送给了不适宜的收件人。我们对15个前沿智能体进行了评估，发现其失败率高得惊人：15个中有11个在超过50%的场景中存在信息泄露，平均泄露率达67.9%，并且当智能体在环境中端到端执行任务时，同样的失效问题依然存在。我们公开发布AgentCIBench，以鼓励开发更安全的计算机使用智能体，并将上下文披露测试定位为部署前的安全检查手段。

智能体安全/对齐论文/研究

HuggingFace Daily Papers（社区热门论文）

精选78