屏幕上的图灵测试:移动GUI代理人性化基准
阅读原文· arxiv.org让AI操作手机更像真人,避免被平台识别封禁的实用新研究
研究团队提出"屏幕图灵测试"框架,将人机交互形式化为MinMax优化问题,并发布Agent Humanization Benchmark (AHB)。基于新收集的高保真移动触摸动态数据集,发现普通LMM代理因运动学特征不自然而极易被检测。该基准量化了可模仿性与任务效用的权衡,提出的启发式噪声至数据驱动行为匹配方法,使代理在不牺牲性能的前提下实现高可模仿性,推动GUI代理从"能否完成任务"向"如何像人类一样完成"的范式转变。
自主GUI智能体的兴起引发了数字平台对抗性反制措施,然而现有研究优先考虑实用性和鲁棒性,却忽视了反检测这一关键维度。我们认为,为了让智能体在以人为中心的生态系统中生存,它们必须进化出拟人化能力。我们提出了“屏幕上的图灵测试”,将交互过程形式化为一个检测器与旨在最小化行为偏差的智能体之间的最小最大优化问题。随后,我们收集了一个新的高保真移动触摸动态数据集,并进行分析,发现基于普通大语言模型的智能体因运动学特征不自然而极易被检测。基于此,我们建立了智能体拟人化基准(Agent Humanization Benchmark, AHB)和检测指标,用以量化可模仿性与实用性之间的权衡。最后,我们提出了从启发式噪声到数据驱动行为匹配的一系列方法,从理论和实证上证明智能体可以在不牺牲性能的前提下实现高可模仿性。这项工作将范式从“智能体能否执行任务”转向“它在以人为中心的生态系统中如何执行任务”,为在对抗性数字环境中实现无缝共存奠定了基础。