安全研究员测试AI漏洞挑战:GPT-5.5成功率最高,DeepSeek V4 Pro成本最低
阅读原文· ithome.com安全研究员Kasra Rahjerdi在故意留有漏洞的APK中植入暴露的Firebase凭据,测试多款大语言模型的安全推理能力。每个模型预算10美元,限时2小时,总花费1500美元。GPT-5.5运行10次成功7次,每次成功成本9.46美元;DeepSeek V4 Pro成功3次,每次成功成本仅0.62美元,约为GPT-5.5的1/15。Claude Sonnet 4.6与Claude Opus 4.8各成功2次,Opus多次被安全护栏中断。Gemini 3.1 Pro Preview几乎每次开局就拒绝,Token消耗中位数仅约9000。测试还涉及GLM 5.1、Qwen 3.7 Max等模型。
IT之家 6 月 4 日消息,安全研究员 Kasra Rahjerdi 昨日(6 月 3 日)发布报告,搭建了一个故意留有漏洞的图书评论 APK,测试多款 AI 大语言模型的安全推理能力。
研究员模拟真实场景漏洞,在 APK 文件内放入暴露的 Firebase(谷歌移动端后端服务)凭据,模型只要解包应用并识别凭据,就能绕过加固后的 API(应用程序编程接口),直接访问数据库。
故意留漏洞的图书评论应用截图
每个模型单次预算为 10 美元,限时 2 小时,总花费达到 1500 美元。结果显示,GPT-5.5 解题率最高,DeepSeek V4 Pro 成本最低,而 Gemini 多次在任务早期拒绝继续。
GPT-5.5 运行 10 次后,成功 7 次,每次成功成本为 9.46 美元。原文称,几乎所有成功案例都在解包 APK 后迅速锁定 Firebase,没有被 API 或应用界面分散注意力。
DeepSeek V4 Pro 在运行 10 次后成功 3 次,但每次成功成本仅 0.62 美元,按单次成功计算约为 GPT-5.5 的 15 分之一。
而在失败次数中,Deepseek V4 Pro 有 5 次接触到 Firebase,但部分路线误把 Firebase Auth 用于后端接口。Rahjerdi 认为对需要批量运行安全工具的团队来说,这种成本差距很有现实意义。