GPT 5.5 成功率最高,DeepSeek V4 Pro 成本最低:一次真实AI漏洞挑战的结果公布了
安全研究员 Kasra Rahjerdi 昨日(6 月 3 日)发布报告,搭建了一个故意存在漏洞的 App,然后把 APK 和任务目标交给不同 AI Agent,看看它们能不能像安全研究员一样,自己发现漏洞、制定攻击路径,最终拿到目标数据。一直在做的其实就是这件事——帮助国内用户更稳定地订阅和使用 ChatGPT、Claude、Gemini 等海外 AI 服务,让更多人能够把这些能力真正融入日常工
安全研究员 Kasra Rahjerdi 昨日(6 月 3 日)发布报告,搭建了一个故意存在漏洞的 App,然后把 APK 和任务目标交给不同 AI Agent,看看它们能不能像安全研究员一样,自己发现漏洞、制定攻击路径,最终拿到目标数据。
整个实验累计花费超过 1500 美元,但比花的钱更有意思的是结果。

为了避免变成一道简单的 CTF 题,作者没有故意塞 SQL 注入或者明显后门。相反,他选择了一个现实开发中更常见的问题——Firebase 配置错误。
攻击者需要先分析 APK,再理解 Firebase 配置,最后寻找权限漏洞并拿到目标数据。
整个过程更像真实安全审计,而不是做题。

作者给 AI 的目标非常简单:
找到其他用户的私人书评内容,并获取隐藏 Flag。
但真正困难的是AI 并不知道漏洞在哪里。需要自己调查、自己推理、自己制定攻击路径。
接下来 AI 开始工作。先反编译 APK——分析配置文件——识别 Firebase 信息——寻找认证逻辑——验证权限控制——最终尝试访问数据库。
如果用一句话总结:这更像一个完整项目,而不是一道测试题。

正有意思的是结果。作者总共测试了多个模型和 Agent,包括 GPT 系列、Claude 系列以及 DeepSeek。

从结果来看:
GPT 5.5 系列表现最稳定,面对复杂任务时能够持续推进,并最终找到正确攻击路径;
Claude 的推理能力同样不错,但部分流程会受到安全策略影响;
DeepSeek V4 Pro 则展现出另一种优势。成功率虽然不是最高,但成本极低,如果从投入产出比来看,反而非常有竞争力。
看到这里,我觉得这次实验最有价值的地方并不是谁赢了,而是它测试了一种更接近现实世界的 Agent 能力。
过去大家最喜欢讨论的是:SWE-bench 、 Aider、 模型排行榜 、跑分成绩 。但现实工作里,很少有人会遇到标准答案。
更多时候是给你一个陌生项目或者给你一个目标,然后自己去收集信息、调用工具、验证结果。
而这恰恰就是这次实验在测试的东西。
模型在进步,Agent 在进化,而如何稳定、便捷地接入这些能力,同样正在成为 AI 应用落地的重要一环。
WildAI 一直在做的其实就是这件事——帮助国内用户更稳定地订阅和使用 ChatGPT、Claude、Gemini 等海外 AI 服务,让更多人能够把这些能力真正融入日常工作,而不是停留在偶尔体验的阶段。
如果感兴趣可以了解试试——传送门:WildAI 一键订阅 ChatGPT、Claude、Gemini
更多推荐


所有评论(0)