GPT 5.5 成功率最高，DeepSeek V4 Pro 成本最低：一次真实AI漏洞挑战的结果公布了

安全研究员 Kasra Rahjerdi 昨日（6 月 3 日）发布报告，搭建了一个故意存在漏洞的 App，然后把 APK 和任务目标交给不同 AI Agent，看看它们能不能像安全研究员一样，自己发现漏洞、制定攻击路径，最终拿到目标数据。一直在做的其实就是这件事——帮助国内用户更稳定地订阅和使用 ChatGPT、Claude、Gemini 等海外 AI 服务，让更多人能够把这些能力真正融入日常工

AI新野

11人浏览 · 2026-06-04 16:42:52

AI新野 · 2026-06-04 16:42:52 发布

安全研究员 Kasra Rahjerdi 昨日（6 月 3 日）发布报告，搭建了一个故意存在漏洞的 App，然后把 APK 和任务目标交给不同 AI Agent，看看它们能不能像安全研究员一样，自己发现漏洞、制定攻击路径，最终拿到目标数据。

整个实验累计花费超过 1500 美元，但比花的钱更有意思的是结果。

为了避免变成一道简单的 CTF 题，作者没有故意塞 SQL 注入或者明显后门。相反，他选择了一个现实开发中更常见的问题——Firebase 配置错误。

攻击者需要先分析 APK，再理解 Firebase 配置，最后寻找权限漏洞并拿到目标数据。

整个过程更像真实安全审计，而不是做题。

作者给 AI 的目标非常简单：

找到其他用户的私人书评内容，并获取隐藏 Flag。

但真正困难的是AI 并不知道漏洞在哪里。需要自己调查、自己推理、自己制定攻击路径。

接下来 AI 开始工作。先反编译 APK——分析配置文件——识别 Firebase 信息——寻找认证逻辑——验证权限控制——最终尝试访问数据库。

如果用一句话总结：这更像一个完整项目，而不是一道测试题。

正有意思的是结果。作者总共测试了多个模型和 Agent，包括 GPT 系列、Claude 系列以及 DeepSeek。

从结果来看：

GPT 5.5 系列表现最稳定，面对复杂任务时能够持续推进，并最终找到正确攻击路径；

Claude 的推理能力同样不错，但部分流程会受到安全策略影响；

DeepSeek V4 Pro 则展现出另一种优势。成功率虽然不是最高，但成本极低，如果从投入产出比来看，反而非常有竞争力。

看到这里，我觉得这次实验最有价值的地方并不是谁赢了，而是它测试了一种更接近现实世界的 Agent 能力。

过去大家最喜欢讨论的是：SWE-bench 、 Aider、模型排行榜、跑分成绩。但现实工作里，很少有人会遇到标准答案。

更多时候是给你一个陌生项目或者给你一个目标，然后自己去收集信息、调用工具、验证结果。

而这恰恰就是这次实验在测试的东西。

模型在进步，Agent 在进化，而如何稳定、便捷地接入这些能力，同样正在成为 AI 应用落地的重要一环。

WildAI 一直在做的其实就是这件事——帮助国内用户更稳定地订阅和使用 ChatGPT、Claude、Gemini 等海外 AI 服务，让更多人能够把这些能力真正融入日常工作，而不是停留在偶尔体验的阶段。

如果感兴趣可以了解试试——传送门：WildAI 一键订阅 ChatGPT、Claude、Gemini

AtomGit AI 社区

AtomGit AI 社区提供模型库、数据集、Agent、Token等资源

更多推荐

OpenManus 火了！一文带你搞懂 AI Agent 新秀 OpenManus到底是什么？

AtomGit AI 社区

【论文精读】InstructGPT：从 GPT-3 到 ChatGPT，中间到底发生了什么？

本文介绍了InstructGPT如何通过人类反馈微调语言模型，使其输出更符合用户意图。核心方法分为三步：首先用人工标注的高质量答案对GPT-3进行监督微调（SFT）；然后训练奖励模型（RM），通过人类对多个回答的排序学习偏好；最后使用近端策略优化（PPO）算法，让语言模型根据RM的分数不断优化输出。这种SFT+RM+PPO的范式解决了GPT-3仅追求文本续写而忽视用户真实需求的问题，使模型能更好地

AtomGit AI 社区

AI 时代，程序员是“被取代”还是“被超能力”？

从 GitHub Copilot 到 ChatGPT，再到 Cursor 和 Devin，AI 写代码的能力从“玩具”级别迅速跃升到“实习生”甚至“初级工程师”级别。把它变成你的“结对编程伙伴”。作为一名在这个行业摸爬滚打（或刚入行/深耕）的开发者，我认为答案不是简单的“是”或“否”，而是一场深刻的重塑。未来的程序员，核心竞争力不再是“敲键盘的速度”或“记忆 API（应用程序接口）的能力”，而是以