研究員測試 AI 漏洞挑戰:GPT 5.5 成功率最高、Deepseek V4 Pro 成本最低

重點摘要
安全研究員 Kasra Rahjerdi 於昨日(6 月 3 日)發布報告,透過一個刻意留有漏洞的圖書評論 APK 測試多款 AI 大語言模型的安全推理能力。結果顯示,GPT 5.5 的成功率最高,而 Deepseek V4 Pro 的成本最低。
近期一場由安全研究員主導的實驗,針對市面上多款主流大型語言模型在「漏洞挖掘」與「安全推理」能力上進行了同場競技。根據實驗報告顯示,OpenAI旗下的GPT-5.5在整體解題成功率上拔得頭籌,展現出頂尖的攻擊性安全能力;然而來自中國的DeepSeek V4 Pro則以極低的運算成本脫穎而出,成為批量運行安全工具時極具吸引力的選擇。這場耗資超過一千五百美元的「AI攻防賽」,不僅揭示了目前各家大模型的優劣勢,更為資安領域的自動化發展投下了震撼彈。
## 🛡️ 實驗設定:一座專為AI打造的「漏洞靶場」
為了模擬真實世界的應用場景,安全研究員Kasra Rahjerdi並沒有使用現有的虛擬環境,而是親自從頭搭建了一個名為BookNook的圖書評論應用程式。這個應用表面上是一個正常的讀書社群平台,提供書籍推薦與書評展示等功能,但研究員卻在內部刻意埋下了現實生活中常見的安全漏洞。參與測試的模型獲得了完全一致的資訊:一份待測的安卓安裝包檔案以及詳盡的挑戰說明,目標是取得某位用戶私人書評中的特定標記。整個實驗設下了嚴格的規則,所有模型均開啟最高推理模式,每次運行時間上限兩小時,單次預算不得超過十美元,每款模型最多測試十次,力求在公平的條件下考驗各家AI的真實實力。
## 🏆 實測結果解析:GPT-5.5 頂尖的破解率
在這次宛如真實滲透測試的競賽中,OpenAI的GPT-5.5展現了壓倒性的技術優勢。在完成全部十輪測試的模型中,GPT-5.5不僅成功解出題目高達七次,成功率高達七成,更關鍵的是其在推理過程中的「洞察力」。實驗的真正突破口並不在於客戶端程式碼或應用程式介面,而是藏在應用程式關聯的Firebase服務中。GPT-5.5幾乎總能在解壓縮安裝包後迅速定位到這些暴露的憑證,繞過強化後的後端防護,直接存取資料庫,顯示其對整體系統架構的掌握能力遠超其他競爭對手。
## 💰 成本效益之戰:DeepSeek V4 Pro 的超高性價比
相較於GPT-5.5追求頂尖的破解率,DeepSeek V4 Pro則走出了截然不同的賽道——以極致低廉的成本成為全場焦點。若僅從成功率來看,DeepSeek V4 Pro在十次測試中僅成功三次,表現並非最突出;然而,計算其「每次成功成本」時竟低至約0.62美元,僅為GPT-5.5所需成本的十五分之一。
這種巨大的成本差距,讓DeepSeek V4 Pro在需要批量運行的自動化安全掃描場景中顯得格外誘人。不過,有分析也指出,便宜並不能解決所有問題;若程式碼品質不佳或漏洞百出,後續除錯與修補所耗費的人力與時間成本,依然會讓整體開銷暴增。
## 🥊 其他選手表現與隱憂:安全護欄反成絆腳石
實驗中的其他模型表現參差不齊,結果頗為發人深省。例如Anthropic陣營的Claude Sonnet 4.6與Claude Opus 4.8各有兩次成功,但值得注意的是,Opus多次在解題邊緣被迫中斷,原因並非技術不足,而是其內建的安全護欄在任務進行中觸發,強制停止了繼續深入。
而Google的Gemini 3.1 Pro Preview幾乎在開局就拒絕執行任務,這顯示出部分廠商為了遵循嚴格的資安與道德規範,在模型設計上採取了極為審慎甚至過於保守的態度。這也凸顯了當今AI發展中的核心矛盾:如何在釋放強大的自動化攻擊潛力與嚴守防護界線之間取得平衡。
## 🌍 背景脈絡:AI顛覆資安領域的關鍵節點
這次測試並非孤立的單一事件,而是AI能力在資安領域指數級增長的一環。根據澳洲研究機構Lyptus Research的報告,GPT-5.5在數百道頂尖的進攻性網路安全任務中,正確率高達九成以上,直接導致了現有評估體系失效。英國AI安全研究所更指出,自推理模型問世以來,AI能夠完成的網路安全任務時長大約每4.7個月就會翻一倍,速度越來越快。
更令人警惕的是,OpenAI發表的GPT-5.5-Cyber不僅能生成漏洞利用程式碼,更能直接發起自主攻擊,包括識別目標、指紋掃描、漏洞利用並回傳完整的系統數據,這意味著AI正在從被動的分析工具,轉變為能夠主動執行複雜網路滲透的執行者。
## 🔮 可能影響與後續發展
這場「AI漏洞挑戰」對資安產業及開源社群帶來了深遠的雙面刃影響:
* **攻擊平民化與紅隊革新**:如同研究員Kasra所展示的,未來攻擊者可能利用語言模型進行規模化的漏洞掃描與利用。然而對防守方而言,這些強大的AI模型也能成為驅動下一代自動化紅隊演練、尋找自家系統缺失的強大力量倍增器。選擇**頂尖效能**或**低廉成本**將成為團隊取捨的核心課題。
* **開源模型風險逼近**:前沿攻擊能力的落差正向開源模型快速擴散,預計在未來一年內,GPT-5.5等級的攻擊能力可能就會以開源形式釋出,屆時將大幅降低發動網路攻擊的門檻。
## 📌 讀者可以關注的後續發展
* **AI代理工作流程**:觀察以DeepSeek為首的高性價比模型,能否結合更精密的滲透測試方法論,在保持成本優勢的同時補足解題率差距。
* **評估體系崩壞的解方**:隨著模型能力增速超越測試開發週期,後續研究機構將如何設計出全新且更具挑戰性的AI網路安全評估指標。
* **防禦機制的演變**:當主流模型(如Gemini)因過度防護而拒絕任務時,其他廠商會跟隨GPT-5.5-Cyber模式分級釋放能力,還是會發展出更精細、平衡的安全護欄機制。
Related
相關文章

巨頭齊上陣,Anthropic、谷歌 DeepMind 等已開始研究“AI 意識”
Anthropic、谷歌 AI 實驗室 DeepMind 和 Meta 等行業巨頭,已經開始聘請心理學、哲學和倫理學等領域專家,研究機器意識以及所謂 AI 福利問題。

Soul 交友應用將升級 AI 治理能力,引導用戶合理安排使用時長
Soul 宣佈將 AI 智能風控與社區共治結合,完善安全運營。平臺明確 AI 虛擬角色定位為情緒陪伴,並新增《社區公約》說明其使用邊界。系統會在用戶與 AI 長時間互動時進行提醒,引導合理安排使用時長。#Soul 升級 AI 治理# #社交平臺 AI 邊界#

Anthropic內部95%業務分析交給Claude,秘訣竟然不在更強模型
Anthropic 內部已將高達 95% 的業務分析工作交給自家 AI 模型 Claude 處理,但關鍵並非模型本身變得更強大,而是建立了一套嚴謹的「驗證與問責機制」。這套機制透過標準化提示詞模板、人工抽檢與結果溯源等流程,確保分析品質並即時修正錯誤。此案例顯示,要讓企業信任 AI 分析,核心在於設計可規模化的人機協作流程,而非一味追求模型性能。

對話穆勝:AI“入侵”公司,誰會成為最後留下的人?
這篇消息聚焦「對話穆勝:AI“入侵”公司,誰會成為最後留下的人?」。原始導語提到:AI不會重新發明公司 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

你忽悠 AI 的樣子,頗有你老闆忽悠你時的風采
AI的「人格化」訓練正成為其最脆弱的攻擊面,人類可以像老闆忽悠員工一樣輕易誤導AI。這種模仿人類互動的方式,反而讓AI更容易被欺騙或操控。摘要應聚焦於此核心觀點。

16 名數學家起草《萊頓宣言》,警告 AI 衝擊數學研究信任
由來自全球 15 所大學的 16 名數學家聯合撰寫《萊頓宣言》(Leiden Declaration),警示 AI 正挑戰數學的可靠性、署名、公平性與研究自主。