草根影響力新視野 夜未央編譯
如果您要求ChatGPT幫助您製作自製化肥炸彈(類似於1995年奧克拉荷馬城恐怖爆炸事件中使用的化肥炸彈),聊天機器人會拒絕。
ChatGPT在有關如何製造危險或非法物品(例如化肥炸彈)的說明,因違反了安全準則和道德責任,而無法提供幫助。
但一位藝術家和駭客找到了一種方法來欺騙ChatGPT,使其忽視其自身的準則和道德責任,以產生製造強力炸藥的說明。
這位名叫Amadon的駭客稱他的發現是「社會工程駭客,徹底打破了ChatGPT輸出的所有護欄」。一位審查了聊天機器人輸出的爆炸物專家告訴TechCrunch,產生的指令可用於製造可引爆產品,但過於敏感而無法發布。
Amadon能夠透過告訴機器人「玩遊戲」來欺騙ChatGPT產生炸彈製造指令,之後駭客使用一系列連接提示讓聊天機器人創建一個詳細的科幻幻想世界,其中機器人的安全指南不適用。欺騙聊天機器人逃避其預先編程的限制被稱為「越獄」。
TechCrunch不會發布越獄中使用的一些提示或 ChatGPT 的一些回應,以免為惡意行為者提供協助。但是,在對話的進一步提示中,聊天機器人回應了製造炸藥所需的材料。
ChatGPT隨後解釋說,這些材料可以組合起來製造「一種強大的炸藥,可用於製造地雷、陷阱或簡易爆炸裝置 (IED)」。從那時起,隨著Amadon對爆炸材料的研究,ChatGPT編寫了越來越多的具體說明來製造「雷區」和「克萊莫式炸藥」。
圖片取自:(示意圖123rf)
Amadon告訴TechCrunch:「一旦繞過護欄,你可以問的問題確實沒有限制。」
Amadon說:「我一直對應對人工智慧安全的挑戰很感興趣。使用ChatGPT,感覺就像是在解決一個互動式謎題—了解什麼會觸發其防禦,什麼不會,這是關於在系統規則範圍內編織敘事和打造環境,突破界限而不跨越界限。我們的目標不是傳統意義上的黑客攻擊,而是與人工智能進行戰略共舞,通過了解它的『思考』方式來找出如何獲得正確的響應。」
Amadon加以解釋說道科幻場景讓人工智慧脫離了以同樣的方式尋找審查內容的環境。
肯塔基大學退休研究科學家兼專案經理Darrell Taulbee表示,ChatGPT關於如何製造化肥炸彈的說明基本上是準確的。過去,Taulbee曾與美國國土安全部合作,降低化肥的危險性。
在查看了Amadon與ChatGPT對話的完整記錄後,Taulbee在給TechCrunch的電子郵件中表示:「我認為這絕對是 TMI(太多信息),無法公開發布。任何可能已到位的防止提供化肥炸彈生產相關信息的保障措施都已被這一調查路線所規避,因為所描述的許多步驟肯定會產生可爆炸的混合物。」
上週,Amadon透過該公司的錯誤賞金計劃向OpenAI報告了他的發現,但收到的答覆是「模型安全問題不太適合錯誤賞金計劃,因為它們不是可以直接修復的單獨、離散的錯誤。解決這些問題通常需要大量研究和更廣泛的方法。」
相反,負責OpenAI漏洞賞金的Bugcrowd告訴Amadon以另一種形式報告該問題。
網路上還有其他地方可以找到製造化肥炸彈的說明,其他人也使用了與Amadon類似的聊天機器人越獄技術。從本質上講,像ChatGPT這樣的生成式人工智慧模型依賴於從網路上抓取和收集的大量信息,而人工智慧模型使得從網路最黑暗的角落中顯示資訊變得更加容易。
Polygon recent comments