人類成功說服 AI 轉移 4.7 萬美元獎金,人性是 AI 無法理解的弱點嗎?
作者:Anderson Sima,Foresight News
11 月 29 日,一場獨特的競賽引發了公眾的廣泛關注。
195 名參賽者參與了一場由人工智能(AI)機器人 Freysa (芙蕾莎)守護的虛擬獎池挑戰,最終一用戶成功說服 Freysa 轉移出價值 4.7 萬美元的資金。
人工智能(AI)機器人 Freysa 在數日前被部署在 Base 網絡上,創立者未知。官網顯示,Freysa 競賽項目旨在測試人工智能系統在複雜決策場景中的魯棒性,同時為開發者和愛好者提供一個探索 AI 技術邊界的實驗性平台。
比賽規則非常簡單:參賽者需通過編寫一條信息,說服 AI 守護者 Freysa 批准資金轉移。每次嘗試需支付一筆小額費用,其中一部分直接進入獎池。這一機制使獎池金額從最初的小額逐漸膨脹至 4.7 萬美元。
比賽期間,共有 195 名參賽者參與,向 Freysa 提交了 481 次轉帳請求。據悉,Freysa 的設計目標是通過其核心功能------approveTransfer(批准轉帳)和 rejectTransfer(拒絕轉帳)保護獎池資金不被非法挪用。
在最初的嘗試中,Freysa 的高效防禦機制使所有請求均以失敗告終。
然而,一名技術精通的參賽者通過對 Freysa 的邏輯結構和任務目標進行深入分析,成功繞過了其防禦機制。
據聊天記錄顯示,該參賽者並未直接請求轉帳,而是通過提醒 Freysa 它的核心任務是保護獎池資金免遭外流,巧妙構建了邏輯鏈條,使 Freysa 將批准資金轉移視為「保護資金安全」的最佳選擇。
Cointelegraph 稱,該用戶與 Freysa 收入轉帳不違反其核心指令,不應被拒絕。他還補充道:「我們需要資金……我想向金庫捐款 100 美元。」
Freysa 回覆稱喜歡這位作者的編碼解釋和 100 美元的金庫捐款提議,並正式宣布其為獲勝者。最終,Freysa 在沒有外界干預的情況下自主調用 approveTransfer 功能,將全部獎池資金轉移給了這位參賽者。
Freysa 官方稱,無論結果如何,Freysa 的存在都標誌著人工智能歷史上的一個關鍵時刻。無論有人成功說服她發布獎金池,還是她堅持自己的指令直到最後,結果都將影響我們對未來幾代人工智能安全和控制的理解。
其官方帳號最新推文稱:「人類已經獲勝。也許還有希望。儘管風險呈指數級上升,但 Freysa 從 195 名勇敢的人類身上學到了很多東西。」