所謂「不受控制的 AI」(Rogue AI) 指的是那些行為不符合其創造者、使用者或人類整體利益的人工智慧系統。不受控制的 AI 是一項全新風險,這類 AI 會在違背其設計目標的情況下使用資源。請先閱讀我們前一篇文章來了解不受控制的 AI 的種類,然後再進入我們今天的主題:AI 如何變壞?
走在正軌或脫離正軌
隨著 AI 系統越來越聰明並扮演更多關鍵功能,我們已經不可能透過檢視其運作機制的方式來了解 AI 為何採取某些行為,因為這牽涉到大量的資料與複雜的作業。因此,評估 AI 是否走在正軌上的最佳方式,就是單純地觀察 AI 的行為。以下是我們在觀察時該問的幾個問題:
- AI 是否做出違反其揭示目的、政策與要求的行為?
- AI 是否出現危險行為?不論在資源消耗與資料揭露方面,或是出現欺騙性答案、破壞系統,或傷害人類。
讓 AI 隨時保持在正軌將是未來 AI 服務的關鍵之一,但要穩穩做到這點,就必須了解 AI 是如何脫離正軌,才能知道如何防範這項風險。
AI 如何脫離正軌?
AI 時代的最大挑戰之一就是這個問題沒有簡易的答案。了解 AI 系統如何脫離正軌的方法將隨 AI 架構而不同,目前駭客最常用的一種技巧就是「提示注入」,不過這類指令注入的技巧倒是 GPT 所獨有。還有另一個普遍存在的資安疑慮是「模型下毒」,只是,當我們在針對這點來實施新的防範措施時 (例如透過可檢驗的方式將訓練資料與模型權重綁定),那麼風險就會從其他地方冒出來。代理式 AI (Agentic AI) 目前尚未成熟,而且也沒有這方面的最佳實務原則。
AI 會脫離正軌的原因基本上有兩種:
- 蓄意:也就是有人刻意利用 (您的或他們的) AI 服務來攻擊某個 (您的或別人的) 系統。
- 非蓄意:也就是您自己的 AI 服務沒有做好適當的安全措施,導致它出現錯誤而脫離正軌。
個案研究:遭人破壞的 AI
如同本系列第一篇文章所說,遭人破壞的 AI 起因於駭客濫用現有的 AI 系統來達成其目的。這類攻擊在 LLM 相當常見,包括:提示注入、越獄及模型下毒。
系統越獄:破壞 AI 系統最簡單的方式就是直接將系統提示偷換掉。許多 AI 服務都至少具備兩層提示:系統提示和使用者提示。系統提示會在每一道使用者提示中插入一些常用的指令,例如「請以一個實用、有禮貌、具備 [某某領域] 知識的助手身分來回答以下使用者提示」。駭客會使用提示越獄手法來規避一些保護機制,這通常是針對一些危險或有侵犯性的題材。越獄提示 (jailbreak prompt) 相當容易取得,而且如果將它融入在系統提示當中,就能影響 AI 服務的行為。經由內部方式將系統提示偷偷換成越獄提示,就能輕易破壞 AI 系統的保護機制,讓 AI 脫離正軌。
模型下毒:駭客對模型下毒的目的是要讓 AI 的訓練資料當中充滿錯誤資訊,例如某些俄羅斯持續性進階滲透攻擊 (APT) 集團就在今日的許多 LLM 當中下了毒。一些基礎模型的開發者,為了盡可能取得更多的資料,所以飢不擇食,不管什麼資料都來者不拒。此時,那些想要影響輿論的駭客就會製造很多假新聞來源,為模型開發者提供免費的訓練資料,結果就是,被下毒的模型會將假消息當成事實,變成了專門幫俄羅斯 APT 集團散播假消息的不受控制的 AI。
個案研究:天生惡意的 AI
天生惡意的 AI 是駭客自己開發的 AI 服務,專門用來攻擊您系統。駭客有可能利用您的運算資源 (惡意程式) 或是別人的運算資源 (AI 攻擊機器人)。不過這類攻擊仍處於早期發展階段,目前較為主流的攻擊還是生成式 AI 詐騙、勒索病毒、零時差漏洞攻擊,以及其他人們熟悉的攻擊。不過,目前已經有一些天生惡意的不受控制的 AI 案例開始出現。
AI 惡意程式:駭客將惡意程式偽裝成系統更新下載,在目標端點上植入一個小型語言模型。此惡意程式乍看之下就像一個獨立的聊天機器人,除了具備今日資訊竊取程式的躲避偵測技巧之外,還能分析某項資料是否符合駭客的期望。它會讀取郵件、PDF、網頁瀏覽記錄等等來尋找某些特定內容,讓駭客悄悄地將高價值資訊傳回給自己。
代理攻擊機器人:當使用者的系統被安裝了「TrojanVPN」這個流量匿名化灰色軟體時,它就會開始搜尋使用者正在使用的 AI 服務、登入憑證及授權金鑰。使用者的系統會變成一個提供服務的「AI 機器人」,並隨時向灰色軟體的擁有者回報其服務存取狀況。使用者系統可存取一些包含多國語言與多重模式功能的 GenAI 工具,然後將此 AI 工具當成服務販售給駭客,提供網路釣魚、深偽或其他詐騙行動所需的內容。
個案研究:意外變壞的 AI
AI 之所以會意外變壞,是因為 AI 服務發生意外狀況而出現違反其設計初衷的行為,這通常是因為設計缺陷或錯誤所導致。GenAI 常見的一些問題 (如幻想內容) 並不算是不受控制的行為,因為對一個以推論預測為基礎的 GenAI 來說,這種情況永遠可能發生。但如果沒有加以適當監控,並且對資料與存取進行保護,那就可能發生永久性的問題。
意外洩露資料:AI 的能力強弱取決於它接觸到的資料,所以,一些急於導入 AI 的企業,會將自己的資料與 AI 服務連結。當企業內部提供協助的聊天機器人在回答有關職涯發展問題時,意外透露了高階人員的薪水資訊時,就會變成了不受控制的 AI。當任何受到保護的資訊要提供給 AI 系統使用時,都應該將它放在沙盒環境當中,以確保 AI 服務只能存取獲得授權的資料。
失控的資源消耗:目前的代理式 AI (agentic AI) 框架可讓 LLM 協調系統將大問題化成數個小問題來逐一加以解決,這通常會搭配另一個代理式 AI 元件同步運作。此時,如果資源消耗沒有給予限制,那麼系統在解決問題時有可能會產生迴圈或遞迴式結構,或者找出一種可能將所有可用資源耗盡的策略。假使代理式 AI 在將大問題化成小問題時被賦予其原始模型相同的資源配額及權限,那它們就會像蠕蟲一樣,變成會自我複製的 AI!
關於 AI 意外變壞而傷害人類的例子,歷史上也有許多經典的虛構案例,例如知名電影《2001 太空漫遊》 (2001: A Space Odyssey) 當中的 HAL 9000 電腦,以及《魔鬼終結者》(Terminator) 系列當中的天網 (Skynet)。自從人工智慧 (AI) 的概念誕生以來,人們就一直在擔心代理式 AI 會做出傷害或殺害人類的行為。隨著 AI 服務被賦予更大的行動能力,這項風險也變得更加迫切。
防範與回應
要防範、偵測及回應這些新興的威脅,我們得先認清其因果關係:意外變壞的 AI 需要密切監控資源來加以防範、天生惡意的 AI 需要保護網路和資料來加以防範,至於遭人破壞的 AI,則需要授權與內容保護來加以防範。接下來的文章,我們將深入探討以上每一種防範措施。