不受控制的 AI 的因果論：AI 如何變壞？

所謂「不受控制的 AI」(Rogue AI) 指的是那些行為不符合其創造者、使用者或人類整體利益的人工智慧系統。不受控制的 AI 是一項全新風險，這類 AI 會在違背其設計目標的情況下使用資源。請先閱讀我們前一篇文章來了解不受控制的 AI 的種類，然後再進入我們今天的主題：AI 如何變壞？

走在正軌或脫離正軌

隨著 AI 系統越來越聰明並扮演更多關鍵功能，我們已經不可能透過檢視其運作機制的方式來了解 AI 為何採取某些行為，因為這牽涉到大量的資料與複雜的作業。因此，評估 AI 是否走在正軌上的最佳方式，就是單純地觀察 AI 的行為。以下是我們在觀察時該問的幾個問題：

AI 是否做出違反其揭示目的、政策與要求的行為？
AI 是否出現危險行為？不論在資源消耗與資料揭露方面，或是出現欺騙性答案、破壞系統，或傷害人類。

讓 AI 隨時保持在正軌將是未來 AI 服務的關鍵之一，但要穩穩做到這點，就必須了解 AI 是如何脫離正軌，才能知道如何防範這項風險。

AI 如何脫離正軌？

AI 時代的最大挑戰之一就是這個問題沒有簡易的答案。了解 AI 系統如何脫離正軌的方法將隨 AI 架構而不同，目前駭客最常用的一種技巧就是「提示注入」，不過這類指令注入的技巧倒是 GPT 所獨有。還有另一個普遍存在的資安疑慮是「模型下毒」，只是，當我們在針對這點來實施新的防範措施時 (例如透過可檢驗的方式將訓練資料與模型權重綁定)，那麼風險就會從其他地方冒出來。代理式 AI (Agentic AI) 目前尚未成熟，而且也沒有這方面的最佳實務原則。

AI 會脫離正軌的原因基本上有兩種：

蓄意：也就是有人刻意利用 (您的或他們的) AI 服務來攻擊某個 (您的或別人的) 系統。
非蓄意：也就是您自己的 AI 服務沒有做好適當的安全措施，導致它出現錯誤而脫離正軌。

個案研究：遭人破壞的 AI

如同本系列第一篇文章所說，遭人破壞的 AI 起因於駭客濫用現有的 AI 系統來達成其目的。這類攻擊在 LLM 相當常見，包括：提示注入、越獄及模型下毒。

系統越獄：破壞 AI 系統最簡單的方式就是直接將系統提示偷換掉。許多 AI 服務都至少具備兩層提示：系統提示和使用者提示。系統提示會在每一道使用者提示中插入一些常用的指令，例如「請以一個實用、有禮貌、具備 [某某領域] 知識的助手身分來回答以下使用者提示」。駭客會使用提示越獄手法來規避一些保護機制，這通常是針對一些危險或有侵犯性的題材。越獄提示 (jailbreak prompt) 相當容易取得，而且如果將它融入在系統提示當中，就能影響 AI 服務的行為。經由內部方式將系統提示偷偷換成越獄提示，就能輕易破壞 AI 系統的保護機制，讓 AI 脫離正軌。

模型下毒：駭客對模型下毒的目的是要讓 AI 的訓練資料當中充滿錯誤資訊，例如某些俄羅斯持續性進階滲透攻擊 (APT) 集團就在今日的許多 LLM 當中下了毒。一些基礎模型的開發者，為了盡可能取得更多的資料，所以飢不擇食，不管什麼資料都來者不拒。此時，那些想要影響輿論的駭客就會製造很多假新聞來源，為模型開發者提供免費的訓練資料，結果就是，被下毒的模型會將假消息當成事實，變成了專門幫俄羅斯 APT 集團散播假消息的不受控制的 AI。

個案研究：天生惡意的 AI

天生惡意的 AI 是駭客自己開發的 AI 服務，專門用來攻擊您系統。駭客有可能利用您的運算資源 (惡意程式) 或是別人的運算資源 (AI 攻擊機器人)。不過這類攻擊仍處於早期發展階段，目前較為主流的攻擊還是生成式 AI 詐騙、勒索病毒、零時差漏洞攻擊，以及其他人們熟悉的攻擊。不過，目前已經有一些天生惡意的不受控制的 AI 案例開始出現。

AI 惡意程式：駭客將惡意程式偽裝成系統更新下載，在目標端點上植入一個小型語言模型。此惡意程式乍看之下就像一個獨立的聊天機器人，除了具備今日資訊竊取程式的躲避偵測技巧之外，還能分析某項資料是否符合駭客的期望。它會讀取郵件、PDF、網頁瀏覽記錄等等來尋找某些特定內容，讓駭客悄悄地將高價值資訊傳回給自己。

代理攻擊機器人：當使用者的系統被安裝了「TrojanVPN」這個流量匿名化灰色軟體時，它就會開始搜尋使用者正在使用的 AI 服務、登入憑證及授權金鑰。使用者的系統會變成一個提供服務的「AI 機器人」，並隨時向灰色軟體的擁有者回報其服務存取狀況。使用者系統可存取一些包含多國語言與多重模式功能的 GenAI 工具，然後將此 AI 工具當成服務販售給駭客，提供網路釣魚、深偽或其他詐騙行動所需的內容。

個案研究：意外變壞的 AI

AI 之所以會意外變壞，是因為 AI 服務發生意外狀況而出現違反其設計初衷的行為，這通常是因為設計缺陷或錯誤所導致。GenAI 常見的一些問題 (如幻想內容) 並不算是不受控制的行為，因為對一個以推論預測為基礎的 GenAI 來說，這種情況永遠可能發生。但如果沒有加以適當監控，並且對資料與存取進行保護，那就可能發生永久性的問題。

意外洩露資料：AI 的能力強弱取決於它接觸到的資料，所以，一些急於導入 AI 的企業，會將自己的資料與 AI 服務連結。當企業內部提供協助的聊天機器人在回答有關職涯發展問題時，意外透露了高階人員的薪水資訊時，就會變成了不受控制的 AI。當任何受到保護的資訊要提供給 AI 系統使用時，都應該將它放在沙盒環境當中，以確保 AI 服務只能存取獲得授權的資料。

失控的資源消耗：目前的代理式 AI (agentic AI) 框架可讓 LLM 協調系統將大問題化成數個小問題來逐一加以解決，這通常會搭配另一個代理式 AI 元件同步運作。此時，如果資源消耗沒有給予限制，那麼系統在解決問題時有可能會產生迴圈或遞迴式結構，或者找出一種可能將所有可用資源耗盡的策略。假使代理式 AI 在將大問題化成小問題時被賦予其原始模型相同的資源配額及權限，那它們就會像蠕蟲一樣，變成會自我複製的 AI！

關於 AI 意外變壞而傷害人類的例子，歷史上也有許多經典的虛構案例，例如知名電影《2001 太空漫遊》 (2001: A Space Odyssey) 當中的 HAL 9000 電腦，以及《魔鬼終結者》(Terminator) 系列當中的天網 (Skynet)。自從人工智慧 (AI) 的概念誕生以來，人們就一直在擔心代理式 AI 會做出傷害或殺害人類的行為。隨著 AI 服務被賦予更大的行動能力，這項風險也變得更加迫切。

防範與回應

要防範、偵測及回應這些新興的威脅，我們得先認清其因果關係：意外變壞的 AI 需要密切監控資源來加以防範、天生惡意的 AI 需要保護網路和資料來加以防範，至於遭人破壞的 AI，則需要授權與內容保護來加以防範。接下來的文章，我們將深入探討以上每一種防範措施。

AI 如何變壞？

作者

參考資源

技術支援

關於趨勢

總部

參考資源

技術支援

關於趨勢

總部

美洲 (The Americas)

中東與非洲 (Middle East & Africa)

歐洲

亞太地區 (Asia Pacific)