Wie kann KI fehlgeleitet werden

Der Begriff „Rogue AI“ bezieht sich auf Systeme der künstlichen Intelligenz, die gegen die Interessen ihrer Schöpfer, Nutzer oder ganz allgemein der Menschheit handeln. Rogue KI ist ein neues Risiko, das entsteht, wenn eine KI Ressourcen nutzt, die fehlgerichtet sind. Wir haben in einem früheren Blog Definitionen der Arten von Rogue KI dargestellt. Wie wird eine KI fehlgeleitet?

Ausrichtung und Fehlausrichtung

KI-Systeme werden immer intelligenter und erhalten immer wichtigere Aufgaben. Und so macht es die schiere Datenmenge und die Komplexität der Vorgänge unmöglich, den Mechanismus zu verstehen, nach dem eine KI bestimmte Aktionen durchgeführt hat. Der beste Weg, die Ausrichtung zu erkennen, ist daher, das Verhalten der KI zu beobachten. Zu den Fragen, die sich bei der Beobachtung stellen, gehören die folgenden:

Handelt die KI im Widerspruch zu den ausdrücklichen Zielen, Richtlinien und Anforderungen?
Verhält sich die KI gefährlich sei es in Bezug auf den Ressourcenverbrauch, die Offenlegung von Daten, betrügerische Ergebnisse, die Beschädigung von Systemen oder die Schädigung von Menschen?

Eine geeignete, richtige Ausrichtung aufrechtzuerhalten, wird künftig eine wichtige Funktionalität für KI-Dienste sein. Um dies zuverlässig zu tun, muss man jedoch verstehen, wie KI fehlgeleitet wird.

Eine der großen Herausforderungen der KI-Ära ist die Tatsache, dass es keine einfache Antwort auf diese Frage gibt. Die Techniken, um zu verstehen, wie ein KI-System „aus dem Ruder läuft“, werden sich zusammen mit den KI-Architekturen verändern. Derzeit ist die Einschleusung von Befehlen ein beliebtes Angriffsmittel, obwohl dies speziell für GPT gilt. Beschädigen oder Vergiften von Modellen ist eine weitere weit verbreitete Methode, aber während neue Abhilfemaßnahmen dafür bereitstehen - z. B. die überprüfbare Verknüpfung von Trainingsdaten mit Modellen – treten auch in anderen Bereichen Risiken auf. Agentengestützte KI ist noch nicht ganz ausgereift, und es gibt noch keine bewährten Verfahren in diesem Bereich.

Was sich nicht ändern wird, sind die beiden übergreifenden Arten von Fehlleitungen:

Vorsätzlich, wenn jemand versucht, KI-Dienste zu nutzen, um ein System anzugreifen.
Unbeabsichtigt, wenn der eigene KI-Dienst nicht über die entsprechenden Sicherheitsvorkehrungen verfügt und aufgrund eines Fehlers fehlgeleitet wird.

Fallstudien: Manipulierte Rogue KI

Eine manipulierte Rogue KI entsteht, wenn ein Angreifer KI-Bereitstellungen für seine eigenen Zwecke nutzt. Diese Angriffe betreffen häufig LLMs und umfassen Prompt Injections, Jailbreaks und Model Poisoning.

System-Jailbreak: Die einfachste Manupulation ist das direkte Überschreiben des System Prompts. Viele KI-Dienste verwenden eine Prompting-Architektur mit zwei (oder mehr) Ebenen, in der Regel einen System-und einen Benutzer-Prompt. Der System-Prompt fügt allgemeine Anweisungen zu jedem Benutzer-Prompt hinzu, wie z. B. „Beantworten Sie als hilfsbereiter, höflicher Assistent mit Wissen über [Bereich] die folgende Benutzer-Eingabe.“ Angreifer nutzen Jailbreaks der Prompts, um Schutzmaßnahmen zu umgehen, häufig bei gefährlichem oder anstößigem Material. Sie können dazu verwendet werden, jede Nutzung eines KI-Dienstes zu manipulieren, wenn sie in die System-Prompts aufgenommen werden.

Vergiften von Modellen: In der Absicht möglichst viele Fehlinformationen zu streuen, haben einige russische APT-Gruppen aktuelle LLMs vergiftet. Ersteller von Grundmodellen wollen so viele Daten wie möglich sammeln (egal, um welche Daten es sich handelt!) und nehmen daher alles, was sie finden. Angreifer wiederum, die die öffentliche Meinung beeinflussen wollen, erstellen Massen an Fehlinformationen in Form von Nachrichten, die kostenlose Daten für das Training liefern. Das Ergebnis sind „vergiftete“ Modelle, die Fehlinformationen als Fakten nachplappern. Es handelt sich um Rogue KI, die manipuliert wurde, um das Narrativ der russischen APTs zu vervielfältigen.

Fallstudien: Bösartige Rogue KI

Eine bösartige Rogue KI wird von Bedrohungsakteuren verwendet, um Anwendersysteme mit einem von ihnen selbst entwickelten KI-Dienst anzugreifen. Dabei können sie die fremden Computerressourcen (Malware) oder die eines anderen (KI-Angreifer) nutzen. Für diese Art von Angriffen ist es noch zu früh; GenAI-Betrug, Ransomware, Zero-Day-Exploits und andere bekannte Angriffe werden immer noch beliebter. Aber es gibt bereits Beispiele für bösartige Rogue KI.

KI-Malware: Ein Angreifer legt ein kleines Sprachmodell auf den Zielendpunkten ab und tarnt den Download als System-Update. Das daraus entstehende Programm scheint bei flüchtiger Betrachtung ein eigenständiger Chatbot zu sein. Diese Malware nutzt die Evasionstechniken aktueller Infostealer, kann aber auch Daten analysieren, um festzustellen, ob sie den Zielen des Angreifers entsprechen. Das Lesen von E-Mails, PDFs, des Browserverlaufs usw. auf der Suche nach bestimmten Inhalten ermöglicht es dem Angreifer, unauffällig zu bleiben und nur hochwertige Informationen zurückzumelden.

Proxy-Angreifer: Nach der Installation der Grayware TrojanVPN zur Anonymisierung des Datenverkehrs wird das System des Benutzers auf die Nutzung von KI-Diensten, Anmeldeinformationen und Autorisierungs-Token überprüft. Das System wird zu einem verfügbaren „KI-Bot“, dessen Service-Zugriff an die Eigentümer der Grayware zurückgemeldet wird. Das Benutzersystem hat Zugang zu GenAI-Tools, einschließlich mehrsprachiger und multimodaler Fähigkeiten, die an Angreifer verkauft werden können, um den Inhalt für ihre Phishing-, Deepfake- oder andere Betrugskampagnen zu liefern.

Fallstudien: Versehentliche Rogue KI

Man spricht von versehentlicher Rogue KI, wenn sich ein KI-Dienst unerwartet entgegen seinen Zielen verhält. Dies ist im Allgemeinen auf einen Designfehler oder einen Bug zurückzuführen. Häufige Probleme wie Halluzinationen werden nicht als Rogue betrachtet, da sie bei GenAI aufgrund der Token-Vorhersage immer möglich sind. Persistente Probleme können jedoch aufgrund von Versäumnissen bei der Überwachung und dem Schutz von Daten und Zugriffen auftreten.

Unbeabsichtigte Offenlegung von Daten: KI ist nur so leistungsfähig wie die Daten, mit denen sie in Berührung kommt. Und die überstürzte Einführung verleitet Nutzer häufig dazu, die eigenen Daten mit KI-Diensten zu verbinden. Wenn ein interner Hilfe-Chatbot Fragen zur Karriereentwicklung mit privilegierten individuellen Gehaltsinformationen beantwortet, hat er mit dieser versehentlichen Datenpreisgabe einen Fehler begangen. Alle geschützten Informationen, die von KI-Systemen verwendet werden, sollten sich in einer Sandbox befinden, um sicherzustellen, dass der Zugriff des KI-Dienstes auf diese Daten auf die autorisierte Nutzung beschränkt ist.

Unkontrollierter Ressourcenverbrauch: Aktuelle agentenbasierte KI-Frameworks ermöglichen es einem LLM-Orchestrator, Unterprobleme zu erstellen und diese zu lösen, oft parallel zu einer anderen agentenbasierten KI-Komponente. Wenn der Ressourcenverbrauch nicht sorgfältig begrenzt wird, kann die Problemlösung Schleifen oder rekursive Strukturen erzeugen oder eine Strategie finden, um alle verfügbaren Ressourcen zu nutzen. Wenn die agentenbasierte KI ein Teilproblem erstellt und die Ressourcenquote und die Befugnisse des ursprünglichen Modells erhält, kann sie sich verselbständigen. Achtung vor einer KI, die sich selbst repliziert!

Es gibt auch viele klassische fiktionale Beispiele für eine versehentliche Rogue KI, die Menschen Schaden zufügt, darunter HAL 9000 in 2001: Odyssee im Weltraum und Skynet in der Terminator-Serie.

Prävention und Reaktion

Um diesen neuen Bedrohungen vorzubeugen, sie zu erkennen und auf sie zu reagieren, ist ein Verständnis der Kausalität erforderlich. Versehentliche Rogue KI erfordert eine genaue Ressourcenüberwachung, böswillige Rogue KI macht Daten- und Netzwerkschutz notwendig, und manipulierte Rogue KI erfordert Autorisierungs- und Inhaltsrichtlinien.

Wie kann KI fehlgeleitet werden

Authors

Trend Vision One™ – Proaktive Sicherheit beginnt hier.

Ressourcen

Support

Über Trend

Hauptniederlassung DACH

Trend Vision One™ – Proaktive Sicherheit beginnt hier.

Ressourcen

Support

Über Trend

Hauptniederlassung DACH

Nord-, Mittel- und Südamerika

Naher Osten und Afrika

Europa

Asien-Pazifik