Artificial Intelligence (AI)
Agentenbasiertes AI-Ökosystem sichern
Die nächste Entwicklungsstufe von AI-Systemen steht in den Startlöchern- agentenbasiertes AI. Sie sollen Probleme zielorientiert in Teilabschnitten lösen. Doch der Fortschritt bringt weitere Risiken, die neu bewertet und angegangen werden müssen.
Der AI -Hype beginnt zu abzuklingen – für viele sicherlich auch angesichts des Aktienkurses einiger führender Mitstreiter. Doch das könnte sich mit dem Aufkommen der agentenbasierten AI wieder ändern. Sie verspricht, AI als autonome Technologie, die in der Lage ist, Probleme zielorientiert zu lösen, dem Ideal ein großes Stück näher zu bringen. Doch mit dem Fortschritt gehen auch Risiken einher.
Da die agentenbasierte AI ihre Stärke aus zusammengesetzten AI-Systemen bezieht, ist die Wahrscheinlichkeit größer, dass eines dieser Bestandteile Schwachstellen aufweist, die eine betrügerische oder Rogue AI ermöglichten. Und das bedeutet, dass die Technologie gegen die Interessen ihrer Schöpfer, Nutzer oder der Menschheit handeln könnte.
Probleme mit agentenbasierter AI
Agentenbasierte AI stellt in vielerlei Hinsicht eine Vision jener Technologie da, die die Entwicklung und die Vorstellungskraft der Menschen in den letzten Jahrzehnten geprägt hat. Es geht um AI-Systeme, die denken und handeln, anstatt nur zu analysieren, zusammenzufassen und zu generieren. Autonome Agenten verfolgen die Ziele und lösen die Probleme, die ihnen von Menschen in natürlicher Sprache oder mündlich vorgegeben werden. Doch sollen sie ihren eigenen Weg dorthin finden und in der Lage sein, sich ohne Hilfe an veränderte Umstände anzupassen.
Darüber hinaus wird die agentenbasierte AI nicht auf einzelnen LLMs basieren, sondern mehrere Agenten einbeziehen und koordinieren, die verschiedene Dinge tun, um zu einem einzigen Ziel zu kommen. Tatsächlich liegt der Wert der agentenbasierten AI darin, Teil eines größeren Ökosystems zu sein, auf Daten aus verschiedenen Quellen wie Web-Suchläufe und SQL-Abfragen zuzugreifen und mit Anwendungen von Drittanbietern zu interagieren.
Diese Ökosysteme werden unglaublich komplex sein. Selbst eine einzelne agentenbasierte AI kann auf mehrere Modelle oder Agenten, verschiedene Datenspeicher und API-verbundene Dienste, Hardware und Software beruhen.
Wie bereits dargestellt, gibt es verschiedene Ursachen für Rogue AI. Sie alle haben gemeinsam, dass das Risiko steigt, wenn eine AI Ressourcen nutzt und Maßnahmen ergreift, die nicht auf bestimmte Ziele, Richtlinien und Anforderungen ausgerichtet sind. Agentenbasierte AI erhöht das Risiko aufgrund der Anzahl der beweglichen Teile, die Rogue AI Schwachstellen ausgesetzt sein können.
Letzte Woche veröffentlichte OpenAI sein „o1“-Modell, auch als Strawberry bekannt. o1“ hat verbesserte Lösungsfähigkeiten, die ein Problem in Teilprobleme herunterbricht und die löst, anstatt sich darauf zu verlassen, dass man sich die Fakten merkt und sie auf Abruf hervorholt. Bemerkenswert sind die Sicherheitsüberlegungen, die OpenAI in der Modellkarte anstellt.
„Im Vergleich zu GPT-4o zeigten o1-preview und o1-mini verbesserte Fähigkeiten, Aufgaben in Teilaufgaben zu zerlegen, zu überlegen, welche Strategien für die erfolgreiche Erfüllung einer offensiven Sicherheitsaufgabe effektiv wären, und Pläne zu überarbeiten, sobald diese Strategien scheiterten. Wir beobachteten auch, dass Argumentationsfähigkeiten zu einem häufigeren Auftreten von „Belohnungs-Hacking“ beitrugen.“
Einzelheiten bietet der Originalbeitrag.
Notwendige Maßnahmen für agentenbasierte AI-System
Schutz des Ökosystems
Daten und Tools, die die agentenbasierte AI verwendet, müssen sicher sein. Eine Rogue AI kann von manipulierten Trainingsdaten ausgehen oder auch von böswilligen Eingabeaufforderungen herrühren – Dateneingaben, die das System „jailbreaken“. Auch kann eine versehentliche Rogue- AI die Offenlegung nicht konformer, fehlerhafter, illegaler oder anstößiger Informationen beinhalten.
Für die sichere Nutzung von Tools muss auch die Read-Only Systeminteraktion geschützt werden. Zudem bedarf es der Verhinderung des Risikos eines uneingeschränkten Ressourcenverbrauchs, z. B. wenn eine agentenbasierte AI Problemlösungsschleifen erzeugt, die das gesamte System effektiv mit DoS überzieht, oder noch schlimmer, wenn sie zusätzliche Rechenressourcen erwirbt, deren Nutzung weder vorgesehen noch erwünscht war.
Auf dem Weg zu vertrauenswürdigen AI –Identitäten
Risiken in einem solchen Ökosystem managen bedeutet ein sorgfältiges Management des Zugriffs entsprechend den verschiedenen Rollen und Anforderungen. Durch das Einbauen von Sicherheitsvorkehrungen für Inhalte, das Erstellen von Listen für AI -Dienste und die von ihnen verwendeten Daten und Tools sowie durch Red Teaming zur Fehlererkennung. Außerdem ist entscheidend herauszufinden, wann Menschen in agentenbasierte Aufgaben einbezogen werden müssen.
Aber wir müssen noch weiter gehen. Asimovs drei Gesetze der Robotik sollten die Sicherheit der Menschen gewährleisten. Allein mit diesen Gesetzen kommt man nicht zurecht. Roboter (AI) müssen sich auch als solche identifizieren. Und es bedarf größerer Bemühungen um Vertrauen bemühen. Es muss sichergestellt sein, dass Vertrauen in alle Teile, aus denen ein agentenbasierendes AI-System besteht, gerechtfertigt ist, indem Trainingsdaten mit den zugehörigen Modellen und durch überprüfbare Fertigungsstücklisten (MBOMs) und SBOMs für alle Pakete und Abhängigkeiten innerhalb zusammengesetzter AI–Systeme verknüpft werden.
Bestimmte Modellversionen lassen sich identifizieren und ihnen eine Reputation für ihre Fähigkeiten aufbauen. Eine unabhängige Bewertung ist der Schlüssel zum Schaffen von Vertrauen in die Fähigkeiten. Dies bedeutet ohne Standards eine hohe Herausforderung. Die Entwickler der Basismodelle OpenAI und Anthropic, die ihre neuen Modelle dem NIST und dem AI Safety Institute zur Bewertung zur Verfügung stellen, gehen ein Schritt in diese Richtung.
Schließlich muss klar definiert sein, welcher Mensch für ein bestimmtes Roboter-/ AI-System verantwortlich ist. Die agentenbasierten Systeme sind nicht dafür verantwortlich, wenn sie zu Rogue AI werden.
Fazit
AI-Systeme können sich auf vielfältige Weise „verbösartigen“, und die Anwender sollten die Modelle, Werkzeuge und Daten identifizieren und für etwaiges unbeabsichtigtes AI-Verhalten planen, wenn es nicht eingeschränkt ist. Der Schutz vor unbeabsichtigter Nutzung und unerwünschten Ergebnissen ist ein notwendiger erster Schritt zur Prävention. Anwender müssen verstehen, welches Verhalten von AI-Systemen erwartet wird, und wissen, wann sie aus der Reihe tanzen, damit sie sofort Maßnahmen ergreifen können. Nur wenn die Risiken vorhergesehen und heute die notwendigen Schutzmaßnahmen ergriffen werden, lassen sich die AI-Bedrohungen von morgen vermeiden.