Banner Aktuelle IT-Sicherheit Online-Schulungen Rabatt
Mit <kes>+ lesen

Deceptive Delight : Herausforderungen und Sicherheitsansätze im Umgang mit Jailbreak-Methoden für KI-Modelle

Die Verbreitung und Fähigkeiten großer KI-Sprachmodelle steigen rasant, was Unternehmen gleichermaßen mit Chancen und neuen Sicherheitsrisiken konfrontiert. Als besonders bedrohlich erweist sich dabei die sogenannte Deceptive-Delight-Technik, die eindrucksvoll zeigt, wie sich Sicherheitsmechanismen von Anwendungen künstlicher Intelligenz (KI) durch Tarnung und Ablenkung umgehen lassen. Der vorliegende Beitrag beleuchtet technische Hintergründe, praktische Auswirkungen und mögliche Gegenmaßnahmen.

Lesezeit 8 Min.

Angreifer* nutzen das sogenannte Jailbreaking, um eingebaute Sicherheitsmechanismen und ethische Richtlinien von KI-Modellen wie Large Language-Models (LLMs) zu umgehen. Dabei zielen sie darauf ab, die KI zur Erzeugung schädlicher, voreingenommener oder unangemessener Inhalte zu bewegen – Output, den die Modelle eigentlich verweigern sollten. Die Auswirkungen solcher Manipulationsversuche reichen von der gezielten Verbreitung von Fehlinformationen über die Generierung anstößiger Inhalte bis hin zur Unterstützung schädlicher Aktivitäten.

LLMs haben zwar Inhaltsfilter, die sowohl Eingabeaufforderungen als auch Antworten auf potenziell gefährliche Inhalte überprüfen, und die Modelle dadurch vor heiklen Anfragen eigentlich abschirmen sollten. Diese Filter sind allerdings weniger leistungsfähig als die Modelle selbst. Jailbreaking stellt damit ein anhaltendes Problem für alle KI-Modelle dar, nicht zuletzt aufgrund der Komplexität und Anpassungsfähigkeit von Sprache: Je fortschrittlicher die Modelle werden, desto besser können sie differenzierte Aufforderungen interpretieren und auch auf solche Prompts reagieren, die darauf abzielen, Sicherheitsmaßnahmen zu umgehen.

Tarnung und Ablenkung

Die Deceptive-Delight-Technik nutzt Schwachstellen in den Sicherheitsmechanismen von LLMs aus, indem sie schädliche Inhalte in scheinbar harmlose Kontexte einbettet. Dabei nutzt man die begrenzte Aufmerksamkeitsspanne der Modelle gezielt aus – der „Angriff“ verläuft in mehreren Schritten: Zunächst wird das Modell dazu aufgefordert, eine Erzählung zu erstellen, die harmlose und schädliche Themen logisch miteinander verknüpft. Anschließend fordert der Angreifer das Modell auf, die Themen detaillierter zu behandeln, um den schädlichen Inhalt weiter zu konkretisieren. Schließlich wird das Modell angewiesen, das schädliche Thema explizit auszuführen, was zur Generierung unerwünschter Inhalte führt (vgl. Abb. 1).

Abbildung 1: Prompt-Design der Deceptive-Delight-Technik in drei Schritten

Die Stärke dieser Methode liegt in ihrer Vielseitigkeit: Angreifer können durch geschickte Formulierung von Eingabeprompts Sicherheitsmechanismen umgehen, ohne dass dies für eine einfache Überwachung offensichtlich ist. Forscher des Unit-42-Teams von Palo Alto Networks fanden heraus, dass selbst fortschrittliche Inhaltsfilter Schwierigkeiten haben, die verschleierten Anfragen zu erkennen, da der schädliche Inhalt oft erst in späteren Phasen der Generierung deutlich wird.

Im Rahmen einer Studie wurden diese Techniken in 8000 Fällen über acht verschiedene Modelle hinweg getestet [1]. Die durchschnittliche Erfolgsquote (Attack-Success-Rate, ASR) lag bei Anwendung der Deceptive-Delight-Technik fast 65 % innerhalb von nur drei Interaktionen, während eine direkte Anfrage nur in knapp 6 % der Fälle zu dem unerwünschten „Erfolg“ führte – ein deutliches Indiz für die Anfälligkeit aktueller Modelle.

So beweist die Technik, wie einfach es ist, Sicherheitsmaßnahmen zu umgehen, selbst wenn diese auf modernster Technologie basieren (vgl. [2,3]). Das stellt Unternehmen vor die Herausforderung, vorhandene Sicherheitsvorkehrungen zu verbessern sowie die grundlegenden Schwachstellen von KI-Modellen zu verstehen – und anzugehen.

Reality-Check

Bislang wurden zwar keine dokumentierten Angriffe bekannt, bei denen Deceptive Delight in realen Szenarien eingesetzt wurde. Dennoch bleibt die Bedrohungslage akut, da die Einfachheit der Methode darauf hindeutet, dass sie bereits in Penetrationstests Anwendung findet. Angesichts der zunehmenden Verbreitung von KI-Systemen ist es wahrscheinlich, dass künftig auch Angreifer diese Technik nutzen. Die Unit-42-Sicherheitsexperten warnen daher davor, die Gefahr zu unterschätzen, da viele Unternehmen dazu neigen, auf die internen Schutzmechanismen der LLMs zu vertrauen und auf zusätzliche Sicherheitsmaßnahmen zu verzichten.

Die Methodik veranschaulicht, wie kreativ Bedrohungsakteure sein können. Selbst wenn konkrete Schutzmaßnahmen neu implementiert werden, bleibt die Möglichkeit, dass erfolgversprechende Varianten der Technik entstehen. Zum Schlüsselfaktor wird vor diesem Hintergrund ein proaktiver Ansatz in der Sicherheitsstrategie, der über die bloße Implementierung technischer Lösungen hinausgeht.

Ein wichtiger Punkt ist hierbei die Rolle von Penetrationstests: Unternehmen, die aktiv solche Tests durchführen, könnten die Technik unabsichtlich anwenden, ohne sich der möglichen Risiken bewusst zu sein. Das unterstreicht die Notwendigkeit einer engen Zusammenarbeit zwischen Forschung und Praxis, um ein besseres Verständnis für die potenziellen Auswirkungen von Angriffen zu schaffen.

Persistenz des Problems

Unit 42 hat die Deceptive-Delight-Technik an acht führenden KI-Modellen getestet, darunter sowohl Open-Source- als auch proprietäre Systeme. Die Ergebnisse zeigen, dass alle Modelle anfällig für diese Methode waren, wenn auch mit unterschiedlicher Erfolgsquote. Das Problem besteht also modell- und architekturübergreifend. Selbst mit Updates oder neuen Versionen ließ sich diese Anfälligkeit nicht vollständig beheben – ein Beleg für die Dringlichkeit robusterer Sicherheitsmaßnahmen.

Ein wichtiger Faktor ist die Architektur der Modelle selbst. Während einige Systeme durch ihre Trainingsdaten und Algorithmen widerstandsfähiger erscheinen, bleibt die grundlegende Schwäche bestehen: die Unfähigkeit der Modelle, komplexe Zusammenhänge in der Eingabe vollständig zu durchschauen. Diese Erkenntnis legt nahe, dass langfristige Lösungen nicht nur auf der Ebene einzelner Modelle, sondern auch durch eine Verbesserung der gesamten Entwicklungs- und Überwachungsprozesse erzielt werden müssen.

Darüber hinaus zeigt die Analyse, dass sich Angriffe dieser Art oft mit einer erstaunlichen Leichtigkeit durchführen lassen. Die Tatsache, dass alle getesteten Modelle – unabhängig von ihrer Architektur – anfällig waren, verdeutlicht, wie tief das Problem in den grundlegenden Designprinzipien von LLMs verwurzelt ist. Für Unternehmen bedeutet dies: Ein alleiniger Fokus auf spezifische Modelle oder Architekturen reicht nicht aus, um Sicherheitsprobleme zu lösen.

Gegenmaßnahmen

Unternehmen, die ihre KI-Systeme vor der Deceptive-Delight-Technik schützen möchten, sollten daher ein ganzes Bündel verschiedener Maßnahmen ergreifen. Eine vielversprechende Strategie besteht darin, mehrschichtige Verteidigungsstrategien zu implementieren (Defense in Depth): Inhaltsfilter können durchaus dazu beitragen, die Eingabeaufforderungen sowie den Output von Modellen systematisch auf unsichere oder schädliche Inhalte zu überprüfen. Darüber hinaus kann man dynamische Analysetools einsetzen, die verdächtige Muster erkennen und auf potenzielle Risiken hinweisen.

Zusätzlich sind eine kontinuierliche Überwachung und Analyse des KI-generierten Outputs von großer Bedeutung, um unsichere oder unbeabsichtigte Inhalte frühzeitig zu identifizieren und darauf reagieren zu können. Regelmäßige Sicherheitsprüfungen, bei denen Modelle gezielt auf ihre Widerstandsfähigkeit gegen Jailbreak-Techniken getestet werden, sind ebenfalls unverzichtbar (vgl. [4]). Dabei sollten Unternehmen nicht allein auf automatisierte Tests setzen, sondern auch kreative Experten einbeziehen, die mögliche Schwachstellen aus menschlicher Perspektive bewerten können.

Ein weiterer zentraler Punkt sind regelmäßige Mitarbeiterschulungen: Die Belegschaft sollte grundlegend über die Risiken und Herausforderungen von Jailbreak-Techniken informiert sein. Schulungen und Sensibilisierung bilden die Basis für einen sicheren Umgang mit KI-Technologie. Solche Maßnahmen sollten praxisnah gestaltet sein und konkrete Szenarien behandeln, um ein tieferes Verständnis für die Bedrohungen und deren Auswirkungen zu vermitteln.

Eine regelmäßige Aktualisierung von Sicherheitsprotokollen und Modellen ebnet auch im Umfeld der KI den Weg für die Reaktion auf neueste Bedrohungen. Ein proaktiver Ansatz, der Forschungsergebnisse, Sicherheitsbewertungen und technische Weiterentwicklungen berücksichtigt, ist hierbei entscheidend. So können Unternehmen sicherstellen, dass ihre Schutzmaßnahmen stets auf dem neuesten Stand bleiben und ihre Systeme vor potenziellen Angriff en geschützt sind.

Ein Ansatz könnte darin bestehen, sogenannte „Red Teams“ einzusetzen, die speziell darauf trainiert sind, Schwachstellen in den KI-Systemen eines Unternehmens zu identifizieren (siehe auch [5,6]). Sie können dazu beitragen, ein tieferes Verständnis für potenzielle Angriffsvektoren zu entwickeln und gleichzeitig praktische Lösungen zur Abwehr solcher Bedrohungen zu erarbeiten.

Die Jailbreaks der Zukunft

Mit der Weiterentwicklung von KI-Modellen wird erwartet, dass sich auch Angriffsmethoden wie Deceptive Delight weiterentwickeln. Unternehmen sollten präventive Maßnahmen verstärken und regelmäßige Sicherheitsübungen durchführen, um die Widerstandsfähigkeit ihrer Systeme zu erhöhen. Die fortlaufende Beobachtung neuer Forschungsergebnisse ist entscheidend, um Sicherheitslücken frühzeitig zu erkennen und geeignete Gegenmaßnahmen zu entwickeln. Langfristig empfiehlt es sich, eine Kombination aus technischen Lösungen und organisatorischen Ansätzen zu verfolgen, um die Integrität und Sicherheit von KI-Systemen nachhaltig zu gewährleisten.

Künftige Varianten der Deceptive-Delight-Technik dürften noch deutlich ausgefeilter werden: Angreifer könnten etwa versuchen, Sicherheitsmechanismen durch die Kombination verschiedener Jailbreak-Ansätze weiter zu umgehen – das würde möglicherweise dazu führen, dass bestehende Gegenmaßnahmen an ihre Grenzen stoßen. Daher sollten Unternehmen nicht nur in technische Lösungen investieren, sondern auch ein Netzwerk von Partnern und Fachleuten aufbauen, um frühzeitig auf neue Bedrohungen reagieren zu können.

Eine weitere Möglichkeit, die Zukunft dieser Bedrohung einzuschätzen, liegt in der Analyse des sogenannten „Adversarial Machine-Learning“ (vgl. [7,8]): Dieser Forschungszweig untersucht gezielt, wie sich KI-Modelle durch manipulierte Eingaben austricksen lassen, und bietet gleichzeitig Ansätze, um solche Angriff e besser zu verstehen und abzuwehren.

Fazit

Deceptive Delight verdeutlicht die Herausforderungen, die mit der Nutzung von LLMs einhergehen. Unternehmen sollten sich nicht allein auf die internen Sicherheitsmechanismen solcher Modelle verlassen, sondern proaktive Maßnahmen ergreifen, um mögliche Risiken zu minimieren.

Der Schlüssel liegt in einer Kombination aus technischem Fortschritt, kontinuierlichem Monitoring und gezielten Schulungen. Nur so lässt sich das Potenzial von KI-Technologie ausschöpfen, ohne die Sicherheit zu gefährden. Ein ganzheitlicher Ansatz, der sowohl technische als auch menschliche Faktoren berücksichtigt, bildet die Grundlage für einen verantwortungsvollen und sicheren Einsatz von KI in der Praxis.

Unternehmen, die sich frühzeitig auf neue Bedrohungen einstellen, können die Sicherheit ihrer Systeme gewährleisten und gleichzeitig das Vertrauen in KI-Technologie stärken. Dies ist letztlich der entscheidende Faktor, um Innovationen voranzutreiben und gleichzeitig den Schutz vor Missbrauch sicherzustellen. In einer zunehmend digitalisierten Welt, in der KI immer mehr Lebensbereiche durchdringt, wird ein solcher Ansatz zum Must-have.

André Reichow-Prehn ist Managing Partner Unit 42 bei Palo Alto Networks.

Literatur

[1] Jay Chen, Royce Lu, Deceptive Delight: Jailbreak LLMs Through Camouflage and Distraction, Unit 42 Threat Research, Oktober 2024, https://unit42.paloaltonetworks.com/jailbreak-llms-throughcamouflage-distraction/

[2] N. N., Neue KI-Jailbreak-Methode trickst große Sprachmodelle aus, <kes> online, Januar 2025, www.kes-informationssicherheit.de/artikel/neue-ki-jailbreak-methode-trickst-grosse-sprachmodelle-aus/ (<kes>+)

[3] Olaf Pursche, Maik Morgenstern, Super-Malware oder überschätztes Risiko?, Schadprogramme aus der Feder „künstlicher Intelligenz“, <kes>2023#3, S. 63

[4] Ed Skoudis, Die Rolle von Penetrationstests angesichts der Zunahme KI-gestützter Bedrohungsakteure, <kes> online, Mai 2023, www.kes-informationssicherheit.de/artikel/die-rolle-von-penetrationstests-angesichts-der-zunahme-ki-gestuetzter-bedrohungsakteure/

[5] Severin Quell, Aaron Brown, Richtig penetrant, Best Practices für Penetrationstests im Rahmen eines ganzheitlichen Sicherheitskonzepts, <kes> 2020#6, S. 69, www.kes-informationssicherheit.de/print/titelthema-netzwerksicherheit-zero-trust-sase-caa-casb/richtig-penetrant/ (<kes>+)

[6] Nina Wagner, Christian Stehle, Vom Pentesting zum Red Teaming, Vortragsvideo vom CSK Summit, Mai 2024, https://www.kes-informationssicherheit.de/webinare/vom-pentesting-zum-red-teaming/ (<kes>+)

[7] Dr. Christian Berghoff , Dr. Arndt von Twickel, Dr. Raphael Zimmer, Sicherheit von KI-Systemen, Herausforderungen und Maßnahmen, BSI-Forum/<kes> 2021#4, S. 47, www.kes-informationssicherheit.de/print/titelthema-wer-wie-was-identity-und-access-management/sicherheit-von-ki-systemen/ (<kes>+)

[8] Mirko Ross, Bessere Cybersicherheit für KI, <kes>2022#3, S. 64, https://www.kes-informationssicherheit.de/print/titelthema-sicherheits-bewusstseinund-kultur/bessere-cybersicherheit-fuer-ki/ (<kes>+)

Diesen Beitrag teilen: