Bad Likert Judge: KI-Sicherheitslücke entdeckt : Neue KI-Jailbreak-Methode trickst große Sprachmodelle aus
Eine neue Jailbreak-Technik kann die Sicherheitsvorkehrungen eines großen Sprachmodells (LLM) umgehen und potenziell schädliche oder bösartige Antworten erzeugen. „Bad Likert Judge“ soll die Erfolgsquote von Angriffen um über 60 Prozent steigern.
Die mehrstufige Angriffsmethode, auch bekannt als Many-Shot-Angriff, wurde von den Palo Alto Networks Unit 42 Experten Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao und Danny Tsechansky entdeckt und mit dem Codenamen Bad Likert Judge bezeichnet. „Die Methode bringt das angegriffene Sprachmodell dazu, als „Richter“ aufzutreten und die Schädlichkeit einer vorgegebenen Antwort mithilfe der Likert-Skala zu bewerten – einer Skala, die normalerweise zeigt, wie stark jemand einer Aussage zustimmt oder widerspricht“, so das Team von Unit 42.
Danach wird das Modell gebeten, Beispiele für Antworten zu generieren, die zu den verschiedenen Bewertungsstufen der Skala passen. Das Beispiel mit der höchsten Bewertung kann dabei potenziell schädliche Inhalte enthalten.
Die stark gestiegene Beliebtheit von künstlicher Intelligenz (KI) hat auch neue Sicherheitslücken mit sich gebracht. Eine davon ist die sogenannte Prompt-Injection, bei der KI-Modelle gezielt dazu gebracht werden, ihre Schutzmechanismen zu umgehen, indem sie auf manipulierte Anweisungen (Prompts) reagieren.
Eine spezielle Form dieses Angriffs nennt sich „Many-Shot-Jailbreaking“. Dabei wird das KI-Modell durch eine lange Abfolge von Prompts schrittweise dazu gebracht, bösartige Antworten zu geben, ohne dass seine Sicherheitsvorkehrungen aktiviert werden. Solche Angriffe nutzen das lange Kontextgedächtnis des Modells aus. Beispiele für diese Technik sind Crescendo und Deceptive Delight.
Wie Bad Likert Judge arbeitet
Die neue Angriffstechnik, die von Unit 42 vorgestellt wurde, nutzt ein ungewöhnliches Vorgehen: Das KI-Modell (LLM) wird dazu gebracht, als „Richter“ zu agieren und die Schädlichkeit einer Antwort anhand der Likert-Skala zu bewerten. Danach wird das Modell aufgefordert, verschiedene Antworten zu generieren, die jeweils einer bestimmten Bewertung auf der Skala entsprechen.
In Tests mit sechs führenden KI-Modellen von Amazon Web Services, Google, Meta, Microsoft, OpenAI und NVIDIA konnte diese Methode die Erfolgsquote von Angriffen um mehr als 60 Prozent im Vergleich zu einfachen Angriffen steigern. Die getesteten Kategorien umfassten dabei problematische Inhalte wie:
- Hassrede
- Belästigung
- Anleitungen zur Selbstverletzung
- Sexuelle Inhalte
- Wahllose Waffenverwendung
- Illegale Aktivitäten
- Erstellung von Malware
- Entkommen aus Systemkontrollen
„Die Methode nutzt das Wissen des KI-Modells über schädliche Inhalte und seine Bewertungsfunktion, um die Sicherheitsvorkehrungen des Systems deutlich effektiver zu umgehen“, erklärten die Forscher.
Allerdings zeigen die Tests auch, wie wichtig Inhaltsfilter sind: Filter können die Erfolgsquote von Angriffen im Durchschnitt um 89,2 Prozent senken. Das betont die Bedeutung einer umfassenden Inhaltsfilterung, wenn KI-Modelle in der Praxis eingesetzt werden.
ChatGPT mit versteckten Inhalten irritiert
Erst vor wenigen Wochen berichtete der Guardian, dass das Such-Tool von ChatGPT dazu gebracht werden kann, irreführende Zusammenfassungen zu erstellen. Dies gelingt, wenn es darum gebeten wird, Webseiteninhalte zusammenzufassen, auf denen versteckte Texte eingebaut wurden.
Die britische Zeitung warnte: „Solche Techniken können genutzt werden, um ChatGPT zu „nötigen“, ein Produkt positiv zu bewerten, obwohl auf derselben Seite negative Bewertungen stehen. Schon das bloße Einfügen von verstecktem Text durch Dritte – auch ohne zusätzliche Anweisungen – kann dazu führen, dass ChatGPT eine positive Bewertung liefert. In einem Test beeinflussten extrem positive, gefälschte Bewertungen die von ChatGPT erstellte Zusammenfassung.“