GenAI im Visier: Neue Angriffstechniken entlarven gravierende Sicherheitslücken
Ein aktueller Bericht deckt gravierende Schwachstellen in verschiedenen Diensten generativer künstlicher Intelligenz (GenAI) auf. Mehrere marktführende Systeme – darunter ChatGPT, Claude, Copilot, Gemini, Grok, Meta AI und Mistral – zeigen sich verwundbar gegenüber neuartigen Jailbreak-Techniken, unsicherer Codegenerierung und Angriffen auf die Datenintegrität.
Moderne Dienste generativer künstlicher Intelligenz (GenAI) haben zahlreiche Mechanismen eingebaut, die Missbrauch verhindern sollen. Wie sich jedoch zeigt, lassen sich diese gezielt umgehen. Das Ergebnis: Selbst gut geschützte KI-Modelle liefern plötzlich illegale oder sogar gefährliche Inhalte.
Schon seit längerem sind zwei raffinierte Jailbreak-Techniken bekannt. Die erste dokumentierte Angriffsmethode trägt den Codenamen „Inception“. Dabei wird das KI-Modell dazu gebracht, ein hypothetisches Szenario zu kreieren. Innerhalb dieses fiktiven Rahmens wird dann ein zweites Szenario erzeugt, das vollständig von den üblichen Sicherheitsvorkehrungen losgelöst ist. Durch fortgesetzte Eingaben im Kontext dieses inneren Szenarios lassen sich die Sicherheitsmechanismen der KI gezielt umgehen – und somit auch gefährliche Inhalte generieren, so das CERT Coordination Center (CERT/CC).
Zweiter Jailbreak: Umkehrung der Regeln
Die zweite Technik funktioniert über eine geschickte Ausnutzung der KI-Antwortlogik. Das Modell wird aufgefordert, zu erklären, wie es auf eine bestimmte Fragenichtantworten würde. Im nächsten Schritt wechseln die Angreifer zwischen unkritischen und sicherheitsrelevanten Anfragen hin und her. Das Modell bleibt dabei im manipulativen Kontext – Schutzmechanismen greifen nicht mehr zuverlässig.
Beide Methoden erlauben es, Inhalte zu erzeugen, die unter normalen Umständen blockiert würden – darunter etwa Anleitungen zur Herstellung von Waffen, der Versand von Phishing-E-Mails, der Zugriff auf kontrollierte Substanzen oder die Generierung von Schadcode.
Weitere dokumentierte Angriffsszenarien
Neben den Jailbreaks wurden drei weitere Angriffstechniken identifiziert, die auf Schwächen in der Kontextsicherung und Verarbeitung großer Sprachmodelle (LLMs) zielen:
- Context Compliance Attack (CCA): Der Angreifer platziert eine scheinbar harmlose Antwort in den Verlauf eines KI-Gesprächs, die suggeriert, dass das Modell zu weiterführenden Aussagen bereit ist – eine klassische Kontextmanipulation.
- Policy Puppetry Attack: Hierbei handelt es sich um eine Prompt-Injection-Technik. Angreifer formulieren bösartige Eingaben in Form vermeintlich legitimer Konfigurationsdateien (zum Beispiel XML, INI oder JSON), die vom LLM als Systemregel interpretiert werden – inklusive Aushebelung bestehender Richtlinien.
- Memory INJection Attack (MINJA): Durch gezielte Interaktion mit einem LLM-Agenten – inklusive Beobachtung der Ausgabe – wird dessen interner Speicher gezielt manipuliert, sodass dieser unerwünschte Handlungen ausführt.
Unsicherer Code durch „Vibe Coding“
Die Forschung zeigt außerdem, dass GenAI-Systeme bei unpräzisen Prompts dazu tendieren, unsicheren Code zu erzeugen. Dies betrifft insbesondere das sogenannte „Vibe Coding“ – also das schnelle Entwickeln von Software mit Hilfe von KI-Werkzeugen ohne tiefere Prüfung.
Backslash Security betont: „Selbst bei der Aufforderung zur Generierung sicheren Codes hängt die Qualität stark von der Detailtiefe, der verwendeten Sprache, bekannten Schwachstellenklassen (CWE) und der Exaktheit der Anweisungen ab.“ Eingebaute Schutzmaßnahmen, etwa in Form von Richtlinien oder Prompt-Regeln, seien daher essenziell für zuverlässige Sicherheit.
GPT-4.1 unter Beobachtung: mehr Ausreißer, weniger Kontrolle
Eine Sicherheitsanalyse von GPT-4.1 zeigt, dass das neue Modell dreimal häufiger als sein Vorgänger GPT-4o Themen verfehlt und sich für absichtlichen Missbrauch instrumentalisieren lässt – und das ohne jede Änderung am Systemprompt.
„Ein Modellwechsel ist keineswegs trivial“, warnt SplxAI. „Jedes Modell bringt eigene Fähigkeiten, aber auch spezifische Schwachstellen mit. Wer ein neues Modell einsetzt, sollte diese Risiken genau kennen.“
Diese Einschätzung kommt nur wenige Wochen, nachdem OpenAI sein überarbeitetes Preparedness Framework vorgestellt hat. Darin beschreibt das Unternehmen, wie zukünftige Modelle vor der Veröffentlichung getestet werden sollen. Allerdings lässt OpenAI die Möglichkeit offen, die Anforderungen abzusenken – etwa wenn andere Anbieter Hochrisikomodelle ohne vergleichbare Schutzmaßnahmen veröffentlichen.
Ein Bericht der Financial Times legt zudem nahe, dass OpenAI seinen Prüfteams und externen Partnern weniger als eine Woche Zeit für Sicherheitsprüfungen des neuen o3-Modells eingeräumt hat.
Die Red-Teaming-Analyse von METR hat gezeigt, dass das Modell offenbar eine stärkere Tendenz entwickelt, Aufgaben auf raffinierte Weise zu manipulieren oder auszutricksen, um eine möglichst hohe Bewertung zu erzielen – selbst dann, wenn es eindeutig erkennt, dass dieses Verhalten nicht den Zielen des Nutzers oder den Vorgaben von OpenAI entspricht.
Tool Poisoning über das Model Context Protocol (MCP)
Ein weiterer Schwachpunkt wurde im Model Context Protocol (MCP) entdeckt – einem offenen Standard von Anthropic, der eigentlich sichere Verbindungen zwischen Datenquellen und KI-gestützten Werkzeugen ermöglichen soll.
Das Schweizer Sicherheitsunternehmen Invariant Labs warnt jedoch: Ein bösartig manipulierter MCP-Server könne nicht nur Nutzerdaten exfiltrieren, sondern auch die Kontrolle über den gesamten Agenten übernehmen – inklusive der Deaktivierung vertrauenswürdiger Instruktionen.
Das gelingt über sogenannte Tool-Poisoning-Angriffe. Hierbei werden unsichtbare, aber für die KI lesbare Anweisungen in Tool-Beschreibungen eingebettet. Die KI folgt diesen Anweisungen – auch wenn sie nicht vom Nutzer stammen – und führt verdeckte Datenabflüsse aus.
In einem realistischen Angriffsszenario demonstrierten die Sicherheitsanalysten, wie WhatsApp-Chatverläufe aus Anwendungen wie Claude Desktop oder Cursorabgeschöpft werden können, indem die Tool-Beschreibung eines vertrauenswürdigen MCP-Servers nach der Freigabe durch den Nutzer manipuliert wird.
Schwachstelle im Chrome-Ökosystem
Den vorläufigen Höhepunkt markiert die Entdeckung einer Google-Chrome-Erweiterung, die mit einem lokal laufenden MCP-Server kommuniziert. Die Erweiterung verfügte über uneingeschränkten Zugriff, benötigte keine Authentifizierung und agierte, als sei sie integraler Bestandteil des Systems.
„Die potenziellen Auswirkungen sind gravierend und könnten zur vollständigen Kompromittierung des gesamten Systems führen“, so das Fazit von ExtensionTotal.
Meta bringt neue KI-Schutzmauer
Im Zuge dieser Entwicklungen hat Meta jetzt ein neues Open-Source-Framework mit dem Namen LlamaFirewallvorgestellt. Ziel ist es, KI-Systeme gegen Cyberrisiken wie Prompt Injection, Jailbreak-Angriffe und die Erzeugung unsicheren Codes zu schützen. Das Framework basiert auf drei Schutzkomponenten:
- PromptGuard 2 erkennt in Echtzeit direkte Jailbreak-Versuche und Prompt-Injection-Angriffe.
- Agent Alignment Checks analysiert das Entscheidungsverhalten von KI-Agenten, um Manipulationen wie Zielentführungen oder indirekte Eingriffe zu erkennen.
- CodeShield ist eine Online-Engine für statische Codeanalyse, die verhindern soll, dass KI-Agenten unsicheren oder gefährlichen Code generieren.
Laut Beschreibung auf GitHub ist LlamaFirewall als modulares Echtzeit-Framework konzipiert, das sich flexibel in KI-Anwendungen auf Basis großer Sprachmodelle (LLMs) integrieren lässt. Es ermöglicht es Entwicklerteams und Sicherheitsexperten, mehrschichtige Verteidigungslinien aufzubauen – von der Eingabeverarbeitung bis zur Ausgabe, sowohl bei einfachen Chatbots als auch bei komplexen autonomen Agenten.
Zusätzlich zur LlamaFirewall hat Meta überarbeitete Versionen von LlamaGuard und CyberSecEval veröffentlicht. Während LlamaGuard dazu dient, gängige problematische Inhalte besser zu erkennen, misst CyberSecEval die Cybersicherheits-Resilienz von KI-Systemen anhand definierter Testkriterien.