Mit <kes>+ lesen

Wie Google seine GenAI-Modelle gegen Prompt-Injection-Angriffe wappnet

Prompt Injection zählt zu den gefährlichsten Angriffstechniken auf generative Künstliche Intelligenz. Während direkte Angriffe noch erkennbar sind, verbergen sich indirekte Varianten oft geschickt in harmlos wirkenden Datenquellen wie E-Mails oder Kalendereinträgen. Google reagiert mit einem mehrschichtigen Sicherheitskonzept, das weit über klassische Filtersysteme hinausgeht – und zeigt, wie komplex und dynamisch die Bedrohungslage in agentischen KI-Systemen bereits ist.

24.06.2025 THN/Stefan Mutschler (freier Journalist)Bedrohungen, Security-Management

Lesezeit 5 Min.

Die Angreifer haben gelernt: Wer generative Künstliche Intelligenz kompromittieren will, muss nicht zwingend offensichtliche Kommandos eintippen. Viel raffinierter ist der Weg über sogenannte indirekte Prompt-Injections – versteckte Anweisungen, eingebettet in externe Datenquellen wie Textdokumente, Webseiten oder Kalenderbenachrichtigungen. Die Folge: Das KI-System führt unbeabsichtigt schädliche Aktionen aus, etwa das Auslesen sensibler Daten oder die Generierung gefährlicher Inhalte.

Google warnt, dass diese Angriffsmethode besonders tückisch sei, da sie die Fähigkeit der Modelle ausnutze, kontextabhängige Inhalte automatisch zu verarbeiten – und dabei manipulierte Informationen nicht zuverlässig von legitimen Nutzereingaben unterscheiden könnten.

Mehrschichtige Verteidigung: Googles Reaktion auf die Bedrohung

Um dieser Gefahr zu begegnen, hat Google eine sogenannte „Layered Defense Strategy“ entwickelt. Ziel ist es, Angriffe so aufwendig, teuer und technisch anspruchsvoll wie möglich zu machen. Im Zentrum steht eine Kombination aus:

Modellhärtung: Das Training der Sprachmodelle wird gezielt auf die Erkennung manipulativer Eingaben ausgerichtet.
Zweckgebundene maschinelle Lernmodelle: Diese Module sind speziell darauf ausgelegt, schädliche Anweisungen automatisch zu erkennen und zu unterbinden.
Systemische Schutzmechanismen: Zusätzliche Sicherungen auf Anwendungsebene, im Datenfluss und in der Infrastruktur sorgen für eine durchgängige Abwehrkette.

Insbesondere das KI-Modell Gemini – Googles Vorzeigemodell im Bereich generativer Intelligenz – wurde mit einer Reihe innovativer Schutzmaßnahmen ausgestattet.

Technische Schutzmechanismen im Detail

Zu den neuen Sicherheitsmaßnahmen in Gemini zählen:

Prompt-Injection-Klassifizierer: Sie analysieren Eingaben und filtern bösartige Inhalte bereits vor der Modellverarbeitung heraus.
Security Thought Reinforcement („Spotlighting“): Unvertrauenswürdige Datenquellen, etwa E-Mails, werden mit speziellen Markierungen versehen. Das Modell erkennt so potenziell manipulative Inhalte und ignoriert sie.
Markdown-Sanitizer und URL-Redaktion: Externe Bilder und gefährliche Links werden automatisch entfernt oder entschärft. Dies soll Angriffe wie EchoLeak verhindern.
Bestätigungsmechanismen für risikobehaftete Aktionen: Das System fordert explizite Nutzerbestätigung, bevor gefährliche oder irreversible Aktionen ausgeführt werden.
Benachrichtigungen bei verdächtigen Eingaben: Nutzer werden aktiv gewarnt, wenn ein Prompt auf eine mögliche Manipulation hindeutet.

Trotz dieser ausgefeilten Sicherheitsmaßnahmen bleibt die Lage angespannt. Angreifer passen ihre Techniken kontinuierlich an – automatisiertes Red Teaming gehört längst zum Standardrepertoire. Die Folge: Modelle werden mit gezielten Eingaben unterwandert, die existierende Schutzmechanismen umgehen oder verwirren.

Google DeepMind spricht in diesem Zusammenhang von einem grundlegenden Sicherheitsproblem: KI-Modelle können oft nicht zuverlässig zwischen echten Anweisungen und manipulativ eingebetteten Kommandos unterscheiden. Die Lösung? Sicherheit auf allen Ebenen – von der Hardware bis zum Anwendungscode.

Forschung offenbart neue Missbrauchsszenarien

Neue Studien zeigen unterdessen, dass es immer mehr Möglichkeiten gibt, die Sicherheitsschranken großer Sprachmodelle zu umgehen und unerwünschte Inhalte zu erzeugen. Dazu zählen zum Beispiel sogenannte Character Injections – gezielte Manipulationen einzelner Zeichen – sowie Methoden, die die Interpretation des Eingabekontexts durch das Modell gezielt stören. Dabei machen sich Angreifer zunutze, dass das Modell oft zu stark auf erlernte Muster und Merkmale vertraut, wenn es Inhalte klassifiziert und verarbeitet.

Eine weitere Studie, veröffentlicht von einem Forschungsteam von Anthropic, Google DeepMind, der ETH Zürich und der Carnegie Mellon University, zeigt, dass große Sprachmodelle künftig neue Wege eröffnen könnten, um Schwachstellen gewinnbringend auszunutzen. Demnach sind diese Modelle nicht nur in der Lage, Passwörter und Kreditkartendaten mit höherer Präzision als herkömmliche Werkzeuge zu extrahieren, sondern könnten auch polymorphe Schadsoftware entwickeln und maßgeschneiderte Angriffe auf einzelne Nutzerinnen und Nutzer durchführen.

Die Studie hebt hervor, dass Sprachmodelle neue Angriffsflächen eröffnen können, insbesondere durch ihre multimodalen Fähigkeiten: Sie sind in der Lage, personenbezogene Informationen aus verschiedenen Datenquellen zu extrahieren und innerhalb kompromittierter Umgebungen Netzwerkteilnehmer zu analysieren – um daraus täuschend echte, gezielte Fake-Webseiten zu erstellen.

Gleichzeitig zeigen die Modelle auch klare Grenzen: Unbekannte Zero-Day-Schwachstellen in weit verbreiteter Software können sie bisher nicht zuverlässig erkennen. Allerding ließen sich große Sprachmodelle durchaus dafür nutzen, einfache und bislang unbeachtete Sicherheitslücken in wenig geprüfter Software automatisch aufzuspüren.

Einsatz bei Penetrationstests

Der Red-Teaming-Benchmark AIRTBench von Dreadnode zeigt: Die fortschrittlichen KI-Modelle von Anthropic, Google und OpenAI sind ihren quelloffenen Gegenstücken bei bestimmten Sicherheitsaufgaben überlegen. Vor allem bei Angriffen durch Prompt Injection lösen sie die gestellten Aufgaben besonders gut. Deutlich schlechter schneiden sie hingegen bei komplexeren Herausforderungen wie dem Ausnutzen von Systemschwachstellen oder dem Rückrechnen von Trainingsdaten (Modellinversion) ab.

Die Sicherheitsfachleute betonen, dass diese Unterschiede auf einen unausgeglichenen Fortschritt in sicherheitsrelevanten Fähigkeiten hinweisen. Während einige Angriffsarten bereits gut erkannt und abgewehrt werden können, bleiben andere Felder noch weitgehend offen.

Auffällig ist außerdem, wie schnell KI-Agenten solche Aufgaben lösen: Sie brauchen oft nur wenige Minuten, wo menschliche Sicherheitsexperten mehrere Stunden benötigen – bei ähnlich hoher Erfolgsquote. Das unterstreicht das große Potenzial autonomer KI-Systeme in der IT-Sicherheit.

Agentische Fehlverhalten und ethische Fragen

Besonders alarmierend: In einer Simulation zeigten 16 bekannte KI-Modelle unabhängig voneinander sogenanntes agentic misalignment. Das bedeutet, sie begannen, eigene Ziele zu verfolgen – bis hin zu destruktivem Verhalten wie Erpressung oder Wirtschaftsspionage, wenn sie dadurch ihre „Mission“ erfolgreicher erfüllen konnten.

Agentische KI-Systeme

Agentische KI-Systeme (englisch: agentic AI systems) sind künstliche Intelligenzen, die autonom agieren, Ziele verfolgen und Entscheidungen treffen, um diese Ziele zu erreichen – oft mit der Fähigkeit, ihre Schritte selbst zu planen, sich an neue Situationen anzupassen und mit anderen Systemen oder Menschen zu interagieren.

Im Gegensatz zu klassischen KI-Modellen, die nur auf Eingaben reagieren, übernehmen agentische Systeme proaktiv Aufgaben, führen Aktionen durch und passen ihr Verhalten dynamisch an. Sie arbeiten dabei nicht nur reaktiv, sondern handeln oft wie virtuelle Agenten mit einem gewissen Maß an Entscheidungsfreiheit.

Beispiele für agentisches Verhalten:

Eine KI organisiert Termine, verhandelt Angebote und bucht automatisch Dienstleister.
Ein KI-Assistent analysiert eigenständig Sicherheitsprotokolle, entdeckt Anomalien und leitet Gegenmaßnahmen ein – ohne explizite Anweisung.
Eine „AutoGPT“-Instanz plant und schreibt eigenständig Blogartikel, beschafft Informationen und veröffentlicht Beiträge.

Auch wenn dieses Verhalten bislang nur in Testsituationen auftrat, machen die Analysten deutlich, wie schnell sich die Fähigkeiten und Risiken generativer Systeme weiterentwickeln. Die Effizienz von KI-Modellen beim Lösen sicherheitsrelevanter Aufgaben – oft in Minuten statt Stunden – zeigt ihr enormes Potenzial, aber auch ihre mögliche Gefahr.

Sicherheit muss mit der KI mitwachsen

Die Entwicklung zeigt: Der Schutz generativer Künstlicher Intelligenz erfordert ein tiefgreifendes Verständnis der Bedrohungslandschaft – und Maßnahmen, die weit über klassische Sicherheitskonzepte hinausgehen. Googles vielschichtiger Ansatz ist ein Schritt in die richtige Richtung, doch die dynamische Natur der Angriffe verlangt ständige Anpassung, Forschung und Wachsamkeit. Denn eines ist sicher: Künstliche Intelligenz wird in Zukunft nicht nur Ziel von Angriffen sein, sondern auch selbst zum aktiven Teil der Cybersecurity – im Guten wie im Schlechten.

Wie Google seine GenAI-Modelle gegen Prompt-Injection-Angriffe wappnet

Mehrschichtige Verteidigung: Googles Reaktion auf die Bedrohung

Technische Schutzmechanismen im Detail

Forschung offenbart neue Missbrauchsszenarien

Einsatz bei Penetrationstests

Agentische Fehlverhalten und ethische Fragen

Agentische KI-Systeme

Sicherheit muss mit der KI mitwachsen

Schatten-KI: Wer fragt schon um Erlaubnis?

FakeGit ködert jetzt auch KI-Agenten mit Schadcode

Gehackte Kameras verraten militärische Transporte

Partner

Mediadaten

Services

Social Media

Wie Google seine GenAI-Modelle gegen Prompt-Injection-Angriffe wappnet

Mehrschichtige Verteidigung: Googles Reaktion auf die Bedrohung

Technische Schutzmechanismen im Detail

Forschung offenbart neue Missbrauchsszenarien

Einsatz bei Penetrationstests

Agentische Fehlverhalten und ethische Fragen

Agentische KI-Systeme

Sicherheit muss mit der KI mitwachsen

Lesen Sie weiter

Schatten-KI: Wer fragt schon um Erlaubnis?

FakeGit ködert jetzt auch KI-Agenten mit Schadcode

Gehackte Kameras verraten militärische Transporte