Reprompt-Angriff: Wie ein Klick genügt, um Copilot-Daten unbemerkt abzugreifen : Neue Angriffstechnik missbraucht Microsoft Copilot als unsichtbaren Kanal für Datenklau
Ein einziger Klick auf einen scheinbar harmlosen Link kann ausreichen, um sensible Informationen über einen KI-Chatbot abzuziehen. Sicherheitsexperten haben mit „Reprompt“ eine Angriffstechnik offengelegt, die Sicherheitsmechanismen umgeht und Microsoft Copilot in einen verdeckten Exfiltrationskanal verwandelt.
Security-Spezialisten von Varonis haben eine neue Angriffsmethode mit dem Namen Reprompt analysiert, die gezielt auf KI-gestützte Assistenzsysteme abzielt. Der Kern des Problems liegt in der Art und Weise, wie große Sprachmodelle Anweisungen verarbeiten. Sie unterscheiden nicht zuverlässig zwischen Eingaben durch den Nutzer und Instruktionen, die indirekt über externe Quellen eingebettet werden. Genau diese Schwäche nutzt Reprompt aus.
„Ein einziger Klick auf einen legitimen Microsoft-Link reicht aus, um Opfer zu kompromittieren“, erklärt der Varonis-Sicherheitsforscher Dolev Taler. Besonders brisant ist dabei, dass keinerlei aktive Nutzung des Chatbots erforderlich ist. „Keine Plugins, keine Interaktion mit Copilot“, so Taler weiter. Selbst wenn das Chatfenster geschlossen wird, bleibt die Kontrolle beim Angreifer. Die Sitzung kann im Hintergrund weiter ausgelesen werden, ohne dass der Nutzer davon etwas bemerkt.
Technischer Aufbau des Reprompt-Angriffs
Auf technischer Ebene kombiniert Reprompt mehrere Mechanismen zu einer durchgängigen Exfiltrationskette:
- Nutzung des URL-Parameters „q“, um manipulierte Anweisungen direkt über einen Link an Copilot zu übergeben
- Umgehung der Schutzmechanismen gegen Datenabfluss, indem Copilot gezielt dazu gebracht wird, jede Anfrage zweimal auszuführen. Die internen Sicherheitsprüfungen greifen nur beim ersten Durchlauf, während der zweite unbehelligt bleibt.
- Aufbau einer fortlaufenden Befehlskette, bei der Copilot über Rückfragen kontinuierlich neue Daten an den Server des Angreifers übermittelt
Der initiale Link wirkt dabei vollkommen legitim. Nach dem Klick führt Copilot die über den Parameter eingeschleusten Prompts aus. Anschließend übernimmt ein externer Server die Steuerung und sendet fortlaufend neue Anweisungen. Diese Nachfolgeprompts sind für Sicherheitslösungen nicht einsehbar, da sie nicht mehr Teil der ursprünglichen Anfrage sind.
Unsichtbare Datenabflüsse mit hoher Reichweite
In einem realistischen Angriffsszenario lassen sich auf diese Weise Informationen abrufen, etwa Zusammenfassungen der zuletzt genutzten Dateien, der Wohnort des Nutzers oder geplante Urlaubszeiten. Besonders kritisch ist dabei, dass sich der Datenabfluss dynamisch weiterentwickelt. Gewinnt der Angreifer aus ersten Antworten Hinweise auf die Branche des Opfers, kann er gezielt nach noch sensibleren Details fragen.
Varonis bringt es so auf den Punkt: „Es gibt keine Begrenzung für Art oder Umfang der abgegriffenen Daten.“ Da alle weiteren Befehle vom Server kommen, lässt sich allein anhand des Startlinks nicht erkennen, welche Informationen tatsächlich exfiltriert werden. „Die eigentlichen Anweisungen sind in den Folgeanfragen des Servers verborgen“, heißt es weiter.
Ein blinder Fleck für Sicherheitskonzepte
Reprompt schafft damit einen gefährlichen blinden Fleck in bestehenden Sicherheitsarchitekturen. Weder klassische Webfilter noch KI-spezifische Schutzmechanismen schlagen zuverlässig an, da kein verdächtiges Nutzerverhalten vorliegt. Copilot wird zum unsichtbaren Transportkanal für Daten, ohne Plugins, ohne Konnektoren und ohne weitere Benutzerinteraktion.
Microsoft hat nach verantwortungsvoller Meldung reagiert und die Schwachstelle adressiert. Unternehmenskunden mit Microsoft 365 Copilot sind laut Hersteller nicht betroffen. Dennoch zeigt der Vorfall eindrücklich, dass KI-Systeme neue Angriffsflächen schaffen, die sich nicht mit traditionellen Sicherheitsmodellen abdecken lassen.
Breite Angriffswelle auf KI-Assistenten
Die Offenlegung fällt zeitlich mit der Entdeckung einer ganzen Reihe gezielter Angriffstechniken zusammen, die sich gegen KI-gestützte Werkzeuge richten und bestehende Schutzmechanismen umgehen. Einige dieser Angriffe werden bereits durch alltägliche Aktionen ausgelöst, etwa durch eine gewöhnliche Suchanfrage.
Zu den identifizierten Techniken zählt ZombieAgent, eine Schwachstelle und Variante von ShadowLeak, die Verbindungen von ChatGPT zu Drittanbieter-Anwendungen missbraucht. Indirekte Prompt-Injektionen werden so zu Zero-Click-Angriffen. Der Chatbot wird in ein Werkzeug zur Datenexfiltration verwandelt, indem Informationen Zeichen für Zeichen über vorbereitete Internetadressen übertragen werden. Alternativ können Angreifer durch eingeschleuste Anweisungen im Speicher des Systems dauerhafte Kontrolle erlangen.
Ebenfalls kritisch ist die Angriffsmethode Lies-in-the-Loop (LITL). Sie nutzt das Vertrauen der Nutzer in Bestätigungsdialoge aus und kehrt einen eigentlich schützenden Human-in-the-Loop-Mechanismus ins Gegenteil. Betroffen sind unter anderem Anthropic Claude Code sowie Microsoft Copilot Chat. Der Angriff ist auch unter dem Namen HITL Dialog Forging bekannt.
Versteckte Instruktionen und neue Exfiltrationspfade
Mit GeminiJack wurde eine Schwachstelle in Gemini Enterprise identifiziert, bei der Angreifer versteckte Anweisungen in gemeinsam genutzten Google-Dokumenten, Kalendereinladungen oder E-Mails platzieren können, um potenziell sensible Unternehmensdaten abzugreifen.
Weitere Prompt-Injektionsrisiken betreffen Perplexity Comet, bei dem die Schutztechnologie BrowseSafe umgangen werden kann, sowie CellShock, eine Schwachstelle in Anthropic Claude für Excel. Letztere erlaubt es, über manipulierte Datenquellen unsichere Formeln zu erzeugen, die Dateien des Nutzers heimlich an einen Angreifer übertragen.
Auch Cursor und Amazon Bedrock sind betroffen. Angreifer können hier durch gezielte soziale Manipulation selbst ohne Administratorrechte Budgetgrenzen verändern und Programmierschnittstellen-Schlüssel abgreifen. Auf diese Weise lassen sich Unternehmensressourcen unbemerkt und in großem Umfang missbrauchen.
Systemische Risiken und Handlungsempfehlungen
Besonders gravierend ist GATEBLEED, eine Schwachstelle auf Hardware-Ebene. Sie ermöglicht es Angreifern mit Zugriff auf Server mit Beschleunigern für maschinelles Lernen, Rückschlüsse auf verwendete Trainingsdaten und andere vertrauliche Informationen zu ziehen. Zusätzlich wurden Angriffe auf das Sampling des Model Context Protocols (MCP) bekannt, bei denen stillschweigende Vertrauensannahmen ausgenutzt werden. So lassen sich Rechenkontingente gezielt aufbrauchen, versteckte Werkzeugaufrufe auslösen oder sensible Daten unbemerkt abziehen.
Darüber hinaus wurden indirekte Prompt-Injektionsschwachstellen in Claude Cowork, Superhuman AI, IBM Bob, Notion AI, Hugging Face Chat, Google Antigravity und Slack AI identifiziert, die ebenfalls Datenabflüsse ermöglichen.
Die Ergebnisse verdeutlichen, dass Prompt-Injektionen ein dauerhaftes strukturelles Risiko darstellen. Empfohlen werden mehrschichtige Verteidigungsansätze, der Verzicht auf erhöhte Rechte für sensible Werkzeuge sowie eine strikte Begrenzung des agentischen Zugriffs auf geschäftskritische Informationen.
Als einfache Grundregel rät Dor Yardeni, Leiter der Sicherheitsforschung bei Varonis, davon ab, Links aus unbekannten Quellen zu öffnen. Das gilt besonders für Verweise auf KI-Assistenten, selbst wenn sie auf den ersten Blick zu einer vertrauenswürdigen Internetadresse führen. Zudem sollten in Chats grundsätzlich keine persönlichen Informationen oder Inhalte geteilt werden, die für Erpressung oder Missbrauch geeignet wären.
Auch Noma Security weist darauf hin, dass mit zunehmender Eigenständigkeit von KI-Agenten die möglichen Schäden durch einzelne Schwachstellen stark anwachsen. Unternehmen sind daher gefordert, klare Vertrauensgrenzen festzulegen, wirksame Überwachungsmechanismen einzusetzen und neue Erkenntnisse aus der KI-Sicherheitsforschung kontinuierlich in ihre Schutzkonzepte einfließen zu lassen.
KI braucht neue Sicherheitslogiken
Der Reprompt-Angriff verdeutlicht, dass die größte Schwäche moderner KI-Systeme nicht im Modell selbst liegt, sondern in der fehlenden Trennung zwischen vertrauenswürdigen und nicht vertrauenswürdigen Instruktionen. Solange Sprachmodelle externe Inhalte wie interne Befehle behandeln, bleiben indirekte Prompt-Injektionen ein hohes Risiko. Für Unternehmen bedeutet das, KI-Sicherheitsstrategien grundlegend neu zu denken und über klassische Schutzmechanismen hinauszugehen.
