Gefahr durch Code-Poisoning: KI-Sicherheit im Fokus : Code-Poisoning: Schwachstelle für KI-Systeme
Cyberangreifer nutzen Code-Poisoning, um KI-Systeme zu manipulieren und Schwachstellen einzubauen. Besonders offene Modelle sind anfällig. Unternehmen müssen Sicherheitsstrategien entwickeln, um solche Angriffe zu verhindern und ihre digitale Infrastruktur zu schützen.
Es ist längst kein Geheimnis mehr, dass künstliche Intelligenz (KI) nicht nur für die Abwehr von Cyberbedrohungen, sondern auch aufseiten der Angreifer verwendet wird. Durch den freien Zugang zu KI-Systemen wie ChatGPT und anderen Large Language Modellen (LLM) ist das Schreiben von Code auch für technisch wenig versierte Angreifer möglich. Doch was viele nicht wissen: Angreifer können sich nicht nur bösartigen Code generieren lassen und diesen für schädliche Zwecke einsetzen. Sie können durch sogenanntes „Code Poisoning“ den KI-Code-Generator so manipulieren, dass dieser anfälligen Code erzeugt, der bereits Schwachstellen aufweist. Diese Schwachstellen können dann später von den Angreifern gezielt für ihre Zwecke ausgenutzt werden. Der auf diese Weise „vergiftete“ Code wird unbeabsichtigt zusammen mit sicherem Code in die von Unternehmen genutzte Software eingebaut. Die Angreifer können diese Backdoors gezielt ausnutzen, um in Systeme einzudringen und Schaden anzurichten.
Ein solches Vorgehen ist keine Theorie mehr, sondern schon heute Realität: Bereits zu Beginn des vergangenen Jahres zeigten die beiden Sicherheitsforscher Eoin Wickens und Kasimir Schulz in einem Beitrag, wie ein Angreifer den Konvertierungsraum des Hugging Face Safetensors und den damit verbundenen Service Bot kompromittieren konnten. Im Juli legten chinesische Forscher nach und veröffentlichten mit dem Paper „AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases“ eine Anleitung, wie sich mit AgentPoison, einem Backdoor-Angriff auf generische und RAG-basierte LLM-Agenten, der Long-term Memory oder die RAG-Wissensbasis vergiften lassen. Die hier aufgeführten Beispiele verdeutlichen das Gefahrenpotenzial, das von offenen oder in Eigenregie mit Open-Source-Tools entwickelten LLMs ausgeht.
Offene vs. geschlossene KI-Modelle
Unternehmen sollten bei allem Wirbel um LLM also auch aus Security-Sicht bedenken, ob sie auf offene oder geschlossene Modelle setzen. Sogenannte offene KI-Modelle sind für Angreifer einfacher zu manipulieren. Auch wenn sich diese Art des Code Poisonings aktuell noch in der Forschungsphase befindet und noch wenig reale Bedrohung ist, lässt sich dadurch ein zukünftiges Gefahrenpotenzial ableiten. Der Unterschied zu den geschlossenen KI-Modellen liegt darin, wer Zugang zu diesen Systemen hat. Offene KI-Systeme sind flexibel und können sich an neue Daten und Aufgaben anpassen, oft auch mit offenem Zugang zu ihren Algorithmen und Trainingsdaten. Sie sind in der Regel darauf ausgelegt, von der Community weiterentwickelt und verbessert zu werden. Geschlossene KI-Systeme dagegen sind restriktiver, haben feste Vorgaben und sind in der Regel nicht oder nur eingeschränkt zugänglich. Sie können keine neuen Daten verarbeiten oder ihre Funktionsweise ohne Eingriff der Entwickler ändern.
KI-Wettrüsten im Cyberraum
Auf der Seite der Verteidigung ergeben sich dadurch neue Herausforderungen. Je nach Unternehmen werden teilweise offene, teils geschlossene KI-Systeme benutzt. Die Entscheidung für eine Variante orientiert sich an Größe, Branche und dem Geschäftsmodell hinter dem jeweiligen LLM. Die Einsatzmöglichkeiten werden zusätzlich durch interne oder externe Compliance- und Datenschutzanforderungen eingeschränkt. Sowohl Compliance als auch Privacy sind derzeit noch eher ein Showstopper für den Einsatz von KI, weil Unternehmen oft mit der Einhaltung der Anforderungen überfordert sind.
Die Herausforderung liegt meistens in den hohen Auflagen für Cybersicherheit. Ein wichtiger Punkt ist die Unsicherheit im Bereich der Regulierung. Die Legislative hängt hier zweifellos hinterher, um für die entsprechenden Richtlinien zu sorgen, die Unternehmen beim Einsatz von KI beachten müssen. Gesetzgeber sind oft nicht in der Lage, mit den rasanten Entwicklungen im Hinblick auf KI Schritt zu halten. Der EU AI Act ist hier ein gutes Beispiel, da trotz Vorgaben noch viele Fragezeichen bei der Nutzung von KI im Unternehmen bestehen. Dies fällt auf die Sicherheitsteams zurück, wenn sie KI zur Verteidigung nutzen wollen, sei es durch selbst gebaute Modelle, durch Open Source oder kommerzielle Lösungen.
Angreifer machen sich diese Schwächen zunutze. Ähnlich der Verteidigung wird KI bereits zur Erkennung von Schwachstellen verwendet. Gerade in der Erkennung von Zero Days und in der Mustererkennung kommt sie zum Einsatz und kann hier für beide Seiten schneller Ergebnisse erzielen als ein menschlicher Penetration-Tester. Auf der Verteidigerseite kann mithilfe von Machine Learning die KI etwaige Abweichungen erkennen und gegebenenfalls darauf reagieren, indem mit dieser Hilfe Berechtigungen entzogen oder Warnungen erzeugt werden. Diese Meldungen können ausgewertet werden, um zu bestimmen, ob es sich um einen „Fehlalarm“ oder um eine echte Bedrohung handelt.
Zero Trust als Lösungsansatz
Sicherheitsteams sollten zur Lösung dieser Herausforderungen einen Zero-Trust-Ansatz verfolgen. Jede digitale Interaktion muss verifiziert werden, egal von welchem Gerät oder Nutzer sie kommt und welchen Workflow sie betrifft. Denn die Nutzung von KI kann und sollte nicht verhindert werden, allerdings muss Transparenz über Zugriff und Nutzung gegeben sein, damit die richtigen Schutzmechanismen auf Basis der Kritikalität der Daten angewendet werden können.
Dabei spielt KI eine entscheidende Rolle. Denn diese erkennt Muster schnell, die beispielsweise an bereits blockierte Angriffsversuche erinnern. Dazu müssen die Trainingsdaten immer aktuell gehalten und Schwachstellen kommuniziert werden. Dafür sind die darunterliegenden Datenquellen entscheidend, nicht die KI oder das LLM an sich. Die Datenquellen müssen hochwertig sein, um aus ihnen die entsprechenden Informationen zu ziehen.
Dies ist ein enormer Vorteil bei der Gewährleistung der Datensicherheit, spart Security-Administratoren Zeit und reduziert in mehrfacher Hinsicht den Aufwand. Sie können vertrauliche Daten aus den Quellen automatisch erkennen, ohne dass sie dafür umfangreiche Richtlinien konfigurieren müssen und diese Daten entsprechend schützen. Generell ist das Thema Datensicherheit bei KI-Modellen nicht zu unterschätzen, denn neben der Gefahr der Verfälschung besteht auch das Risiko einer Kompromittierung dieser Daten über die Hintertür.
Ausblick
Die Verbreitung, die KI in den digitalen Geschäftsmodellen findet, bedarf eines Schutzes vor aktuellen wie zukünftigen Bedrohungen. Eine ernst zu nehmende Bedrohung geht schon heute von KI-Code-Poisoning aus. Um ihre KI-Modelle vor Fremdeinwirkung abzusichern, tun die Verantwortlichen gut daran, passende Sicherheitsstrategien für diesen speziellen Anwendungsfall in das Sicherheitsgesamtkonzept zu integrieren.
Kevin Schwarz ist Principal Transformation Strategy bei Zscaler.