Bessere Cybersicherheit für KI
Unser Autor fasst aktuelle Ergebnisse aus der Forschung zu Gefährdungen für KI/Machine-Learning zusammen, stellt erfolgreiche Angriffsvektoren dar und gibt praktische Hinweise zur Risiko-Minimierung.
Dass Anwendungen und Systeme der künstlichen Intelligenz (KI) in allen Bereichen der Wirtschaft und Gesellschaft an Bedeutung gewinnen, muss dazu führen, dass Zivilgesellschaft, Wirtschaft und Politik Ziele und Handlungsfelder definieren, um KI vor Cyberangriffen zu schützen. Denn KI-Anwendungen haben prinzipiell hohe Angriffsoberflächen – beginnend bei den Datenquellen, welche die Basis für maschinelles Lernen bereitstellen, über Datenspeicher in der Cloud und Werkzeuge zur Datenaufbereitung bis schlussendlich hin zum eigentlichen Training und Betrieb.
Die Vielzahl der involvierten Systeme, die Komplexität der IT-Architekturen und die mathematischen Eigenschaften eines KI-Systems stellen die Absicherung vor große und spezielle Herausforderungen. Zum einen muss dafür das notwendige fachliche Know-how vorhanden sein, zum anderen ist KI-Cybersicherheit ein ständiger Wettlauf, bei dem die Abwehr auf verblüffend kreative Angriffstechniken reagieren muss und ständig das eigene Wissen und die eigenen Fähigkeiten an neue Angriffssituationen anzupassen hat.
Angriffe mittels Data-Poisoning, also dem gezielten Einstreuen manipulierter, „vergifteter“ Datensätze liefern hierfür ein sehr anschauliches Beispiel: Die Aussagequalität maschineller Lernmodelle wird wesentlich von der Qualität und Quantität der Daten beeinflusst, mit denen sie konfrontiert werden. Data-Poisoning kann man sowohl auf die von einem Modell zu analysierenden Daten als auch auf Daten für das Training von KI-Modellen anwenden. Werden diese Daten nicht systematisch auf ihre Korrektheit hin überprüft, haben Angreifer die Möglichkeit, absichtlich manipulierte Daten einzuschleusen – mit dem Ziel, die Aussagen des Modells zu kompromittieren.
Potenziell gefährdet sind nahezu alle bekannten und populären KI-Methoden, von Deep-Learning in neuronalen Netzen bis zum Supervized Learning bei Methoden, die auf statistischer Regression basieren. Beim Angriff auf Trainingsdatensätze versuchen Angreifer beispielsweise Auszeichnungen (sog. Labels) gezielt zu verändern oder Werte in Datensätzen zu verändern. Angreifer können solche Manipulationen verschleiern, indem sie nicht alle Trainingsdaten beeinflussen, sondern einzelne manipulierte Datensätze in einer statistischen Verteilung in Trainingsdaten einstreuen.
Adversarial Attacks
Besonders verblüffend und beeindruckend sind Adversarial Attacks auf Bilderkennungen mittels neuronaler Netze: Hier führen Manipulationen von Bilddaten zu grotesk und bizarr falsch anmutenden Ergebnissen in der Erkennung von Bildgegenständen durch neuronale Netze: Beispielsweise beharrt das neuronale Netz dann darauf, dass das Bild einer Schildkröte ein Gewehr darstellt.
Diese fehlerhafte Klassifikation wird durch eine für das menschliche Auge nicht wahrnehmbare Manipulation von Pixelwerten im Bild erzielt, das hierzu mit einem Rauschmuster überlagert wird. Während Menschen auf dem „verrauschten“ Bild problemlos eine Schildkröte erkennen, gerät das neuronale Netz in ernstliche Schwierigkeiten.
Die menschliche Wahrnehmung unterscheidet sich bei der Bilderkennung fundamental von der auf mathematischen Regeln basierenden Entscheidungsfindung im neuronalen Netz. Menschen identifizieren eine Schildkröte über visuell erkannte Mustergruppen: Kopf, Panzer und Füße. Das neuronale Netz erkennt Gegenstände hingegen über den mathematischen Vergleich einzelner Pixel, deren erlernter Nachbarschaft mit anderen Pixeln sowie den Farbwerten für rot, grün und blau (RGB), um zu einer Klassifikation eines Bilds zu gelangen.
Das „Rauschen“ entspricht einer signifikanten Veränderung von Eingabewerten (RGB) einzelner Pixel. Auch wenn diese nur minimale mathematische Abweichungen darstellen, können sie zu einer Fehlentscheidung einzelner Neuronen im neuronalen Netz führen. Die Kunst des Angreifers besteht darin, ein Rauschen zu erzeugen, das die einzelnen Neuronen im gestaffelten Entscheidungsprozess mit einer überwiegend hohen Wahrscheinlichkeit in eine Fehlentscheidung kippen lässt. Andere bekannte Beispiele führen beispielsweise in Systemen des autonomen Fahrens zu einer fatalen Fehlinterpretation bei der Verkehrszeichenerkennung: Durch gezieltes Einstreuen von „Rauschen“ mittels weniger Klebestreifen auf einem Stoppschild, erkennt das KI-System dann beispielsweise ein Verkehrszeichen für Tempo 30 – statt zu halten, fährt das autonome Fahrzeug ergo (wenn auch langsam) weiter. Zwar ist diese Manipulation auch für das menschliche Auge sichtbar, die drastischen Auswirkung einiger Klebestreifen auf das KI-System sind allerdings für den menschlichen Betrachter nicht prognostizierbar.
Data-Poisoning
Die richtige Abwehrstrategie kann nur in Abhängigkeit des KI-Anwendungssystems gewählt werden. So erfordern beispielsweise Angriffe auf Eingabedaten zur Bilderkennung mittels neuronaler Netze eine andere Strategie als das Erkennen von „Verunreinigungen“ bei Trainingsdaten für KI-Methoden, die auf statistischen Regressionen basieren – Letztere sind weniger komplexe KI-Methoden, zählen aber zu den am häufigsten genutzten KI-Anwendungen in der Praxis.
Universal gilt jedoch: Jeder KI-Workflow beginnt mit der Qualität der Eingangsdaten! Eine vertrauenswürdige KI-Anwendung erfordert also, die Datenqualität der Eingabedaten stetig zu kontrollieren, um Manipulationen erkennen zu können – oder aber Datensätze über Filtermethoden zu „entschärfen“. Datenelemente, die eine schädliche Auswirkung auf das Ergebnis haben können, müssen also entweder entfernt, transferiert oder statistisch minimiert werden. Eingangsdaten sollten immer einem strengen Monitoring und dann, je nach KI-Anwendung, einer systematischen „Entschärfung“ unterzogen werden, um böswilliges Data-Poisoning abzuwehren.
Erkennen und Reagieren
Bei der Bilderkennung mittels neuronaler Netze lässt sich der Angriff bei visuell erkennbaren Mustern – beispielsweise bei Klebestreifen auf Verkehrsschildern – teilweise für einen menschlichen Betrachter leicht erkennen. Die Sichtprüfung durch den Menschen ist der KI hier oftmals überlegen.
Schwieriger ist es bei Angriffen, die ein subtiles Rauschen in einen Video-Stream oder ein Bild einlagern: Ein solches Rauschen ist, wie angesprochen, für das menschliche Auge quasi unsichtbar und auch über mathematische Auswertungen nicht zuverlässig zu identifizieren. Die Abwehrstrategie besteht hier daher in der „Entschärfung“ der Bildinformation: Für viele Anwendungen der Muster- und Bilderkennung verfügt das eingehende Datenmaterial über eine wesentlich höhere (Informations-)Auflösung als diejenige, die das System zur zuverlässigen Klassifikation benötigt.
Diese „Überinformation“ ermöglicht erst, einen Angriff mittels Rauschüberlagerung durchzuführen, denn dieser benötigt einen großen Informationsraum mit sehr viel Entscheidungstiefe im neuronalen Netzwerk, die durch Rauschüberlagerung zu statisch signifikanten Fehlentscheidungen einzelner Neuronen – und am Ende des gesamten Entscheidungslaufs – im Netzwerk führt: so wird für das neuronale Netz aus der Schildkröte im Bild ein Gewehr.
Eine effektive Methode zur Abwehr solcher Angriffe besteht in der Reduktion der Informationsdichte im Bild, die es dem Angreifer erschwert ein Rauschmuster mit effektiver Wirkung einzuschleusen. Dies kann beispielsweise durch eine Reduktion der Farbtiefe erfolgen – man könnte etwa ein Bild mit 16 Bit Farbtiefe pro Kanal auf 8 Bit pro Farbkanal reduzieren. Dabei geht zwar Farbinformation im Bild verloren, doch der abgebildete Gegenstand bleibt für Mensch und KI weiterhin deutlich identifizierbar. Angreifer schränkt die Reduktion der Farbkanäle allerdings erheblich ein, da sie wesentlich weniger mathematischen Spielraum für die Erzeugung eines wirksamen Rauschmusters erhalten.
Andere Methoden erzeugen etwa aus brillanten, scharfen Bildern ein Bild mit einer gewissen Unschärfe, in dem benachbarte Pixelwerte zusammengefasst und angeglichen werden. Dabei verschwinden die mathematisch eingestreuten Rauschmuster und werden unwirksam. Die Bildunschärfe ist allerdings so gewählt, dass die wesentlichen Eigenschaften des Bildgegenstands von der KI noch mit einer guten Zuverlässigkeit zur Klassifikation erkennbar bleiben.
Beide beschriebenen Abwehrmethoden sind in ihrer Wirksamkeit stark abhängig vom Ziel der KI-Anwendung: Eine Gesichtserkennung lässt sich beispielsweise zuverlässig auf Basis von Bildern mit verringerter Farbinformation und Auflösung durchführen, wogegen die Diagnostik von Röntgen- oder Satellitenbildern oft mit hochauflösenden Daten und Bildinformationen arbeiten muss, damit die Entscheidungen des Systems bei manipulierten Daten statistisch zuverlässig ausfallen. Hier ist die Reduktion der Bildinformation für die Abwehr von Data-Poisoning keine Lösung, da diese auch die Entscheidungen bei legitimen Bildern negativ beeinflussen würde. Das bedeutet wiederum, dass solche Anwendung einer besonders hohen Gefahr durch Data-Poisoning ausgesetzt sind, da sich Filtermethoden nur sehr eingeschränkt zum Schutz eignen.
Statistik for the win!
Bei der Gruppe des maschinellen Lernens mittels Regressionsmodellen lässt sich ein Angriff per Data-Poisoning über statistische Filteroperationen entschärfen. Ein solcher Angriff zielt in der Regel auf die Veränderung von Werten oder Labels, um falsche Klassifikationen zu erzielen. Dabei muss der Angreifer Abweichungen oder fehlerhafte Labels über den gesamten Datenraum in den Trainingsdaten einstreuen. Ein solcher Angriff erfordert also eine große Menge manipulierter Datensätze im Bezug zur Gesamtmenge der im Training verwendeten Daten.
Praktisch gesehen können Angreifer beispielsweise die Datenquellen (z. B. Sensoren) manipulieren oder Informationen im Datenspeicher verändern. Damit das nicht auffällt, werden die Daten dabei im Idealfall über einen langen Zeitraum und möglichst inkrementell verändert. Das Ziel ist es, die Aussagen des KI-Modells in eine gewünschte Richtung zu verschieben und so den Ergebnisraum der Aussagen zu beeinflussen.
Zur Abwehr eignen sich statistische Strategien: Beispielsweise kann die Menge der Trainingsdatensätze über mathematische Filter die Werte in einem Datensatz identifizieren, die außerhalb eines definierten Werteraums liegen und diese Datenpunkte dann aus dem Trainingssatz ausschließen. So entfernt man beispielsweise ungewöhnliche Spitzen und Kanten im Datenraum, die durch Data-Poisoning eingestreut wurden, ohne die Aussagekraft des KI-Trainingsdatensatzes negativ zu beeinflussen. Allerdings stößt diese Methode ebenfalls an Grenzen: Sie erfordert einerseits hohe Datenmengen, damit nach der Bereinigung noch ausreichend Datensätze übrig bleiben – und sie kann andererseits bei falscher Anwendung zu einem zu starken Verengen oder Angleichen des Datenraums führen, wodurch die Aussagen des KI-Modells in ihrer Zuverlässigkeit leiden können.
Gefahrenpotenzial
Leistungsstarke KI gilt als wichtige Schlüsseltechnologie, die das Wirtschaftswachstum in allen Branchen und Bereichen fördert und zukünftige Erfolge ermöglichen soll. In der Cybersecurity ist der Angriff auf KI-Systeme zu einer ständigen Forschungsdisziplin geworden – jedem wissenschaftlichen KI-Entwicklungsfortschritt schließt sich eine Erforschung der Methoden für Angriffe auf das KI-System an.
Data-Poisoning ist vorwiegend noch eine wissenschaftliche Disziplin – die Ergebnisse sind teilweise spektakulär, in der Praxis werden solche Anwendungen jedoch noch nicht von Cyberkriminellen als Standardziele genutzt. Ein Grund hierfür ist sicherlich, dass im Moment die Anzahl der für Kriminelle lohnenden Ziele noch zu eingeschränkt ist.
Doch mit Zunahme von KI-Anwendungen in unserem Alltag ändert sich hier die Bedrohungslage. Das autonome Fahren ist dafür ein Beispiel: Der Angriff auf einzelne Versuchsfahrzeuge interessiert die Cybersecurity Community und Ingenieure – doch zum jetzigen Zeitpunkt noch keine kriminelle Organisation. Wenn allerdings autonome Fahrzeuge die Regel sind und in großen Mengen unsere Straßen befahren, werden diese mit hoher Wahrscheinlichkeit zu lohnenden Zielen krimineller Akteure.
Chatbot-Vorfall mit Awareness-Folgen
Schon 2016 scheiterte ein öffentliches KI-Experiment von Microsoft an Data-Poisoning: Microsofts Twitter-Chat-Bot Tay sollte seine Fähigkeit zur Kommunikation im Dialog mit Twitter-Followern verbessern und zu einer natürlichsprachlichen Konversation ausbauen. Tay lernte sein Kommunikationsverhalten aus den Kommentaren und Nachrichten seiner Follower. Schnell hatte eine Gruppe von Usern erkannt, dass sie Tays Verhalten über die Aussagen in den eigenen Kommentaren beeinflussen konnten. Ausschlaggebend war letztlich ein Post auf dem Internet-Diskussionsboard 4Chan, bei dem Benutzer vorschlugen, Tay mit rassistischen und beleidigenden Kommentaren zur überschütten und somit die Trainingsdaten und Tays Aussagen in eine von diesen Usern gewünschte Richtung zu lenken. Das Data-Poisoning durch den 4Chan-Internet-Mob zeigte Wirkung: 16 Stunden nachdem Tay auf Twitter das Licht der Welt erblickte, hatte der Chatbot über 95000 Nachrichten gesendet – zum Ende des Tages waren Tays Antworten zu einem großen Teil verstörend beleidigend oder rassistisch. Das Entwicklungsteam entschloss sich dazu, Tay zu deaktivieren, um den PR-Schaden für Microsoft zu minimieren.
Rückblickend war Tay zwar für die KI-Entwickler von Microsoft eine schmerzhafte Erfahrung, schärfte aber den Blick für Data-Poisoning. Das Problem war ja letztlich nicht Tay: Das Problem war das offene Einfallstor für Data-Poisoning über das ungefilterte Anlernen des Chatbots via öffentlicher Social-Media-Plattform. Nicht zuletzt dieser Vorfall hat dazu geführt, dass der Aufbau heutiger Trainingssysteme mit öffentlichen Datenschnittstellen sorgfältiger geplant und gegen Data-Poisoning durch einen organisierten Internet-Mob mittels Filtern und Monitoring geschützt wird.
Dipl.-Ing. (FH) Mirko Ross ist Aktivist, Experte, Redner, Publizist und Forscher im Bereich Cybersicherheit sowie Gründer und Geschäftsführer von asvin.io.