Mit <kes>+ lesen

Chancen und Risiken großer KI-Sprachmodelle : Die Technologie hat sich rasant entwickelt – die Sicherheitsvorkehrungen müssen nun Schritt halten

Große KI-Sprachmodelle verfügen über bemerkenswerte Fähigkeiten und bieten Chancen für verschiedene Anwendungsszenarien. Gleichzeitig bergen sie neuartige Risiken, die einerseits in der Natur der Technologie selbst begründet sind und andererseits infolge von gezielten Ausnutzungen oder Angriffen entstehen können. Das BSI klärt über Möglichkeiten und Herausforderungen auf – das Wichtigste hier in Kürze.

Ein großes KI-Sprachmodell (Large Language Model, LLM), ist ein statistisches Modell und gehört der Familie der generativen KI an. Letztere ist darauf ausgerichtet, Muster aus vorhandenen Daten zu erlernen und neue Daten und Inhalte zu erstellen, die ebenfalls diesen Mustern folgen. Ein LLM erzeugt zu einer bestimmten Texteingabe (dem sogenannten Prompt) eine Textausgabe, die gemäß dem Modell als wahrscheinlich erscheint und eine möglichst passende Fortsetzung der Eingabe darstellt. Dabei liegt dem Modell meist ein neuronales Netz mit Milliarden oder gar Billionen von Parametern (daher auch der Begriff großes KI-Sprachmodell) zugrunde, das die Wahrscheinlichkeitsverteilung durch unüberwachtes Training mit umfangreichen Textkorpora erlernt.

Chancen von LLMs

Grundsätzlich können LLMs überall dort eingesetzt werden, wo Text (teil-)automatisiert verarbeitet werden kann. Die Anwendungsmöglichkeiten reichen von der klassischen Bearbeitung (z. B. Korrektur von Rechtschreibung) über die Verarbeitung (z. B. Klassifikation, Erstellung von Zusammenfassungen) bis hin zur Generierung (z. B. Verfassen von Texten eines bestimmten Stils). LLMs können dabei unterstützen, Fragen in Chatbots zu beantworten, unerwünschte Inhalte wie Hatespeech in sozialen Netzwerken oder Phishing-Mails aufzuspüren oder Programm- und Security-Code zu generieren und optimieren (u. a. zur Effizienzsteigerung, Fehlerkorrektur, Schließung von Sicherheitslücken).

Risiken von LLMs

Eine erste Gruppe von Risiken entsteht aufgrund des probabilistischen Charakters von LLMs, da sie Text auf Basis stochastischer Zusammenhänge generieren. Dadurch ist nicht garantiert, dass der ausgegebene Text faktisch korrekt ist. Ein Erfinden von Inhalten, die nicht Teil der Eingabe oder des Trainingsdatensatzes waren, wird als Halluzinieren bezeichnet. Hinzu kommen die fehlende Reproduzierbarkeit und Aktualität der Ausgaben und ihres Inhalts, mögliche Sicherheitslücken in generiertem Code sowie fehlerhafte Reaktionen auf Prompts, die stark von den Trainingsdaten abweichen. Zugleich wirken die generierten Texte aufgrund ihrer hohen sprachlichen Qualität in der Regel überzeugend, was das Risikopotenzial der zuvor aufgeführten Schwächen verstärkt.

Der zweiten Gruppe von Risiken liegt eine missbräuchliche Nutzung zugrunde: Aufgrund ihrer Fähigkeit, Ausgaben in verschiedenen Sprachen zu erzeugen und Schreibstile von Personen oder Organisationen zu imitieren, können LLMs für die Erstellung von Social-Engineering-Inhalten oder Falschinformationen verwendet werden. Greift ein LLM auf soziale Netzwerke zu, werden diese Inhalte unter Umständen mit persönlichen beziehungsweise unternehmensspezifischen Informationen angereichert. Daneben erleichtern LLMs die Vorbereitung und Durchführung von Cyberangriffen, da sie Angreifenden ermöglichen, sich mit geringem Aufwand ein theoretisches Verständnis von Schwachstellen in Soft- und Hardwareprodukten sowie von Möglichkeiten zu deren Ausnutzung zu verschaffen.

Eine dritte Gruppe von Risiken entsteht durch Angriffe, zum Beispiel in Form von sogenannten PromptInjections: Mittels spezieller Texteingaben wird das Verhalten des Modells beeinflusst, sodass Beschränkungen und Filtermechanismen bei der Verarbeitung und Generierung von Textausgaben umgangen werden. Greifen LLMs auf externe Inhalte wie Webseiten zu, können Angreifende dort Anweisungen platzieren, die ausgeführt werden, sobald die Webseite ausgewertet werden soll. In diesem Fall spricht man von Indirect Prompt-Injection. Auch PrivacyAttacks, die auf die Rekonstruktion von schützenswerten Daten abzielen, mit denen ein LLM trainiert wurde, stellen ein mögliches Risiko im Kontext von LLMs dar.

Risikoanalyse und -Behandlung

In vielen LLMs beziehungsweise LLM-basierten Anwendungen sind Maßnahmen implementiert, die schadhafte Ein- und Ausgaben herausfiltern oder bereinigen. Diese schützen meist nur teilweise vor Missbrauchs- und Angriffsszenarien und bieten zum Beispiel keinen Schutz vor Halluzinationen der LLMs. Nutzende müssen sich daher der Risiken bewusst sein und Ausgaben gewissenhaft prüfen und gegebenenfalls nachbearbeiten. Daneben ist eine Einschränkung der Zugriffs- und Ausführungsrechte von LLM-basierten Anwendungen entsprechend dem Minimalprinzip essenziell, um schadhafte Auswirkungen möglichst einzuschränken, die auf die Ausgaben von LLMs zurückzuführen sind.

Beim Einsatz eines LLMs im Behörden- oder Unternehmensumfeld sollte eine Risikoanalyse für den konkreten Anwendungsfall durchgeführt werden, um anwendungsbezogene Risiken zu detektieren, zu bewerten, geeignete Maßnahmen zu ergreifen und über die Voraussetzungen eines späteren Einsatzes fundiert entscheiden zu können.

Fazit

In den vergangenen Jahren haben sich LLMs rasant weiterentwickelt und können immer komplexere Aufgaben in einer hohen Qualität lösen. Dadurch steigt das Potenzial der Modelle – ebenso wie die Risiken der Nutzung. Es ist davon auszugehen, dass die Entwicklung weiterhin zügig voranschreitet und LLMs immer häufiger in Systeme verschiedener Anwendungsbereiche integriert werden. Diese technologische Dynamik erfordert daher auch in Zukunft eine ebenso dynamische Bewertung der IT-Sicherheit beim Einsatz großer KI-Sprachmodelle.

Weitere Informationen finden sich in der Publikation des BSI zu großen KI-Sprachmodellen (www.bsi.bund.de/SharedDocs/Downloads/DE/BSI/KI/Grosse_KI_Sprachmodelle.pdf) sowie der Schwachstellenmeldung des BSI zu Indirect Prompt-Injections (www.bsi.bund.de/SharedDocs/Cybersicherheitswarnungen/DE/2023/2023- 249034-1032.pdf).

Diesen Beitrag teilen: