Chancen und Risiken generativer KI-Modelle : Die Fähigkeiten generativer KI nehmen stetig zu – doch mit ihnen wächst auch das Gefahrenpotenzial
Halluzinationen, Prompt-Injections, ein KI-generiertes Bild gewinnt einen Kunstwettbewerb in Colorado oder der erste komplett KI-generierte Spielfilm erscheint im Kino – täglich macht generative künstliche Intelligenz (KI), also KI, die neue Inhalte erzeugen kann, Schlagzeilen. Während manche Meldungen ihre Potenziale in den Vordergrund stellen, lenken andere den Fokus auf mögliche Gefahren. Wie können wir also die vielfältigen Anwendungsmöglichkeiten generativer KI sicher nutzen und gleichzeitig die Gefahren eindämmen? Das BSI erläutert, wo Chancen und Risiken liegen und welche Gegenmaßnahmen helfen können.
Seit einiger Zeit ist generative KI viel diskutiert. Neben großen KI-Sprachmodellen (Large Language Models, LLMs), die hochqualitative Texte erzeugen können, haben hierzu auch Bild- und Videogeneratoren beigetragen, mit denen sich beeindruckende Bilder, Animationen und Videos generieren lassen. Sie bieten ein großes Potenzial und werden zunehmend in diverse Anwendungen integriert.
Für einige beginnt mit den zunehmenden Fähigkeiten generativer KI ein regelrechter industrieller Umschwung; andere weisen auf potenzielle Risiken der neuen Technologie hin. Dazu zählen etwa Halluzinationen: Dabei handelt es sich um frei erfundene und möglicherweise faktisch inkorrekte Ausgaben einer KI, die überzeugend formuliert sein können. Daneben sind missbräuchliche und zweckentfremdete Nutzungen generativer KI möglich. So können gefälschte Inhalte erzeugt werden, die sich böswillig, beispielsweise im Kontext der Verbreitung von Desinformation oder für Social-Engineering, einsetzen lassen.
Vor dem Hintergrund seines Ziels, die Digitalisierung und damit den sicheren Einsatz von KI voranzubringen, hat das BSI in der Vergangenheit bereits darüber berichtet, welche Aspekte der Informationssicherheit im Hinblick auf LLMs besonders relevant sind. Nun werden die Betrachtungen auf Bild- und Videogeneratoren ausgeweitet [1].
Kreativität auf Knopfdruck
Sie sind leicht zu bedienen, mit ihnen können Laien ohne Fotoausrüstung und ohne Kenntnisse im Grafikdesign beeindruckende individuelle Fotos oder Videos erstellen: Viele Bild- und Videogeneratoren akzeptieren neben Texten auch Bilder und Videos als Eingabe und ermöglichen die Editierung visueller Inhalte. Das wird häufig im privaten wie im beruflichen Kontext genutzt. Insbesondere die Film- und Spielebranche kann stark davon profitieren, zum Beispiel durch die aufwandsarme Erzeugung fantasievoller Hintergrundbilder und Charaktere – Mitte 2025 erobert der erste komplett KI-generierte Spielfilm schließlich die Kinos.
Auch Stadtplanerinnen und Stadtplaner können die Anschaulichkeit ihrer städtebaulichen Vorhaben verbessern und generierte Abbildungen von Straßen, Parks oder Gebäuden einfließen lassen. Ebenfalls ist ein Einsatz im medizinischen Umfeld denkbar, um zum Beispiel die Aufnahmen bildgebender Verfahren qualitativ zu verbessern oder mehrere Aufnahmen unterschiedlicher Verfahren zusammenzuführen.
Nicht nur in den sozialen Medien steigt der Unterhaltungswert, wenn Bild- und Videogeneratoren unmittelbar integriert werden. Mit der modernen KI-Technik ergeben sich grundsätzlich neue Möglichkeiten, umfassende Informationen visuell aufzubereiten. So können komplexe, textuelle Informationen, zum Beispiel statistische Erhebungen oder Prozessbeschreibungen, mit geringem Aufwand übersichtlich dargestellt werden. Weiterhin eignen sie sich für die Erstellung barrierefreier Schulungsunterlagen und erleichtern den Wissenstransfer. Nicht zuletzt fördern sie auch die Inklusion und können zur Überwindung sprachlicher Hürden beitragen.
Die Kehrseite der Kreativität
Neben positiven Einsatzszenarien ermöglichen Tools zur Generierung qualitativ hochwertiger Bilder und Videos auch Kriminellen eine Nutzung für bösartige Zwecke, insbesondere im Bereich des Social-Engineerings und der Verbreitung von Falschinformationen.
Beim Social-Engineering nutzen Täter menschliche Eigenschaften wie Hilfsbereitschaft, Vertrauen, Angst oder Respekt vor Autorität aus, um Personen geschickt zu manipulieren und sie auf diese Weise zur Preisgabe vertraulicher Informationen, zu Zahlungen oder zur Installation von Schadsoftware zu verleiten. Generierte Bilder und Videos können hierbei eingesetzt werden, um die Glaubwürdigkeit erfundener Geschichten zu steigern.
Wie überzeugend Kriminelle sein können, zeigt das Beispiel einer Französin, die länger als eineinhalb Jahre dachte, sie stünde über soziale Medien mit dem US-Schauspieler Brad Pitt in Kontakt. Cyberkriminelle spielten der Frau eine Liebesbeziehung vor und überzeugten sie, eine hohe Summe für angebliche medizinische Behandlungen des US-Stars zu überweisen. Liebesbekundungen wurden mit KI-generierten Bildern untermauert, um das Opfer von einer angeblichen Notlage zu überzeugen.
Die Modelle können ferner missbraucht werden, um Falschinformationen zu generieren; mit gefälschten Darstellungen werden vermeintliche Realitäten geschaffen. Bekannte Beispiele sind das Video des boxenden und Salto schlagenden Olaf Scholz oder die generierten Nacktfotos der US-Sängerin Taylor Swift, die öffentlich wurden – oft trifft es prominente Personen. Häufig sind solche Darstellungen auf den ersten Blick nicht von realen Inhalten zu unterscheiden. Vor allem in sozialen Medien, wo viele Inhalte innerhalb kürzester Zeit konsumiert werden, werden sie fälschlicherweise als echt wahrgenommen.
Viele Anbieter von Bild- und Videogeneratoren versuchen der missbräuchlichen Nutzung ihrer Modelle durch entsprechende Sicherheitsmaßnahmen wie dem Einsatz von Ein- und Ausgabefiltern vorzubeugen. Doch es ist ein Katz- und Mausspiel: Durch geschicktes Formulieren der Eingabe können Schutzmechanismen immer wieder ausgetrickst werden. Hierzu werden beispielsweise harmlose Szenarien vorgetäuscht und Geschichten rund um die eigentliche Eingabe erfunden, um das KI-Modell davon zu überzeugen, dass die Eingabe unschädlich ist.
Auch das Verstecken von Anweisungen, die sich an das Modell richten, ist denkbar. Diese kann man sich ähnlich wie SQL-Injections vorstellen, bei denen schädliche Code-Befehle in (nicht dafür vorgesehene) Eingabefelder geschrieben werden, um damit eine Datenbank zu manipulieren oder Informationen zu extrahieren. Der wesentliche Unterschied ist, dass es sich im Kontext generativer KI-Modelle bei der Eingabe um einen beliebig formatierten Text und nicht zwangsweise um Code handelt, den das KI-Modell im Anschluss interpretiert, und, dass bisher keine zuverlässige Methode bekannt ist, um diese Schwachstelle zu schließen. Die Anweisungen können auch visueller Natur und in einem eingegebenen Bild oder Video versteckt sein oder auf mehrere Eingaben verschiedener Modalitäten aufgeteilt werden. Letztendlich können derartige, unter anderem als Prompt-Injections oder Jailbreaks bekannte Angriffe, zum Beispiel die Ausgabe von Bildern mit Prominenten trotz implementierter Filtermechanismen ermöglichen.
Im Übrigen besteht auch ohne böswillige Absichten aufseite der Nutzenden das Risiko, dass Bild- oder Videogeneratoren unerwünschte Inhalte erzeugen. Diese können mitunter diskriminierende Darstellungen enthalten – wie unzeitgemäße Rollenbilder oder rassistische Abbildungen. Besonders problematisch sind derartige Inhalte, wenn sie ohne menschliche Kontrolle automatisch verbreitet werden.
Dass solche Bilder und Videos unbeabsichtigt durch eine nutzende Person erzeugt werden, ist im Wesentlichen auf zwei mögliche Ursachen zurückzuführen: Einerseits kann der probabilistische Charakter des verwendeten KI-Modells verantwortlich sein, sprich der unerwünschte Inhalt wird mehr oder weniger „zufällig“ generiert. Andererseits können Anweisungen, die Angreifer geschickt in Drittquellen (z.B. in Bildern oder Dokumenten) platzieren und die durch Nutzer beispielsweise als Referenzmaterial mit der Eingabe an das Modell übergeben werden, der Auslöser sein. Man spricht bei dieser Art von Angriffen, die sich über Drittquellen gegen die eigentliche Nutzereingabe richten, von Indirect Prompt-Injections.
Ziel: Kontrolle über die Risiken
Wie kann den Risiken adäquat begegnet werden? Indem das Thema Sicherheit im gesamten Lebenszyklus eines KI-Modells mitgedacht wird, also von der Planung über die Sammlung der Trainingsdaten, den Entwicklungsprozess samt Training des Modells, die Testphase und den Betrieb bis hin zur Außerbetriebnahme.
Bereits in den ersten Phasen müssen die Besonderheiten von (generativer) KI angemessen berücksichtigt werden. So sollten Personen, die unmittelbar am Prozess der Datensammlung, -aufbereitung und Entwicklung mitwirken, speziell geschult werden, insbesondere hinsichtlich möglicher KI-spezifischer Angriffe wie Poisoning-Attacks. Derartige Angriffe können bereits im Trainingsprozess ansetzen und verfolgen das Ziel, eine Fehlfunktion oder Leistungsverschlechterung eines Modells herbeizuführen, beispielsweise durch eine Manipulation der verwendeten Trainingsdaten.
Ideal wäre es daher, wenn schon Entwickelnde die Trainingsdaten des Modells nach geeigneten Kriterien auswählen und sie so aufbereiten, dass etwa keine potenziell schädlichen Inhalte wie rassistisches Material enthalten sind. Zudem sollte das Modell möglichst robust gegenüber manipulativen Eingaben gemacht werden, zum Beispiel durch adversariales Training – eine Technik des maschinellen Lernens, bei der das Modell lernt, auf schädliche Eingaben mit unschädlichen Ausgaben zu reagieren. Auch können Ein- und Ausgabefilter implementiert werden, die das Generieren unerwünschter Inhalte unterbinden oder zumindest erschweren.
Im Betrieb können Zugriffsbeschränkungen eingerichtet und die Anzahl an Eingaben, die eine nutzende Person innerhalb einer Zeitspanne tätigen darf, begrenzt werden, um zum Beispiel das iterative Anpassen manipulativer Eingaben zur Umgehung von Filtermechanismen zu erschweren.
Eine zentrale Schlüsselstrategie stellt zudem das Thema Sensibilisierung dar. Hierbei ist es besonders wichtig, zwei Personengruppen zu schulen: einerseits die Nutzenden eines KI-Modells und andererseits die Konsumierenden möglicherweise KI-generierter Inhalte, die potenziell durch diese getäuscht werden können. Durch ein gesundes Bewusstsein für die Fähigkeiten und Schwächen generativer KI-Modelle und ein daran orientiertes Verhalten, kann das Schadensausmaß vieler Risiken reduziert werden. Dies betrifft insbesondere Risiken, die bereits im Rahmen der ordnungsgemäßen Nutzung von Modellen auftreten können und beispielsweise im Zusammenhang mit qualitativen Problemen in den Ausgaben stehen.
Auch die Erkenntnis, dass aufgrund von Indirect Prompt-Injections nicht alle Inhalte aus beliebigen Quellen ungefiltert an generative KI-Modelle übergeben werden sollten, stellt einen wichtigen Punkt dar. Zudem sollte im beruflichen Kontext, unabhängig von der konkreten Sensibilisierung, für jeden klar ersichtlich sein, welche KIAnwendung zu welchen Zwecken genutzt werden darf, welche Eingaben getätigt und wie die Ausgaben weiterverwendet werden dürfen.
Weiterhin sollten umfassende Tests und Evaluierungen regelmäßig und über den gesamten Lebenszyklus hinweg stattfinden. Auch ein Red-Teaming, also eine Überprüfung des KI-Modells auf mögliche Schwachstellen, bei der Sicherheitsfachleute die Taktiken, Techniken und Verfahren von Angreifern nachahmen, kann hilfreich sein.
Fortschreitende Weiterentwicklung und wachsende Risiken
Die Entwicklung im Bereich generative KI schreitet in den letzten Jahren rasant voran. Nachdem mit LLMs anfänglich der Fokus auf der Textverarbeitung lag, sind viele aktuelle Modelle multimodal und können verschiedenartige Eingaben und somit zum Beispiel auch Bilder und Videos verarbeiten, kombinieren und ausgeben. Wie aufgezeigt, steigen mit den wachsenden Fähigkeiten auch die Risiken. Daher sind kontinuierliche Risikobewertungen und die Ableitung entsprechender Schutzmaßnahmen unverzichtbar. Die umfassende Aufklärung aller Beteiligten bildet dafür ein wesentliches Fundament.
Literatur
[1] Bundesamt für Sicherheit in der Informationstechnik (BSI), Generative KI-Modelle, Chancen und Risiken für Industrie und Behörden, Version 2.0, Januar 2025, www.bsi.bund.de/SharedDocs/Downloads/DE/BSI/KI/Generative_KI-Modelle.pdf
[2] Bundesamt für Sicherheit in der Informationstechnik (BSI), BSI veröffentlicht Kriterienkatalog zum Einsatz generativer KI in der Bundesverwaltung, Pressemitteilung, Juni 2025, www.bsi.bund.de/DE/Service-Navi/Presse/Alle-Meldungen-News/Meldungen/Kriterienkatalog_KI_Bundesverwaltung_250624.html

