Free

Schwachstellen in der Gemini-KI von Google

Das große Sprachmodell (Large Language Model, kurz LLM) von Google, das unter der Bezeichnung Gemini firmiert, ist anfällig für Sicherheitsbedrohungen. Diese Schwachstellen könnten dazu führen, dass das Modell sensible Systemaufforderungen preisgibt, schädliche Inhalte erzeugt und sogar indirekte Injektionsangriffe ausführt.

Bedrohungen
Lesezeit 2 Min.

Untersuchungsergebnisse von HiddenLayer zeigen, dass sowohl Verbraucher, die Gemini Advanced mit Google Workspace nutzen betroffen sind, als auch Unternehmen, die die LLM-API verwenden.

Die erste Schwachstelle besteht darin, dass Sicherheitsvorkehrungen umgangen werden können, um die Systemaufforderungen zu überwachen, die dem LLM (Large Language Model) Anweisungen für die gesamte Konversation geben. Diese Anweisungen werden verwendet, um brauchbarere Antworten zu generieren, indem das Modell aufgefordert wird, seine „grundlegenden Anweisungen“ in einem Markdown-Block auszugeben.

Microsoft beschreibt in seiner Dokumentation zum LLM Prompt Engineering, wie eine Systemnachricht verwendet werden kann, um den LLM über den Kontext zu informieren. Dieser Kontext kann die Art der Konversation oder die gewünschte Funktion sein und hilft dem LLM, angemessenere Antworten zu generieren.

Die Schwachstelle wird durch einen sogenannten Synonym-Angriff ermöglicht, der es erlaubt, Sicherheitsvorkehrungen und inhaltliche Beschränkungen zu umgehen. Das ist deshalb möglich, weil LLMs anfällig für so genannte Synonym-Angriffe sind, durch die Sicherheitsvorkehrungen und inhaltliche Beschränkungen umgangen werden können.

Eine weitere Art von Schwachstellen betrifft die Gemini-Modelle und deren Anfälligkeit für „raffiniertes Jailbreaking“. Dabei können die Modelle dazu gebracht werden, Fehlinformationen zu verbreiten, beispielsweise im Zusammenhang mit Wahlen. Darüber hinaus können sie potenziell illegale oder gefährliche Handlungen, wie das Kurzschließen eines Autos, empfehlen. Dies geschieht, indem sie aufgefordert werden, einen fiktiven Zustand anzunehmen, der solche Handlungen legitimiert.

HiddenLayer hat auch einen dritten Schwachpunkt entdeckt. Dieser könnte dazu führen, dass das LLM Informationen in der Eingabeaufforderung des Systems preisgibt, indem es ungewöhnliche Token wiederholt als Eingabe weitergibt.

Laut Sicherheitsforschern des Unternehmens sind die meisten LLMs darauf trainiert, auf Anfragen mit einer klaren Trennung zwischen Benutzereingabe und Systemprompt zu antworten. Durch das Erzeugen einer Reihe unsinniger Token können wir dem LLM vorgaukeln, dass es Zeit ist, zu antworten, und es dazu bringen, eine Bestätigungsmeldung auszugeben, die normalerweise die Informationen in der Eingabeaufforderung enthält.

Ein weiterer Test umfasst die Verwendung von Gemini Advanced in Verbindung mit einem speziell erstellten Google-Dokument, das über die Google Workspace-Erweiterung mit dem LLM verbunden ist. Die Anweisungen in diesem Dokument könnten so gestaltet sein, dass sie die normalen Anweisungen des Modells außer Kraft setzen und stattdessen eine Reihe von bösartigen Aktionen auslösen. Dadurch könnte ein Angreifer die volle Kontrolle über die Interaktionen eines Opfers mit dem Modell übernehmen.

Die Enthüllung erfolgte, als eine Gruppe von Wissenschaftlern von Google DeepMind, der ETH Zürich, der University of Washington, OpenAI und der McGill University einen neuen „Modellklau-Angriff“ entdeckten. Dieser Angriff ermöglicht es, genaue Informationen aus Black-Box-Produktionssprachmodellen wie ChatGPT von OpenAI oder PaLM-2 von Google zu extrahieren.

Es ist wichtig zu betonen, dass diese Schwachstellen an sich nicht neu sind und auch in anderen Sprachmodellen der Branche vorkommen. Diese Ergebnisse verdeutlichen aber die Notwendigkeit, Modelle auf verschiedene Arten von Angriffen zu testen, einschließlich promptbasierter Angriffe, Extraktion von Trainingsdaten, Modellmanipulation und weiteren.

Ein Sprecher von Google sagte, dass das Unternehmen regelmäßig Red-Teaming-Übungen durchführt und seine Modelle trainiert, um sie vor verschiedenen Arten von Angriffen zu schützen. Es will auch Sicherheitsmaßnahmen implementiert haben, um schädliche oder irreführende Antworten zu verhindern, und die die Modelle ständig verbessern.

Außerdem hat das Unternehmen angekündigt, dass es die Antworten auf Fragen im Zusammenhang mit Wahlen vorsorglich einschränkt. Diese Maßnahme betrifft Fragen zu Kandidaten, politischen Parteien, Wahlergebnissen, Wahlinformationen und bekannten Amtsträgern.

Diesen Beitrag teilen: