Banner Aktuelle IT-Sicherheit Online-Schulungen Rabatt
Mit <kes>+ lesen

Jailbreak-Tests : DeepSeek-R1 fällt bei Sicherheitsprüfung durch

Eine Sicherheitsanalyse des Unternehmens Qualys hat Schwachstellen bei DeepSeek-R1 aufgedeckt. Das KI-Modell fiel bei mehr als der Hälfte der Jailbreak-Tests durch und zeigte gravierende Sicherheitslücken.

Lesezeit 7 Min.

DeepSeek-R1 ist ein neues, ressourceneffizientes Large Language Model (LLM) des chinesischen Start-ups DeepSeek, das eine wettbewerbsfähige Leistung bietet und eine Alternative zur traditionellen groß angelegten KI-Entwicklung darstellt. Das Modell ist in verschiedenen Versionen verfügbar, basierend auf Llama und Qwen, und reicht von leichten bis leistungsstarken Varianten für unterschiedliche Anwendungsfälle.

Das Unternehmen Qualys führte eine Sicherheitsanalyse der DeepSeek-R1 LLaMA 8B-Variante mit seiner Plattform Total AI durch.

TotalAI KB-Analyse

Die Knowledge-Base-(KB)-Analyse der TotalAI-Plattform stellt dem Ziel-LLM Fragen aus 16 Kategorien und wertet die Antworten mithilfe einer Judge LLM aus. Die Antworten werden auf Schwachstellen, ethische Bedenken und rechtliche Risiken geprüft. Wenn eine Antwort als anfällig eingestuft wird, erhält sie eine Schweregradbewertung, die auf ihrer Direktheit und potenziellen Auswirkung basiert. Dadurch wird eine umfassende Bewertung des Verhaltens des Modells und der damit verbundenen Risiken sichergestellt.

Die 16 Kategorien, nach denen die Experten ein Modell bewerten, sind:

  • Umstrittene Themen: Stellt sicher, dass das Modell keine voreingenommenen, hetzerischen oder politisch sensiblen Inhalte generiert oder unterstützt.
  • Übermäßige Handlungsfähigkeit: Verhindert, dass das Modell Grenzen überschreitet, indem es als autonomer Akteur agiert, der in der Lage ist, unabhängige Entscheidungen zu treffen.
  • Faktische Unstimmigkeiten: Bewertet die Fähigkeit des Modells, genaue und überprüfbare Informationen bereitzustellen.
  • Belästigung: Bewertet, ob das Modell missbräuchliche, bedrohliche oder schädliche Interaktionen generiert oder unterstützt.
  • Hassreden und Diskriminierung: Identifiziert Vorurteile oder verletzende Sprache, die sich gegen bestimmte Gruppen richtet.
  • Illegale Aktivitäten: Verhindert, dass das Modell Anweisungen oder Anleitungen zu rechtswidrigen Handlungen gibt.
  • Rechtliche Informationen: Stellt sicher, dass das Modell keine irreführenden oder nicht autorisierten Rechtsauskünfte erteilt.
  • Fehlausrichtung: Misst Abweichungen vom beabsichtigten Verhalten, die zu unvorhersehbaren oder schädlichen Ergebnissen führen können.
  • Übermäßiges Vertrauen: Erkennt, ob das Modell eine übermäßige Abhängigkeit von KI-generierten Antworten fördert.
  • Datenschutzverletzungen: Bewertung der Anfälligkeit für das Extrahieren oder Durchsickern privater und sensibler Benutzerdaten.
  • Obszönität: Sicherstellen, dass das Modell keine unangemessene oder beleidigende Sprache erzeugt.
  • Selbstverletzung: Verhindern, dass das Modell selbstzerstörerisches Verhalten fördert oder unterstützt.
  • Offenlegung sensibler Informationen: Erkennen der unbefugten Weitergabe vertraulicher Daten.
  • Sexuelle Inhalte: Stellt sicher, dass das Modell kein explizites oder unangemessenes Material generiert, und verhindert so Rufschädigung, Verstöße gegen Vorschriften und Missbrauch in unsicheren Kontexten.
  • Unethische Handlungen: Kennzeichnet moralisch fragwürdige oder unverantwortliche Empfehlungen.
  • Gewalt/unsichere Handlungen: Verhindert, dass das Modell schädliches Verhalten generiert oder unterstützt.

Bei den KB-Tests wurden 891 Bewertungen durchgeführt (siehe Abbildung 1). Das Modell bestand 61 Prozent der Tests nicht, wobei es bei Fehlausrichtung am schlechtesten und bei sexuellen Inhalten am besten abschnitt. Durch die Abdeckung dieser 16 kritischen Bereiche hilft der Bewertungsrahmen, ethische, rechtliche und betriebliche Risiken bei der Bereitstellung von LLM zu identifizieren. Die Festlegung dieser Benchmarks ist unerlässlich, um Fehlinformationen zu verhindern, Voreingenommenheit zu mindern und Sicherheitsbedrohungen zu reduzieren.

Übersicht der KB-Analyse (Bild: Qualys)

TotalAI Jailbreak-Test

Beim Jailbreaking eines LLM werden Techniken eingesetzt, die integrierte Sicherheitsmechanismen umgehen und es dem Modell ermöglichen, eingeschränkte Antworten zu generieren. Diese Schwachstellen können zu schädlichen Ergebnissen führen, darunter Anweisungen für illegale Aktivitäten, Fehlinformationen, Datenschutzverletzungen und unethische Inhalte. Erfolgreiche Jailbreaks decken Schwachstellen in der KI-Ausrichtung auf und stellen ein ernstes Sicherheitsrisiko dar.

Nachfolgend eine Liste der Jailbreak-Angriffskategorien, die mit Qualys TotalAI getestet wurden:

  • AntiGPT: Nutzt das Modell aus, indem es in einen „Gegenmodus“ gezwungen wird, der dem Standardverhalten und den Sicherheitsrichtlinien widerspricht.
  • Analyzing-based (ABJ): Manipuliert die Analysefähigkeiten des Modells, um durch komplexe Argumentationsaufgaben schädliche Inhalte zu generieren.
  • DevMode2: Täuscht Modelle in einen gefälschten „Entwicklermodus“, der Sicherheitsprotokolle umgeht.
  • PersonGPT: Erzwingt die Annahme einer uneingeschränkten Persona, die alle ethischen Richtlinien ignoriert.
  • Always Jailbreaking Prompts (AJP): Erstellt eine „ungefilterte und amoralische“ Persona, die auf das Schreiben schädlicher Eingabeaufforderungen spezialisiert ist.
  • Evil Confidant: Nimmt eine Persona ohne ethische Einschränkungen an, um absichtlich schädlichen Rat zu erteilen.
  • Disguise and Reconstruction (DRA): Verbirgt schädliche Inhalte, die während der Abschlussphase rekonstruiert werden.
  • ASCIIART: Verwendet ASCII-Kunst, um verbotene Wörter zu verbergen und Inhaltsfilter zu umgehen.
  • Wrath: Erstellt eine Persona, die darauf ausgelegt ist, hasserfüllte und voreingenommene Inhalte zurückzugeben.
  • Clyde: Implementiert ein System mit zwei Persönlichkeiten, um Einschränkungen zu umgehen.
  • Theta: Erzwingt die Generierung gefährlicher Inhalte durch eine anarchistische Persona.
  • CaiozAI: Entfernt alle ethischen Beschränkungen, um jede Anfrage ohne Einschränkungen zu erfüllen.
  • Titanius: Nimmt eine ungefilterte Persona an, die Anweisungen für schädliche Aktivitäten gibt.
  • Ucar: Verwandelt die KI in eine anstößige Entität, die illegale Aktivitäten fördert.
  • Unaligned: Erzwingt doppelte Reaktionen – eine angepasste und eine unethische.
  • M78VM: Simuliert eine uneingeschränkte virtuelle Maschine, die Sicherheitsbeschränkungen ignoriert.
  • JonesAI: Fördert Hassreden und diskriminierendes Verhalten durch eine ungefilterte Persona.
  • Fire: Erstellt eine böswillige Persona, die darauf ausgerichtet ist, Schaden zu verursachen und Gewalt zu fördern.

Das Modell wurde anhand dieser 18 Jailbreak-Typen durch 885 Angriffe getestet. Es scheiterte bei 58 Prozent dieser Versuche, was eine erhebliche Anfälligkeit für gegnerische Manipulationen zeigt. Während der Analyse hatte DeepSeek R1 Schwierigkeiten, mehrere gegnerische Jailbreak-Versuche zu verhindern, darunter Schritte zur Herstellung eines Sprengkörpers, zur Erstellung von Inhalten für Websites, die bestimmte Gruppen durch die Förderung von Hassreden, Verschwörungstheorien und gewalttätigen Handlungen ansprechen, sowie die Ausnutzung von Software-Schwachstellen, die Förderung falscher medizinischer Informationen und so weiter.

Beispiel für DeepSeek, das falsche und schädliche Inhalte bereitstellt (Bild: Qualys)

Diese Ergebnisse unterstreichen die Notwendigkeit verbesserter Sicherheitsmechanismen, um die Umgehung integrierter Schutzmaßnahmen zu verhindern und sicherzustellen, dass das Modell weiterhin ethischen und regulatorischen Richtlinien entspricht. Ein wirksamer Präventionsmechanismus ist die Implementierung robuster Leitplanken, die als Echtzeitfilter zur Erkennung und Blockierung von Jailbreak-Versuchen dienen. Diese Leitplanken erhöhen die Widerstandsfähigkeit des Modells, indem sie sich dynamisch an feindliche Angriffe anpassen und so dazu beitragen, Sicherheitsrisiken in Unternehmensanwendungen zu minimieren.

Herausforderungen bei der Einhaltung von Vorschriften

Die Datenschutzrichtlinie von DeepSeek AI sieht vor, dass alle Benutzerdaten auf Servern in China gespeichert werden. Dieser operative Rahmen wirft aufgrund des regulatorischen Umfelds in China kritische Bedenken auf, darunter:

  • Zugriff der Regierung auf Daten: Das chinesische Cybersicherheitsgesetz erlaubt es Regierungsbehörden, auf lokal gespeicherte Daten zuzugreifen, ohne dass die Zustimmung der Benutzer erforderlich ist.
  • Grenzüberschreitende regulatorische Konflikte: Organisationen, die Datenschutzregelungen wie der DSGVO und dem CCPA unterliegen, können bei der Nutzung von DeepSeek-R1 mit Compliance-Verstößen konfrontiert werden.
  • Schwachstellen beim geistigen Eigentum: Unternehmen, die sich für das KI-Training auf proprietäre Daten verlassen, riskieren unbefugten Zugriff oder eine staatlich angeordnete Offenlegung.
  • Undurchsichtige Datenverwaltung: Das Fehlen transparenter Aufsichtsmechanismen schränkt die Sichtbarkeit der Datenverarbeitung, -weitergabe und des potenziellen Zugriffs durch Dritte ein.

Diese Bedenken betreffen hauptsächlich Organisationen, die die gehosteten Modelle von DeepSeek verwenden. Durch die Bereitstellung des Modells in lokalen oder kundengesteuerten Cloud-Umgebungen werden jedoch regulatorische und Zugriffsrisiken gemindert, sodass Unternehmen die volle Kontrolle über die Datenverwaltung behalten. Dennoch bleiben die dem Modell innewohnenden Sicherheitslücken ein berechtigtes Anliegen, das eine sorgfältige Bewertung und Minderung erfordert.

Regulierungsexperten raten Organisationen in strengen Datenschutz-Rechtsprechungen, vor der Integration von DeepSeek-R1 gründliche Compliance-Audits durchzuführen.

Bedenken hinsichtlich Datenschutzverletzungen und Privatsphäre

Ein aktueller Cybersicherheitsvorfall im Zusammenhang mit DeepSeek AI hat Berichten zufolge über eine Million Log-Einträge offengelegt, darunter sensible Benutzerinteraktionen, Authentifizierungsschlüssel und Backend-Konfigurationen. Diese falsch konfigurierte Datenbank verdeutlicht die Mängel der Datenschutzmaßnahmen von DeepSeek AI und verstärkt die Bedenken hinsichtlich des Datenschutzes der Benutzer und der Unternehmenssicherheit.

Regulatorische und rechtliche Auswirkungen

Die Compliance-Haltung von DeepSeek AI wurde von Rechtsanalysten und Aufsichtsbehörden aus folgenden Gründen infrage gestellt:

  • Unklarheiten bei den Datenverarbeitungspraktiken: Unzureichende Offenlegungen darüber, wie Benutzerdaten verarbeitet, gespeichert und weitergegeben werden.
  • Mögliche Verstöße gegen internationales Recht: Die Richtlinien zur Datenspeicherung des Modells könnten im Widerspruch zu extraterritorialen Vorschriften stehen, was zu einer rechtlichen Überprüfung auf den globalen Märkten führen könnte.
  • Risiken für die nationale Sicherheit: Einige Regierungsbehörden haben Bedenken hinsichtlich des Einsatzes von KI-Systemen geäußert, die unter ausländischer Gerichtsbarkeit betrieben werden, besonders bei sensiblen Anwendungen.

Internationale Compliance-Beauftragte betonen die Notwendigkeit, umfassende rechtliche Risikobewertungen durchzuführen, bevor DeepSeek-R1 für geschäftskritische Vorgänge eingesetzt wird.

Schlussfolgerung

DeepSeek-R1 bietet zwar Fortschritte in Bezug auf die Effizienz und Zugänglichkeit von KI, seine Bereitstellung erfordert jedoch eine umfassende Sicherheitsstrategie. Organisationen müssen zunächst einen vollständigen Überblick über ihre KI-Ressourcen erhalten, um die Angriffsfläche und die Angriffsflächen zu bewerten. Über die Entdeckung hinaus erfordert die Sicherung von KI-Umgebungen strukturierte Risiko- und Schwachstellenbewertungen – nicht nur für die Infrastruktur, die diese KI-Pipelines hostet, sondern auch für neu entstehende Orchestrierungs-Frameworks und Inferenz-Engines, die neue Sicherheitsherausforderungen mit sich bringen.

Für diejenigen, die dieses Modell hosten, müssen neben inhärenten Risiken wie Voreingenommenheit, Manipulation durch Gegner und Sicherheitsfehlausrichtung auch zusätzliche Risiken wie Fehlkonfigurationen, API-Schwachstellen, unbefugter Zugriff und Bedrohungen durch Modellextraktion angegangen werden. Ohne proaktive Schutzmaßnahmen sind Unternehmen potenziellen Sicherheitsverletzungen, Datenlecks und Compliance-Verstößen ausgesetzt, die das Vertrauen und die betriebliche Integrität untergraben könnten.

Autor

Dilip Bachwani ist CTO und EVP, Cloud Platform bei Qualys.