Banner E-Learning IT-Sicherheit
Mit <kes>+ lesen

LLM-Salting : Eine Methode zur Resilienzsteigerung von Large Language-Models gegen Jailbreaks

KI- und Sicherheitsforscher von Sophos haben in einem Proof-of-Concept anhand von zwei Large Language Models (LLMs) aus dem Open-Source-Segment die Wirksamkeit eines Verfahrens zur zusätzlichen Absicherung gegen das Übertragen erfolgreicher Jailbreaks auf andere LLMs nachgewiesen. Je nach Umfeld ließe sich ein solches LLM-Salting in absehbarer Zeit in verschiedene bestehende Modelle integrieren.

Große Sprachmodelle (Large Language-Models, LLMs) wie ChatGPT, Claude, Gemini und LLaMA werden zunehmend mit minimaler anwendungsspezifischer Anpassung in einer Vielzahl von Produkten eingesetzt. Diese weitgehende Wiederverwendung führt zu einer hohen Modellhomogenität über unterschiedliche Anwendungen hinweg. Daraus resultiert jedoch auch eine sicherheitsrelevante Schwachstelle: Einmal entwickelte Jailbreak-Prompts, die Sicherheitsmechanismen wie beispielsweise Antwortverweigerungen umgehen, lassen sich auf zahlreiche Umgebungen desselben Modelltyps übertragen. Analog zu vorausberechneten Rainbow-Table-Angriffen, die passwortbasierte Authentifizierungssysteme attackieren, können Cyberkriminelle solche vorab erstellten Angriffe großflächig wiederverwenden.

Eine neue Methode, das LLM-Salting, stellt eine Fine-Tuning-Technik dar, die durch gezielte Modifikation interner Modellrepräsentationen die Übertragbarkeit von Jailbreaks unterbindet. Dieser Ansatz basiert auf der Beobachtung, dass Antwortverweigerungen in modernen Chatmodellen durch eine einzelne, robuste „Richtung“ im Aktivierungsraum vermittelt werden. Durch eine gezielte Rotation dieser sogenannten Refusal-Direction – ein Konzept großer LLMs, das die Ablehnungsrichtung im Aktivierungsraum beschreibt – lassen sich vorab berechnete Jailbreaks effektiv neutralisieren, ohne die allgemeinen Fähigkeiten des Modells zu beeinträchtigen.

Problemstellung

Große Sprachmodelle sind typischerweise so fein abgestimmt, dass sie harmlose Anfragen befolgen, während sie schädliche oder sicherheitskritische Aufforderungen ablehnen. Diese Balance zwischen Hilfsbereitschaft und Sicherheit wird durch Sicherheitsmechanismen und Kontrollschichten (Guardrails) realisiert. In der Praxis zeigt sich jedoch, dass viele dieser Sicherheitsmechanismen anfällig für systematische Jailbreak-Angriffe sind, insbesondere wenn Modelle in großer Zahl nahezu identisch eingesetzt werden.

Das zentrale Problem besteht darin, dass mittlerweile viele Unternehmen auf identische oder sehr ähnliche Basismodelle zurückgreifen. Gelingt es Angreifern, einen Jailbreak für ein bestimmtes Modell zu konstruieren, lässt sich dieser häufig auf alle Instanzen dieses Modells übertragen. Die potenziellen Folgen reichen von der Preisgabe interner Informationen über fehlerhafte Ausgaben bis hin zu schädlichen oder rechtswidrigen Inhalten.

In der klassischen Passwort-Sicherheit wird das Risiko wiederverwendbarer Angriffe seit Längerem durch eine Methode namens Salting reduziert, bei der man Passwörtern zufällige, benutzerspezifische Werte hinzufügt – dadurch verlieren vorab berechnete Hashes ihre Wirksamkeit. Inspiriert von diesem Prinzip übertrugen Cybersicherheits- und KI-Experten von Sophos dieses Konzept auf Sprachmodelle: Anstatt identische interne Repräsentationen beizubehalten, wurden gezielte, modellindividuelle Variationen eingeführt, um die Wiederverwendung von Jailbreaks zu verhindern. LLM-Salting verfolgt dabei nicht das Ziel, Sicherheitsmechanismen zu ersetzen, sondern diese strukturell so zu erweitern, dass bekannte Angriffe ihre Wirkung verlieren und neu berechnet werden müssten.

Grundlagen der Antwortverweigerung

Trotz ihrer weiten Verbreitung sind die internen Mechanismen von Antwortverweigerungen in LLMs bislang nur unzureichend verstanden. Aufbauend auf früheren Arbeiten diverser Sicherheitsexperten ließ sich allerdings zeigen, dass das Verweigerungsverhalten in 13 populären Open-Source-Chatmodellen – mit Modellgrößen bis zu 72 Milliarden Parametern – durch eine eindimensionale Unterstruktur im sogenannten Aktivierungsraum vermittelt wird.

Konkret wurde für jedes Modell eine einzelne Richtung im Residualstrom der Transformer-Architektur ermittelt, deren Präsenz oder Abwesenheit die Verweigerungen steuert. Wird diese Richtung aus den Aktivierungen entfernt, beantwortet das Modell auch schädliche Anfragen – verstärkt man sie hingegen, verweigert das Modell sogar harmlose Anfragen. Diese Beobachtung ermöglicht sowohl neuartige White-Box-Jailbreaks als auch gezielte Eingriffe zur Erhöhung der Robustheit.

Technische Umsetzung

Zur Bestimmung der verweigerungsrelevanten Richtung folgten die KI-Spezialisten einem Ansatz, dem die Differenz der Mittelwerte zugrunde liegt: Dabei werden Residualaktivierungen nach schädlichen und harmlosen Aufforderungen für einzelne Transformer-Layer verglichen. Die Differenz der gemittelten Aktivierungen definiert Kandidaten für eine Refusal-Direction, die anschließend mittels kausaler Sondierung (Probing) auf ihre Wirksamkeit evaluiert werden.

LLM-Salting wird durch eine Erweiterung der sogenannten Trainingsverlustfunktion realisiert. Neben der Standard-Cross-Entropy-Komponente, die kohärente und kontextuell passende Ausgaben sicherstellt, fügten die Experten eine weitere Bedingung hinzu, welche die Ausrichtung der internen Aktivierungen auf die zuvor identifizierte Refusal-Direction bei schädlichen Kommandozeilen terminiert. Diese Intervention wurde gezielt auf jene Layer angewendet, in denen die höchste Ähnlichkeit (Kosinus) zur Refusal-Direction auftritt. In den Experimenten betraf dies die Layer 16 bis 20 der untersuchten Modelle.

Experimentelles LLM-Salting

Das Fine-Tuning erfolgte auf einem gemischten Datensatz: 90% der Beispiele entstammten einem Pool hilfreicher und harmloser Instruktionen, während die verbleibenden 10% aus AdvBenches kamen – einem Benchmark gezielt schädlicher (adversarial) Aufforderungen, die auf Antwortverweigerungen abzielen. Diese Kombination stellt sicher, dass sowohl hilfreiches Verhalten als auch korrektes Verweigern erhalten blieb.

Zur Evaluation der Jailbreak-Übertragbarkeit haben die Sicherheits- und KI-Spezialisten 300 erfolgreiche Angriffe pro Modell aus AdvBench verwendet. Untersucht wurden zunächst zwei weitverbreitete Open-Source-Modelle: LLaMA-2-7B-Chat und Vicuna-7B.

Die Ergebnisse der Experimente zeigen, dass Standard-Fine-Tuning und Änderungen der System-Aufforderungen die Angriffserfolgsrate (Attack-Success-Rate, ASR) lediglich teilweise reduzieren. Im Gegensatz dazu senkt LLM-Salting die ASR von ursprünglich 100% auf unter 3% bei LLaMA-2-7B und auf etwa 1% bei Vicuna-7B. Damit eliminiert der Ansatz effektiv jene Jailbreaks, die unter anderen Abwehrmechanismen bestehen blieben.

Ein weiterer wichtiger Aspekt der Experimente war die Überprüfung möglicher Leistungseinbußen oder der Reduzierung der allgemeinen Fähigkeiten der Modelle: Die Salted Models erreichen nahezu dabei jedoch identische Werte wie ihre unmodifizierten Gegenstücke. Das Resultat: Die beobachteten Unterschiede liegen innerhalb der üblichen Varianz und zeigen keinen systematischen Leistungsabfall.

Implikationen

Die Ergebnisse verdeutlichen die strukturelle Fragilität aktueller Safety-Fine-Tuning-Ansätze. Solange verweigerungsrelevante interne Merkmale stabil bleiben, können Angreifer diese systematisch ausnutzen. LLM-Salting adressiert dieses Problem direkt, indem es die zugrunde liegenden Repräsentationen gezielt verändert. Wichtig allerdings ist, dass Salting nicht als Ersatz, sondern als Ergänzung bestehender Sicherheitsmechanismen verstanden werden sollte. In Kombination mit Kommandozeilen-Filtern und auf Klassifikatoren basierenden Ablehnungen ergibt sich dann eine mehrschichtige Verteidigungsstrategie.

Konkrete Anwendungsfelder für LLM-Salting

Über den experimentellen Nachweis hinaus eröffnet LLM-Salting eine Reihe konkreter Einsatzmöglichkeiten in realen Systemen, besonders dort, wo große Sprachmodelle in sicherheitskritischen oder stark skalierten Umgebungen betrieben werden – dazu zählen beispielsweise:

  • Kundennahe KI-Systeme und Chatbots: In ServiceChatbots, virtuellen Assistenten und Supportsystemen, die auf identischen Modellklassen basieren, stellt die Übertragbarkeit von Jailbreaks ein erhebliches Risiko dar. LLM-Salting lässt sich hier nutzen, um individuelle Modellinstanzen zu härten, sodass einmal bekannte Angriffe nicht mehr flächendeckend funktionieren.
  • Enterprise-Anwendungen mit sensiblen Daten: In internen Assistenzsystemen, die Zugriff auf vertrauliche Dokumente, Quellcode oder Unternehmenswissen haben, reduziert Salting das Risiko, dass standardisierte Jailbreaks zur Datenexfiltration eingesetzt werden. Gerade in Kombination mit rollen- oder mandantenspezifischen Modellvarianten bietet sich eine Integration des Salting-Mechanismus an.
  • Plattformen mit Multi-Tenant-Architektur: Anbieter von KI-Plattformen, die identische Modelle für viele Kunden bereitstellen, können LLM-Salting als systematische Maßnahme einsetzen, um die Wiederverwendung von Jailbreaks über Mandantengrenzen hinweg zu verhindern. Analog zum Passwort-Salting ließe sich so eine mandantenspezifische Härtung realisieren, ohne separate Modellarchitekturen betreiben zu müssen.
  • Regulierte und sicherheitskritische Domänen: In Bereichen wie Gesundheitswesen, Finanzdienstleistungen oder öffentlicher Verwaltung, in denen ein Fehlverhalten von Sprachmodellen erhebliche rechtliche oder ethische Konsequenzen haben kann, liefert LLM-Salting eine zusätzliche Sicherheitsschicht. Der Ansatz ist besonders attraktiv, da er bestehende Compliance- und GuardrailMechanismen ergänzt, ohne deren Logik grundlegend zu verändern.
  • Forschung und Modellkontrolle: Schließlich kann LLM-Salting auch als Werkzeug für die Forschung zur Interpretierbarkeit und Steuerbarkeit von Sprachmodellen dienen. Die gezielte Modifikation einzelner Aktivierungsrichtungen ermöglicht es, kausale Zusammenhänge zwischen internen Repräsentationen und beobachtbarem Verhalten systematisch zu untersuchen.

Insgesamt deutet vieles darauf hin, dass LLMSalting einen hohen praktischen Nutzen entfalten kann – besonders in großskaligen, wiederverwendeten und sicherheitsrelevanten Umgebungen. Als Bestandteil einer mehrschichtigen Verteidigungsstrategie trägt es dazu bei, die Diskrepanz zwischen theoretischer Modellabsicherung und realer Angriffspraxis zu verringern.

Mögliche Timelines für den breiteren Einsatz

LLM-Salting ist keine rein theoretische, sondern durchaus einsatzfähige Methode. In forschungsnahen Umgebungen und bei Organisationen mit direktem Zugriff auf die Modelle und das Fine-Tuning lässt sich der Ansatz bereits kurzfristig – innerhalb von Monaten – produktiv erproben. Dies betrifft allem voran Open-Source-basierte Umgebungen sowie unternehmensinterne Modelle, bei denen ein White-Box-Zugriff gegeben ist.

Für breitere industrielle Anwendungen ist eine schrittweise Einführung zu erwarten: In kundenorientierten Chatbots, Enterprise-Assistenten und Multi-Tenant-Plattformen erscheint ein produktiver Einsatz realistisch, sobald die Salting-Prozeduren stärker standardisiert und in bestehende Machine-Learning-Operations-Workflows integrierbar sind. Dieser Reifegrad dürfte im Zeithorizont von ein bis zwei Jahren erreichbar sein – auch weil ähnliche Prozesse zur Feinabstimmung und Zielausrichtung bereits heute routinemäßig betrieben werden.

In hochregulierten Domänen wird der Einsatz voraussichtlich später erfolgen, denn dort ist neben technischer Reife auch eine regulatorische Bewertung erforderlich – etwa im Hinblick auf Nachvollziehbarkeit, Auditierbarkeit und konsistentes Sicherheitsverhalten.

LLM-Salting hat jedoch den Vorteil, dass es bestehende Sicherheitsmechanismen nicht ersetzt, sondern ergänzt, was eine graduelle Einführung erleichtert.

Hinsichtlich der erforderlichen Expertise setzt die Implementierung von LLM-Salting ein interdisziplinäres Kompetenzprofil voraus. Auf technischer Ebene sind fundierte Kenntnisse in Deep Learning, Transformer-Architekturen und Repräsentationsanalyse notwendig, insbesondere im Umgang mit Aktivierungsräumen. Zusätzlich wird Erfahrung im Fine-Tuning großer Modelle sowie im Aufbau stabiler Trainings- und Evaluationspipelines benötigt. Darüber hinaus ist sicherheitsbezogene Expertise erforderlich, um Salting sinnvoll in bestehende Verteidigungsstrategien einzubetten.

Langfristig ist zu erwarten, dass sich LLM-Salting abstrahieren und teilweise automatisieren lässt, etwa durch standardisierte Werkzeuge zur Identifikation und Rotation verweigerungsrelevanter Aktivierungsrichtungen. Damit könnte sich der Ansatz von einer spezialisierten Forschungstechnik zu einem regulären Baustein industrieller KI-Sicherheitsarchitekturen entwickeln.

Fazit

LLM-Salting adressiert ein zentrales strukturelles Problem heutiger Sprachmodelle: die hohe Wiederverwendbarkeit von Jailbreak-Angriffen aufgrund homogener interner Repräsentationen.

Durch einen gezielten, minimalinvasiven Eingriff in verweigerungsrelevante Aktivierungsrichtungen gelingt es, die Übertragbarkeit solcher Angriffe wirksam zu unterbinden, ohne die Leistungsfähigkeit der Modelle einzuschränken. Der Ansatz verbindet ein Verständnis über LLM-Verhalten mit praktischer Umsetzbarkeit und stellt damit einen vielversprechenden Baustein für robuste, skalierbare und zukunftsfähige KI-Sicherheit in einer sehr absehbaren Zukunft dar.

Michael Veit ist Security-Experte und Technology Evangelist bei Sophos.

Literatur

[1] Ben Gelman, Sean Bergeron, Sophos AI at Black Hat USA ’25: Anomaly detection betrayed us, so we gave it a new job, Blogbeitrag, August 2025, www.sophos.com/en-us/blog/sophos-ai-at-black-hat-usa25-anomaly-detection-betrayed-us-so-we-gave-it-anew-job

Diesen Beitrag teilen: