Über 1.100 ungeschützte KI-Server im Internet entdeckt : Sicherheitsexperten warnen vor Risiken und geben Schutzempfehlungen
Cisco-Forscher identifizieren massive Sicherheitslücken bei Ollama-Deployments. Etwa 20 Prozent der exponierten Server hosten aktive KI-Modelle ohne Authentifizierung.
Sicherheitsforscher von Cisco haben über 1.100 öffentlich zugängliche Server mit Large Language Models (LLMs) im Internet aufgespürt, die ohne jegliche Authentifizierung betrieben werden. Laut der Studie von Dr. Giannis Tziakouris und Elio Biasiotto konzentrierte sich die Untersuchung auf das beliebte Ollama-Framework, das für lokale KI-Deployments verwendet wird.
Die Forscher entwickelten ein Python-basiertes Tool, das die Suchmaschine Shodan nutzt, um exponierte LLM-Server systematisch zu identifizieren. Shodan indexiert internetverbundene Geräte und ermöglichte es den Wissenschaftlern, verwundbare Systeme zu finden, ohne diese direkt zu scannen. Von den 1139 entdeckten Ollama-Servern waren 214 Instanzen – etwa 18,8 Prozent – aktiv mit KI-Modellen bestückt und reagierten auf unbefugte Anfragen.
Die geografische Verteilung zeigt laut Cisco eine Konzentration in drei Regionen: 36,6 Prozent der exponierten Server befinden sich in den USA, 22,5 Prozent in China und 8,9 Prozent in Deutschland. Die Forscher geben an, dass sie IP-Adressen zum Schutz der betroffenen Organisationen nicht veröffentlichen.
Systematische Schwachstellen in KI-Infrastrukturen
Durch die ungeschützten LLM-Server entstehen mehrere Sicherheitsprobleme. Dazu gehören laut den Forschern unautorisierte API-Zugriffe, bei denen jeder ohne Authentifizierung Anfragen an die Modelle senden kann. Model Extraction Attacks ermöglichen es Angreifern, durch wiederholte Abfragen Modellparameter zu rekonstruieren.
Besonders problematisch sind Jailbreaking-Angriffe, bei denen Modelle wie GPT-4, LLaMA und Mistral manipuliert werden, um eingeschränkte Inhalte wie Fehlinformationen, schädlichen Code oder schädliche Ausgaben zu generieren. Resource-Hijacking (ML DoS Attacks) stellt eine weitere Bedrohung dar, da offene KI-Modelle für kostenlose Berechnungen ausgenutzt werden können, was zu erheblichen Kosten für die Betreiber führt.
Die Forscher warnen auch vor Backdoor-Injection und Model-Poisoning, bei denen Angreifer ungesicherte Endpunkte nutzen könnten, um schädliche Payloads einzuschleusen oder nicht vertrauenswürdige Modelle remote zu laden. Ein zusätzliches Risiko entstehe durch die weitverbreitete Verwendung OpenAI-kompatibler API-Schemas: 88,89 Prozent der entdeckten Endpunkte nutzen die standardisierte Routenstruktur von OpenAI, was die Entwicklung von automatisierten Angriffswerkzeugen für verschiedene Plattformen erleichtere.
Technische Erkennungsmethoden und Befunde
Das Cisco-Forschungsteam entwickelte einen zweistufigen Ansatz zur Identifikation verwundbarer LLM-Server. Zunächst durchsuchten sie Shodan nach Servern auf bekannten Standard-Ports verschiedener LLM-Plattformen: Ollama, Mistral und LLaMA-Modelle nutzen Port 11434, vLLM läuft auf Port 8000, llama.cpp verwendet die Ports 8000 und 8080, LM Studio nutzt Port 1234, GPT4All läuft auf Port 4891 und LangChain nutzt Port 8000.
Um falsch-positive Ergebnisse zu minimieren, führten die Forscher eine zusätzliche bannerbasierte Filterung durch. Dabei erweise sich die Erkennung von Uvicorn-ASGI-Servern als besonders wertvoll. Ein erheblicher Anteil der entdeckten Ollama-Instanzen lief auf diesem pythonbasierten Webserver, der häufig für asynchrone APIs verwendet wird. HTTP-Response-Header mit dem Feld „Server: uvicorn“ dienten als sekundärer Indikator, besonders wenn Service-Banner keine expliziten Ollama-Referenzen enthielten.
In der zweiten Phase testeten die Forscher die identifizierten Server mit automatisierten API-Anfragen. Sie verwendeten minimale, nicht invasive Prompts wie einfache Rechenaufgaben, um zu prüfen, ob Server ohne Authentifizierung reagieren. Eine erfolgreiche HTTP-200-Antwort mit korrektem Ergebnis zeigte an, dass der Server Prompts ohne Autorisierung ausführt – ein schwerwiegendes Sicherheitsproblem laut den Forschern.
Die Analyse ergab, dass die verbleibenden 80 Prozent der entdeckten Server zwar erreichbar waren, aber keine Modelle geladen hatten. Diese „ruhenden“ Server bleiben laut Cisco dennoch anfällig für Ausnutzung durch unautorisierte Model-Uploads oder Konfigurationsmanipulation. Ihre exponierten Schnittstellen könnten zudem für Angriffe wie Ressourcenauslastung, Denial-of-Service oder seitliche Bewegungen im Netzwerk (Lateral Movement) missbraucht werden.
Schutzmaßnahmen und Empfehlungen
Die Cisco-Forscher schlagen mehrere technische und verfahrenstechnische Schutzmaßnahmen vor, um LLM-Infrastrukturen abzusichern. Als kritischsten Schritt nennen sie die Implementierung robuster Authentifizierungsmechanismen. Ollama-Instanzen und LLM-Server generell sollten laut der Studie niemals öffentlich exponiert werden, ohne sichere API-Schlüssel-basierte oder Token-basierte Authentifizierung zu erfordern.
Netzwerksegmentierung und Firewalling stellen weitere wichtige Schutzmaßnahmen dar. Die Forscher empfehlen, LLM-Endpunkte hinter Netzwerk-Zugriffskontrollen wie Firewalls, VPCs oder Reverse Proxies zu betreiben und auf vertrauenswürdige IP-Bereiche oder VPNs zu beschränken. Die öffentliche Exposition von Inferenz-Endpunkten über das Internet, besonders auf Standard-Ports, erhöht dramatisch die Wahrscheinlichkeit einer Indexierung durch Services wie Shodan.
Rate Limiting und Missbrauchserkennung sollen automatisierten Missbrauch und Model-Probing verhindern. Die Integration von API-Gateways wie Kong oder Amazon API Gateway kann laut den Forschern Limits durchsetzen und anomales Verhalten überwachen. Dies erschwert Brute-Force-Angriffe, Prompt-Injection-Versuche oder Resource-Hijacking.
Zusätzlich empfehlen die Cisco-Experten, Standard-Ports zu ändern und Service-Banner zu verschleiern. Betreiber sollten laut der Studie erwägen, Standard-Ports zu ändern und ausführliche Service-Banner in HTTP-Antworten oder Headern zu deaktivieren, um beispielsweise Identifikatoren wie „uvicorn“ oder „Ollama“ zu entfernen.
Kontinuierliches Monitoring und automatisierte Exposure-Audits runden die Empfehlungen ab. Betreiber sollten laut Cisco kontinuierliche Überwachungstools implementieren, die warnen, wenn LLM-Endpunkte öffentlich zugänglich, falsch konfiguriert oder ohne Authentifizierung werden. Geplante Shodan-Abfragen oder benutzerdefinierte Scanner können helfen, Regressionen in der Deployment-Sicherheit zu erkennen.
