CrowdStrike erklärt Vorfall – und wie eine Wiederholung verhindert werden soll
Das Cybersicherheitsunternehmen CrowdStrike hat jetzt ein Problem in seinem Validierungssystem für den Absturz von Millionen Windows-Geräten in der vergangenen Woche verantwortlich gemacht. Bekanntlich hatte das zu einem der größten IT-Ausfälle in der Geschichte geführt.
„Am Freitag, den 19. Juli 2024 um 04:09 UTC, veröffentlichte CrowdStrike im Rahmen des regulären Betriebs ein Inhaltskonfigurations-Update für den Windows-Sensor, um Telemetriedaten über mögliche neue Bedrohungsmethoden zu sammeln“, so das Unternehmen in seinem vorläufigen Post Incident Review (PIR). „Diese Updates sind ein regelmäßiger Bestandteil der dynamischen Schutzmechanismen der Falcon-Plattform. Das problematische Rapid-Response-Content-Konfigurationsupdate führte zu einem Absturz des Windows-Systems“.
Der Vorfall betraf Windows-Hosts mit Sensor-Version 7.11 und höher, die zwischen dem 19. Juli 2024, 04:09 UTC und 05:27 UTC online waren und das Update erhalten hatten. Apple macOS und Linux-Systeme waren nicht betroffen. CrowdStrike erklärt, dass Konfigurationsupdates für Sicherheitsinhalte auf zwei Arten bereitgestellt werden: über Sensor Content, der mit dem Falcon Sensor ausgeliefert wird, und über Rapid Response Content, der neue Bedrohungen durch Verhaltensmustererkennung erkennt. Der Absturz wurde durch ein fehlerhaftes Rapid-Response-Content-Update verursacht. Diese Updates bestehen aus Vorlageninstanzen, die bestimmten Verhaltensweisen entsprechen – von denen jede einem eindeutigen Vorlagentyp zugeordnet ist – um neue Telemetrie und Erkennung zu ermöglichen.
Die Vorlageninstanzen werden mit einem Inhaltskonfigurationssystem erstellt und dann über Kanaldateien aus der Cloud an den Sensor verteilt und auf die Festplatte des Windows-Rechners geschrieben. Eine Content-Validator-Komponente überprüft die Inhalte vor der Veröffentlichung auf ihre Gültigkeit. „Rapid Response Content bietet Sichtbarkeit und Erkennung auf dem Sensor, ohne dass Änderungen am Sensorcode nötig sind“, erklärt CrowdStrike. „Diese Funktion wird von Bedrohungserkennungsingenieuren genutzt, um Telemetriedaten zu sammeln, das Verhalten von Angreifern zu identifizieren und Maßnahmen zur Erkennung und Prävention durchzuführen. Rapid Response Content basiert auf verhaltensbezogenen Heuristiken, die sich von den KI-Präventions- und Erkennungsfunktionen des Sensors unterscheiden.“
Diese Updates werden vom Content Interpreter des Falcon-Sensors analysiert, wodurch die Sensor Detection Engine bösartige Aktivitäten erkennen oder verhindern kann, je nach der Konfiguration der Kundenrichtlinien.
Obwohl jeder neue Vorlagentyp einem Stresstest unterzogen wird, bei dem Parameter wie die Ressourcenauslastung und die Auswirkungen auf die Leistung geprüft werden, führt CrowdStrike das Problem auf die Einführung des Vorlagentyps für Interprozesskommunikation (IPC) am 28. Februar 2024 zurück. Dieser wurde entwickelt um Angriffe zu erkennen, die „Named Pipes“ missbrauchen.
Die Ereignisse im Überblick
- Februar 2024: CrowdStrike veröffentlicht den Sensor 7.11 mit einem neuen IPC-Template-Typ für die Kunden.
- März 2024: Der IPC-Template-Typ besteht den Stresstest und wird zur Nutzung freigegeben.
- März 2024: Die IPC-Template-Instanz wird über Channel File 291 in die Produktion eingeführt.
- bis 24. April 2024: Drei weitere IPC-Template-Instanzen werden in der Produktion eingesetzt.
- Juli 2024: Zwei zusätzliche IPC-Template-Instanzen werden bereitgestellt, eine davon enthält problematische Inhalte, die trotz Validierung durchgehen.
„Basierend auf den Tests, die vor der ersten Bereitstellung des Schablonentyps (am 05. März 2024) durchgeführt wurden, dem Vertrauen in die vom Content Validator durchgeführten Prüfungen und früheren erfolgreichen Bereitstellungen von IPC-Schabloneninstanzen, wurden diese Instanzen in der Produktion bereitgestellt“, so CrowdStrike.
Gelernte Lektionen
„Wenn sie vom Sensor empfangen und in den Content Interpreter geladen wurden, führte der problematische Inhalt in der Kanaldatei 291 zu einem Out-of-Bounds Memory Read – einem undefinierten Speicherzugriffsversuch, der einen Ausnahmezustand auslöste. Diese unerwartete Ausnahme konnte nicht ordnungsgemäß behandelt werden und führte zu einem Absturz des Windows-Betriebssystems (BSoD).“ Als Reaktion auf die massiven Störungen und um zukünftige Vorfälle zu verhindern, hat das texanische Unternehmen seine Testprozesse verbessert und das Fehlerbehandlungssystem im Content Interpreter erweitert. Außerdem plant es eine gestaffelte Bereitstellungsstrategie für Rapid Response Content.