RZ-Redundanz : Kriterien für die Standortwahl höchstverfügbarer und georedundanter Rechenzentren : Erläuterungen zur praktischen Anwendung in der Wirtschaft
Im Dezember 2018 hat das BSI „Kriterien für die Standortwahl höchstverfügbarer und georedundanter Rechenzentren“ veröffentlicht und diese 2019 novelliert [1]. Dieses Dokument hat für die deutsche Wirtschaft insgesamt Empfehlungscharakter und enthält Hinweise zur Planung und zum Risikomanagement von Rechenzentren und Rechenzentrumsverbünden.
Von Dr. Markus Held, Dr. Christian Ruge und Frank Weber, BSI
Die Geschäftsprozesse zahlreicher Unternehmen hängen in erheblichem und wachsendem Maße von der Verfügbarkeit, Vertraulichkeit, Integrität und Authentizität der in Anwendungen bearbeiteten Daten ab. Diese Anwendungen werden durch IT-Systeme zur Verfügung gestellt, die im Regelfall in zentralen Einrichtungen, sogenannten Rechenzentren (RZ), betrieben werden.
Rechenzentren zeichnen sich durch eine besondere technische Infrastruktur aus, die alle Versorgungsleistungen bereitstellt, die zum Betrieb der IT-Systeme erforderlich sind – beispielsweise Netzwerkanschlüsse, eigensichere hochverfügbare Stromversorgung und Klimatisierung. Entsprechend wichtig ist die physische Sicherheit von Rechenzentrumsstandorten.
Abhängig von der Platzierung eines Rechenzentrums ist es verschiedenen Gefährdungen ausgesetzt. Beispielsweise kann das Rechenzentrum in Abbildung 1 von Unfällen in der nebenliegenden Chemiefabrik betroffen sein. Auch könnten Fahrzeuge von der nahe gelegenen, stark befahrenen Straße abkommen und mit Gerätschaften auf dem RZ-Gelände kollidieren. Die Gefährdungssituation wird durch die Platzierung in der Einflugschneise eines nahe gelegenen Flughafens nicht besser.
Redundanz von Rechenzentren
Bei der Betrachtung von Rechenzentren unterscheidet das BSI verschiedene Verfügbarkeitsklassen – das wichtigste Kriterium ist dabei die Redundanz. Als „hochverfügbar“ ist ein RZ oder ein RZ-Verbund gemäß Einordnung des BSI einzustufen, wenn seine Zielverfügbarkeit bei 99,99 % pro Jahr liegt, das heißt die Dauer des maximal akzeptierten Ausfalls der Leistungsbereitstellung eine knappe Stunde pro Jahr nicht übersteigt. „Höchstverfügbar“ ist ein RZ-Verbund mit einer Zielverfügbarkeit von 99,999 % pro Jahr, was einem maximalen Jahresausfall von circa fünf Minuten entspricht. Soll eine Anwendung hoch- oder höchstverfügbar zur Verfügung gestellt werden, dann ist eine Grundvoraussetzung, dass diese Anwendung von einem RZ oder einem RZ-Verbund erbracht wird, welcher ebenfalls hoch oder höchstverfügbar ausgelegt ist.
Die Verfügbarkeit von RZ und RZ-Verbünden wird im Wesentlichen davon bestimmt, welche Komponenten redundant ausgelegt sind und wie diese Redundanz realisiert wird. Im einfachsten Fall wird Redundanz durch die doppelte Auslegung von Komponenten innerhalb eines einzelnen RZ erreicht. Hierdurch werden Bedrohungen, die einen RZ-Standort als Ganzes betreffen, jedoch nicht adressiert.
Desaster-Toleranz, also hundertprozentige Verfügbarkeit unter Berücksichtigung aller denkbaren Schadensszenarien, ist mit einem einzelnen RZ nicht realisierbar. Sie bedarf des Aufbaus eines Verbunds aus mindestens zwei, in der Regel sogar drei oder mehr einander Redundanz gebenden RZ. Sollen sich zwei RZ Redundanz geben, so sind die Standorte der RZ grundsätzlich so zu wählen, dass beide Standorte nicht von denselben Gefährdungen betroffen sind. Je weiter diese RZ voneinander entfernt sind, desto unwahrscheinlicher ist es, dass gleichartige Gefährdungen beide RZ betreffen.
Abbildung 2 illustriert dieses Prinzip: RZ 1 ist besonderen Gefährdungen wie zum Beispiel den Auswirkungen von Lawinen ausgesetzt, weil es in einer Bergregion liegt. RZ 2 ist hingegen Gefährdungen durch einen nahe liegenden Fluss ausgesetzt, zum Beispiel Überschwemmungen. Zwar sind beide RZ besonderen Gefährdungen ausgesetzt – weil diese aber nicht im Zusammenhang miteinander stehen, könnte man in einer Risikoanalyse zu dem Ergebnis kommen, dass die RZ einander Redundanz geben können. Diese Redundanzgebung wird im Bild durch den Pfeil symbolisiert.
Soll Redundanz einen Schutz auch gegen großräumige Schadensereignisse bewirken, so wird dies als „Georedundanz“ bezeichnet. Georedundanz ist besonders dann erforderlich, wenn ein Schutz vor solchen Großschadensereignissen angestrebt wird, die eine ganze Metropolregion betreffen können (z. B. großräumige Extremwetterlagen, Orkane, extreme Hochwasser, massive Terroranschläge).
Gibt ein drittes RZ zwei sich Redundanz gebenden RZ Redundanz, so kann damit Wartungsredundanz erzielt werden, das heißt, dass auch im Falle der Abschaltung eines RZ zu Wartungszwecken noch Redundanz gegeben ist.
Abbildung 1: Rechenzentrum in der Nähe eines Flughafens, einer Chemiefabrik und einer stark befahrenen Straße
Abbildung 2: Voneinander entfernte Rechenzentren mit unterschiedlichen Gefährdungen, die sich gegenseitig Redundanz geben
Distanzen für Datenspiegelung
Die Frage, welche Distanzen zwischen sich Redundanz gebenden RZ technisch möglich sind, hängt von den redundant genutzten Anwendungen ab. In vielen Industrien werden buchführende Systeme häufig durch Transaktionsverarbeitung mit relationalen Datenbanksystemen realisiert. Diese Systeme haben als Ziel, dass Buchungen entweder vollständig oder gar nicht durchgeführt werden, sodass inkonsistente Zustände der Daten stets vermieden werden. Datenspiegelung, die diese Eigenschaften transaktionsverarbeitender Datenbanksysteme zu erhalten versucht, erfordert synchrone Datenspiegelung.
Abhängig von der konkreten Ausprägung der unterstützten Anwendung ist synchrone Datenspiegelung jedoch auf relativ kurze Distanzen begrenzt (z. B. 20 km).
Im Unterschied dazu gibt es auch die Möglichkeit, temporäre Inkonsistenzen der Daten in Kauf zu nehmen. Im Datenbankbereich wird dann von „Eventual Consistency“, bei Datenspiegelung von asynchroner Datenspiegelung gesprochen. Die asynchrone Datenspiegelung ist hinsichtlich der technisch möglichen Distanzen praktisch nicht limitiert.
Abbildung 3 zeigt einen RZ-Verbund mit insgesamt vier einander Redundanz gebenden RZ. Jeweils zwei RZ befinden sich dabei in einem Abstand, der ihnen ermöglicht, eine synchrone Spiegelung der Daten vorzunehmen. Zugleich sind jeweils zwei RZ durch eine asynchrone Spiegelung verbunden, die Georedundanz ermöglicht.
In einigen Fällen kann eine Risikoanalyse zu dem Schluss kommen, dass eine asynchrone Spiegelung der Daten keinen Wiederanlauf der Geschäftsprozesse auf Basis der gespiegelten Daten ermöglicht. Auch in solchen Fällen kann es dennoch sinnvoll sein, zusätzlich zur synchronen Spiegelung eine asynchrone an einem weiter entfernten Ort einzuführen: Denn selbst dann, wenn ein Wiederanlauf nicht möglich sein sollte, könnte auf diese Weise der Datenverlust begrenzt werden. Dies kann zum Beispiel dann von Bedeutung sein, wenn ein Institut aufgrund eines verheerenden Datenverlusts zweier benachbarter RZ in wirtschaftliche Schwierigkeiten gerät und daher Maßnahmen zu seiner Rettung oder Restrukturierung erforderlich werden.
Kriterien zur Standortplanung
In den „Kriterien für die Standortwahl höchstverfügbarer und georedundanter Rechenzentren“ werden Orte genannt, von denen Gefahren für die Verfügbarkeit von Rechenzentren ausgehen können, sowie die Abstände, die zu solchen Orten bei der Standortwahl eingehalten werden sollen. Die Liste der Orte reicht von Verkehrswegen über Flughäfen, Anlagen der chemischen Industrie bis hin zu kerntechnischen Anlagen. Zusätzlich wird für die Standortwahl einander Georedundanz gebender RZ auf die Berücksichtigung großräumiger Gefährdungen wie zum Beispiel Erdbeben oder sogenannte Jahrhunderthochwasser eingegangen.
Hinsichtlich einer Favorisierung der synchronen oder asynchronen Kopplung von RZ enthalten die Kriterien keinerlei Vorgaben. Die Kriterien sind grundsätzlich bei Risikoanalysen für bestehende Rechenzentren und RZ-Verbünde sowie bei der Planung neuer RZ-Standorte anzuwenden.
In jedem Falle ist also auf Basis einer Risikoanalyse individuell zu entscheiden, welche Anforderungen an Rechenzentren bestehen. Insbesondere ist zu klären, ob und in welchem Umfang zusätzlich zur synchronen Datenspiegelung eine asynchrone Datenspiegelung erfolgen soll. Darüber hinaus ist bei Risikoanalysen zu erfassen, inwiefern bestehende Kriterien sich aus technischen oder wirtschaftlichen Gründen nicht umsetzen lassen und somit Restrisiken bestehen. Auf dieser Basis können Behandlungsoptionen für diese erwogen werden, zum Beispiel alternative technische Sicherungsmaßnahmen, der Abschluss von Versicherungen oder die bewusste Übernahme der Restrisiken.
Weiterhin können die hinsichtlich der Standortwahl dokumentierten Restrisiken eine hilfreiche Information für das Notfallmanagement darstellen. Denn auf dieser Basis können konkrete Notfallszenarien erwogen werden, die bei Notfallplänen und Notfalltests Berücksichtigung finden können.
Abbildung 3: Redundanz in einer Region und Georedundanz
Fazit
Bei Unternehmen mit hohen oder sehr hohen Anforderungen an die Verfügbarkeit von Anwendungen sollte in jedem Falle die Nutzung eines oder mehrerer Ausweich- oder Redundanz-Rechenzentren als Maßnahme zur Notfallvorsorge in Betracht gezogen werden.
Die in diesem Artikel beschriebenen Standortkriterien ermöglichen in diesem Kontext eine angemessene RZ-Standortplanung und korrekte Risikoanalysen. Daher ist ihre Kenntnis für die mit dem IT-Management befassten Stellen von hoher praktischer Bedeutung.