Kunden-Information zu Netzbeeinträchtigungen im GHOSTnet-Backbone am 15.06.2021 beginnend gegen 16:00 Uhr
Leider kam es beginnend mit dem 15.06.2021 ab gegen 16:00 Uhr zu Ausfällen einzelner Services in wesentlichen Teilen des GHOSTnet Netzwerks.
Netzkonzept: Die GHOSTnet GmbH betreibt verteilt über diverse Rechenzentrumsstandorte in Frankfurt am Main ein Netzwerk für den Betrieb mit dem Internet. Es werden über meist angemietete Dark Fiber Verbindungen (physische Glasfasern) aufsetzende Layer selbständig betrieben. Vereinfacht dargestellt folgt auf die physische Glasfaserverbindung aufsetzend ein WDM Layer, auf diesen ein Ethernet Layer als Transport Layer und aufsetzend ein Layer für das IP-Routing Layer3 verschiedener eigener autonomer Systeme (AS12586, AS31142, AS31025) inklusive vollautomatisiertem DDoS-Schutz. Der von GHOSTnet betriebene KleyReX® Internet Exchange verbindet über 300 Netze von Netzbetreibern miteinander. Über den Betrieb dieses Netzwerkes hinaus betreibt GHOSTnet bzw. deren Schwestergesellschaften Rechenzentren, Internet-Access und Cloud Services, die auch an den Backbone der GHOSTnet GmbH angeschlossen sind.
Das Netzwerk generell ist in einen inneren Ring und Außenstandorte unterteilt. Die Außenstandorte sind in der Regel über mindestens zwei Fiberwege mit mindestens zwei der inneren Hauptstandorte verbunden. Die Systeme des inneren Rings sind über in der Regel mindestens zwei Wege im Ring miteinander verbunden. Sämtliche Geräte und Wege sowie Standorte sind doppelt ausgelegt, um bei Wartungen und Ausfällen von Interfacen, Wegfall von Wegen, Geräten sowie auch ganzen Hauptstandorten eine strukturelle Redundanz auf allen Layern zu bieten. Dieses Konzept ist mit mehreren Evolutionsstufen beginnend seit dem Jahr 2014 konsequent mit Switchen und Routern des Herstellers Juniper umgesetzt worden.
Der Netzbetrieb war bislang langfristig stabil und sicher, das Konzept hatte sich bewährt.
Ab dem 15.06.2021 gegen 16:00 Uhr begannen ohne ersichtlichen Grund mit schneller Steigerung der Intensität Verbindungen zwischen den Switchen des Ethernet Transport Layers sowohl im inneren Ring als auch auf den Verbindungen von den Außenstandorten zum inneren Ring zu flappen (on/off). Nach relativ kurzer Zeit schaukelte sich diese Instabilität zu einem komplexen Ausfall vieler Services aus.
Die Entstörungsarbeiten begannen naturgemäß mit der ersten Fehlermeldung unserer umfangreichen Überwachungsmethoden der Netzwerkqualität und Verfügbarkeit durch unsere Mitarbeiter.
Da sich das gesamte Netz aus zu diesem Zeitpunkt nicht nachvollziehbaren Gründen leider nicht einfach segmentweise wieder anfahren ließ, wurden Schritte beschlossen, die umgehend ohne Pausen umgesetzt wurden.
- Suche und Eliminierung von Störeinflüssen durch Netzteilnehmer von innen und außen
- Software Updates der Netzkomponenten des inneren Rings
- Wegnahme sämtlicher Redundanzen zur Simplifizierung der Verbindungen untereinander
- Etablierung von alternativen Einzellösungen für die Wiederherstellung einzelner
Kundenservices
Da der Wiederherstellungsprozess dynamisch war, lässt sich keine allgemeine Ausfallszeit bestimmen. Für manche Kunden bestanden die Probleme kürzer als für andere. Einige Kunden beklagten lediglich flappende Services bis zur Wiederherstellung. Viele Kunden waren von längeren Ausfallphasen betroffen.
Bis Donnerstag, den 17.6.2021 gegen 7:49 Uhr morgens war die Stabilität des gesamten Netzwerkes wiederhergestellt. Es sind allerdings weiter einige Services nicht in der gewohnten Qualität oder Art und Weise verfügbar. Wir sind hier seit Beginn mit den Kunden in Korrespondenz und versuchen möglichst ohne negative Einflüsse für andere Kunden zu Hauptzeiten weiter eine Entstörung täglich zwischen 23 Uhr nachts und 6 Uhr morgens durchzuführen, um die Ruhe im Netzwerk zu den Hauptzeiten weiter aufrecht zu erhalten.
Es konnte bis heute leider kein singulärer Grund als ursächlicher und fortlaufender Störungsgrund für die erheblichen Netzwerkstörungen ausgemacht werden. Es scheint die Summe verschiedener Störungseinflüsse (Software-Bugs, störende Datenströme, komplexe Netzwerkstruktur usw.) zu sein, die hier die Probleme im Ergebnis schafft.
Maßnahmenplan:
- Absonderung möglichst vieler Services in eigene, unabhängigere Netzwerk-Segmente
- Erweiterung OOB Möglichkeiten und Zugänge auf sämtliche Netzwerkgeräte in Extremsituationen
- Erneute Überprüfung sämtlicher Netzwerkkonfigurationen
- Überprüfung sämtlicher Sicherheitseinstellungen des Netzwerkes insbesondere an Übergängen zu
Kunden und Netzwerkpartnern, Ableitung zusätzlicher Sicherheitseinstellungen als Standard - Weitere Analyse von Netzwerkungewöhnlichkeiten, grundlosem Fehlverhalten von Services
- Verbesserung der Verfügbarkeit unserer diversen Monitoring Systeme
- Planung für weitere Software Updates aller Netzwerkgeräte
- Verbesserung der Erreichbarkeit Telefon/Ticketsystem während Störungsphasen
- Statusseite für Betriebszustand und Updates zu Störungsverläufen einrichten
- Konzeptionelle Überarbeitung der Netzwerkstruktur, Ableitung Maßnahmenplan
Wir sind weiterhin der Auffassung ein im Marktvergleich extrem ausgereiftes, äußerst stabiles und in allen Leveln durchdachtes und extrem redundantes Netzwerkkonzept unter Anwendung modernsten Technologien zu betreiben. Wir halten extreme Reserven in unserem Netzwerk vor und haben fortlaufende Verbesserungsprozesse, die unser Netzwerk langfristig seit 1998 entwickeln. Wir bedauern den Vorfall für unsere Kunden und auch für uns wirklich sehr. Perfektion und Automatismen in allen Netzwerk-Bereichen und -Layern vs. Schaffung von sehr viel Komplexität der Systeme scheinen ein zweischneidiges Schwert zu sein, bei dem man abwägen muss, anstatt der Zeit stets zu weit voraus sein zu wollen.
Ihre GHOSTnet GmbH