INS-ecommerce

Stromausfall im Datacenter: Die unterschätzte Gefahr

Gestern am frühen Morgen gab es in einem Düsseldorfer Rechenzentrum einen größeren und relativ langen Ausfall durch Stromausfall. Selbst am Mittag waren nicht alle Server wieder online, wie Stichproben ergaben.

Erstaunlich hierbei ist, dass der Ausfall nicht "einfach so" passierte, sondern im Rahmen einer geplanten Wartungsarbeit. Am Freitag las sich die kurzfristige Ankündigung so:
In den frühen Morgenstunden des 24.06.2007 wird xxx am Standort Düsseldorf eine betriebliche Wartung zur Erweiterung der USV-Module vornehmen. Die Wartung ist in diverse Einzelschritte unterteilt. Die gesamten Arbeiten werden in etwa 18-20 Stunden andauern.
Die Stromversorgung im Gateway wird während der Wartung über den hauseigenen Dieselgenerator sichergestellt.

Wir erwarten keine Auswirkungen für Ihr im Gateway befindliches Equipment. Diese Mitteilung dient lediglich zu Ihrer Information.


Am Sonntag früh kam dann die Hiobsbotschaft:
Bei den erwähnten Wartungsarbeiten kam es aus uns derzeit noch unbekanntem Grund leider zum Ausfall diverser Stromkreise. Derzeit befinden sich unsere Techniker im Gateway Düsseldorf und reaktivieren zusammen mit Technikern von xxx die betroffenen Cabinets. Um ein Lösen von Sicherungen durch Stromspitzen beim Einschalten der Rechner zu vermeiden passiert dies Rack für Rack. Aufgrund der Vielzahl der betroffenen Kunden kann es zu Problemen/Engpässen bei der Entgegennahme von Telefonanrufen kommen.


Es geht hier nicht um Schadenfreude, weil Andere Fehler machen. Und auch nicht darum, auf vermeintlich unfähige Techniker zu schimpfen.

Es geht mir darum Aufmerksam darauf zu machen, dass Stromausfall (im Datacenter) anscheinend immer häufiger die Ursache für größere Ausfälle darstellt, und nicht mehr der Ausfall von Switches, Routern und anderen Netzwerkkomponenten.

Erschreckenderweise waren die (mir bekannten) letzten 3 größeren Ausfälle in DE Stromausfälle, die während einer Wartung der Stromversorgung auftraten (jeweils bei unterschiedlichen Anbietern).

Was könnten die Ursachen sein?

Ein Punkt ist sicherlich fehlende Fachkompetenz. Im Datacenter arbeiten oft nur Systemadministratoren und Netzwerktechniker. Diese sind aber keine Starkstromtechniker, auch wenn Sie meinen, das bisschen Stromversorgung wäre ja läppisch. Tatsächlich ist es das aber nicht. Durch die steigenden Serverzahlen und auch den steigenden Stromverbrauch jedes Servers kann in einem Datacenter durchaus der Stromverbrauch einer Kleinstadt zustande kommen. Um die damit im Zusammenhang stehenden Risiken und Abhängigkeiten zu beurteilen und zu bewältigen, sind nicht IT-Spezialisten sondern Starkstromexperten gefragt.

Ein weiterer Punkt ist sicherlich schlechte Planung und der Wunsch zum Kosten sparen: Kaum ein Kunde fragt wirklich intensiv nach der Qualität und Zuverlässigkeit der Stromversorgung. Sobald ein Anbieter die Schlüsselworte "Redundanz" und "Dieselgenerator" sagt, geben sich die meisten Kunden zufrieden. Doch was heisst Redundanz eigentlich bei einem konkreten Anbieter und was steckt dahinter? Viele Anbieter wachsen ja über die Jahre. Und Lösungen, die vor Jahren mal ausreichend waren, sind den aktuellen Belastungen eigentlich nicht mehr gewachsen, werden aber weiter betrieben. Sieht der Kunde ja nicht, solange alles gut geht. Denn Investitionen in eine bessere Stromversorgung sind meist sehr große Investitionen, von denen der Kunde aber erstmal nichts bemerkt. Also werden diese herausgezögert.

Das Ergebnis: Fehlende Redundanz!

Menschen machen Fehler. Auch Techniker im Datacenter. Um sich gegen diese und andere Fehler (z.B. Fehler durch Hardwaredefekt) abzusichern, versucht man Redundanz zu erreichen, so dass der Ausfall einer Komponente nicht das gesamte System zum Ausfall bringt, und es keinen sogenannten single point of failure gibt.

Die Stromversorgungen der meisten Datacenter sind zwar in Teilen redundant ausgelegt, aber nicht in allen. Und so gibt es mehrere single point of failure. Stromausfall im Datacenter wird häufiger durch interne Fehler verursacht, als durch externen Stromausfall beim Stromlieferanten.

Wenn also Ihr Dienstleister das nächste mal von Wartungsarbeiten an der Stromversorgung schreibt, die eigentlich keine Auswirkungen haben sollten: Glauben sie ihm nicht und machen Sie sofort ein ausgelagertes Backup Ihrer Server, informieren Sie Ihre Nutzer, und zünden Sie eine Kerze an, in deren Schein Sie ein paar Stossgebete zum höheren Wesen Ihrer Wahl machen. Vielleicht hilft es ja.


Geschrieben von af in am: Montag, 25. Juni 2007
Permalink

Tags: , , , , ,

Diesen Beitrag bei folgenden Diensten bookmarken:
del.icio.us - Digg it - Mister Wong - Technorati - Ruhr.com Suchmaschine

Kommentare

Nächster Artikel: Max Bahr Baumärkte schliessen Online-Shop

Vorheriger Artikel: Telekom Streik blieb ohne große Auswirkungen