INS-ecommerce

Common Cause Failure

Ein weiterer Begriff, der in den letzten Tagen öfter erwähnt wurde, der aber leider noch nicht wirklich ins "öffentliche Bewusstsein" gelangt ist, lautet: common cause failure.

Vor ein paar Jahren (vielleicht zehn) hat die Karstadt AG in Essen mit großem Aufwand als Vorreiter in Deutschland ihr Shopping Portal "myWorld" gestartet. Karstadt war es damals sehr daran gelegen, daß von Anfang an das System auch unter großer Last einwandfrei und stabil funktionierte. Man war schließlich wer und wollte sich nicht vor der Öffentlichkeit und der Konkurrenz blamieren. Also wurden die Systeme viele Wochen vor dem eigentlichen Starttermin auch unter Hochlast sehr intensiv getestet.

Doch die Realität kann man nicht perfekt simulieren. Als myWorld dann produktiv gestartet wurde, gab es bei den vor den Webservern geschalteten IBM-Firewalls (damals noch auf Basis von AIX) einen Fehlerzustand (wir nannten es das "IP-Killerpaket"), der dazu führte, daß der aktive Firewall "abgeschossen" wurde, crashte und nicht wieder neu startete. An sich war das nicht tragisch, denn auch die Firewallsysteme waren mehrfach redundant angelegt. Nach dem der Haupt-Firewall ausfiel, übernahm automatisch in Sekundenbruchteilen ein Backup-Firewall. So weit, so gut.

Dummerweise waren alle Firewalls identischt. Und der Fehler, durch den beim "IP-Killerpaket" der Hauptfirewall abgeschossen wurde, war damit auch bei den Backup-Firewalls vorhanden. Dementsprechend wurde auch der Backup-Firewall wenige Minuten, nach dem er zum "Haupt-Firewall" wurde, ebenfalls durch ein "IP-Killerpaket" abgeschossen.

So etwas nennt man einen "common cause failure", durch das gleiche Ereignis bzw. durch die gleiche Ursache fallen mehrere Komponenten aus.

Nach kurzer Zeit war dann kein funktionsfähiger Firewall mehr vorhanden und "myWorld" war aus dem Internet komplett nicht mehr erreichbar. Das war für Karstadt damals der GAU (evtl. sogar ein Super-GAU). In diesem Moment wurde INS um Hilfe gebeten, obwohl wir mit myWorld bisher nicht direkt etwas zu tun hatten. Wir haben dann aus dem Stand einen rund-um-die Uhr Bereitschaftsdienst im Karstadt Rechenzentrum in Essen organisiert, bei dem dann permanent ein Mitarbeiter direkt an den AIX-Firewalls saß, um einen Firewall sofort manuell neu zu starten, sobald er abgeschossen wurde. So haben wir einige Wochen myWorld am Leben gehalten, bis es IBM geschafft hatte, den Fehler zu finden und zu beheben.

Jetzt war dieser durch einen "common cause failure" ausgelöste GAU bei Karstadt zwar unangenehm und hat Karstadt bestimmt viel Geld gekostet. Aber es waren keine Menschenleben (mit Ausnahme von ein paar herzinfarktgefährdeten Managern) in Gefahr.

Ein durch einen Common Cause Failure ausgelöster GAU (oder Super-GAU) bei einem Kernkraftwerk kann viele Menschen gefährden.

Als Schutz gegen den Fehler reicht es nicht einfach aus, wenn zum Beispiel bei einem Kernkraftwerk die Notstromversorgung pro Reaktor mehrfach redundant ausgelegt ist. So hat der damalige Leiter des Konstruktionsabteilung bei Vattenfall, Lars-Olov Höglund, vor ein paar Tagen in der Sendung vom Plasberg erzählt, daß es im Jahr 2006 beim Kernkraftwerk Forsmark in Schweden einen Zwischenfall gab, bei dem alle vier Kühlsysteme bzw. Notstromgeneratoren gleichzeitig ausgefallen waren, so daß der Kern nicht mehr gekühlt werden konnte, und immer heisser wurde. Eine gefährliche Situation, die bis zur Kernschmelze hätte führen können. Alle Bemühungen, die Fehlerursache zu finden und zu beheben, und die Systeme wieder zu starten, waren erfolglos.

Nach einiger Zeit sprangen zwei der vier Geräte/Systeme wieder an. Warum zwei der vier wieder funktionierten, war den Betreibern und auch Konstrukteuren völlig unklar. Laut Aussage von Herrn Höglund war es Glück/Zufall, denn erwartet hatten sie es damals nicht mehr.

Auch die Kraftwerke in Fukushima waren natürlich gegen Erdbeben und Überschwemmungen geschützt. Aber gegen ein so starkes Erdbeben mit anschließendem Tsunami waren weder die Kraftwerke/Reaktoren noch ihre Schutzsysteme/Notstromgeräte nicht geschützt, weshalb das Unglück in den Kraftwerksreaktoren überhaupt eintreten konnte. Also könnte man auch da von einem "common cause failure" sprechen.

Es nützt also nichts, wenn man redundante Ersatz-Systeme hat, um sich vor einem Common Cause Failure zu schützen. Man muß auch dafür sorgen, daß keine Ursache, egal ob bei der Konstruktion oder im Betrieb der Anlage, mehrere der Ersatz-Systeme gleichzeitig beeinträchtigt.

Das halte ich leider für praktisch unmöglich.

Um es mal mit einem Satz aus der Softwareentwicklung zu sagen:
Man kann keine idiotensichere Software schreiben, weil Idioten so erfindungsreich sind.


Geschrieben von af in am: Dienstag, 22. März 2011
Permalink

Tags: , , , , , ,

Diesen Beitrag bei folgenden Diensten bookmarken:
del.icio.us - Digg it - Mister Wong - Technorati - Ruhr.com Suchmaschine

Kommentare
  • Ralf Mittwoch, 23. März 2011, 00:26 Uhr
    Dabei ist es doch irgendwie Ironie des Schicksals das ausgerechnet ein Kraftwerk durch einen Stromausfall lahm gelegt wird.

    In Fukushima war es nicht wirklich ein common cause failure. Nach dem Ausfall der Notstromaggregate sprangen ja die Batterien ein, konnten aber nicht lange genug Strom liefern bis die Notstromaggregate wieder repariert waren. Hier fehlte einfach eine weitere Redzundanzstufe z.B. in Form einer externen Stromversorgug durch ein anderes Kraftwerk.
  • Andreas Mittwoch, 23. März 2011, 07:26 Uhr
    Die Redundanzstufe durch ein externes Kraftwerk bzw. durch das gesamte Stromnetz gab es ja. Aber auch diese Redundanzstufe wurde durch das gleiche Ereignis Erdbeben/Flutwelle zerstört.

    Ja, es ist irgendwie eine Ironie des Schicksals, dass Kernkraftwerke gerade dann besonders anfällig/gefährdet sind, wenn sie scheinbar "ausgeschaltet" sind und selber keinen Strom mehr liefern.

Nächster Artikel: Man braucht es nicht und trotzdem wird es wie verrückt gekauft.

Vorheriger Artikel: Stresstests von Kernkraftwerken gefordert