Storage-Server-Ausfall - einzelne VMs betroffen [1. Update]


Heute, gegen 19:30, sind auf einem unserer Storage-Server 3 von 7 Festplatten ausgefallen. Das hat dafür gesorgt, das der betroffene Server seinen Dienst vollständig eingestellt hat.

Allerdings sind nur wenige VMs davon betroffen und alle unsere zentralen Dienste stehen vollständig zur Verfügung: sollten Sie bis jetzt kein Problem bemerkt haben, dann sind ihre VMs nicht betroffen.

Wir haben vor einer Weile begonnen die VMs dieses Storage-Servers aus dem Backup wiederherzustellen (einige sind bereits wieder im Betrieb). Betroffene VMs sollten in den nächsten Stunden wieder verfügbar werden.

Ein Update zur weiteren Erläuterung des Zwischenfalls reichen wir später nach.


[Update 1: 18.4.2013 1:04]

Alle geschäftskritischen VMs und Kundendienste sind seit einer Weile wieder online. Unser Notfallplan schätzt bis zu 24h Zeit für die Wiederherstellung eines vollständig ausgefallenen Storage-Servers. Heute haben wir etwa 5 Stunden und 30 Minuten gebraucht um das Problem zu analysiseren, div. Skripte zu schreiben, Kundenanfragen zu beantworten und die Dienster wieder in Betrieb zu nehmen.