Probleme der Backup-, Nagios-, DNS- und Locking-Dienste [Update 5]

Um 14:45 haben wir heute ein Hardware-Upgrade auf unserem Backup-Server durchgeführt. Wir haben dort zusätzlichen Hauptspeicher verbaut um ein in den letzten Tagen aufgetretenes Performance-Problem der nächtlichen Backups zu beheben. Das Upgrade wurde tagsüber durchgeführt, da der Server nur sekundäre Dienste anbietet und die Hauptfunktion nachts benötigt wird.

Unglücklicherweise sind beide System-Festplatten (RAID 1) nicht wieder angefahren und scheinen defekt zu sein. Wir befinden uns momentan noch in der Diagnose des Problems und haben weitere Aktivitäten an der Maschine auf morgen verschoben, da die Deadline des Versandes von Ersatzteilen heute bereits überschritten war.

Bitte beachten Sie, dass zwar alle primären Systeme korrekt funktionieren, wir jedoch momentan nicht in der Lage sind Backups anzufertigen oder vom Backup wiederherzustellen. Die im System gespeicherten Backup-Daten sind von dem Problem jedoch nicht betroffen.

In der Zwischenzeit ziehen wir die sekundären Dienste, die dieses System ebenfalls angeboten hat auf andere Systeme um: DNS, Nagios und der Locking-Dienst.
  • DNS wird parallel von zwei weiteren Maschinen angeboten und wir haben die Situation dadurch verbessert, dass der defekte Server aus der Resolver-Liste ausgetragen wurde, sodass keine weiteren Hänger bei Verbindungsaufbau mehr passieren sollten.
    Wiederherstellungsziel: erreicht
  • Der Nagios-Server wird auf eine andere Maschine verlagert, was aufgrund der vollen Automatisierung relativ unproblematisch sein sollte.
    Wiederherstellungsziel: Freitag, 12:00
  • Der Locking-Dienst (verantwortlich für Zugriffssperren auf den verteilten Storage-Systemen für VM-Start und Shutdown) wird ebenfalls auf eine andere Maschine verlagert.
    Wiederherstellungsziel: Donnerstag, 21:00
 [Update 19.05.2011 21:24 MESZ]

Der Locking-Dienst hat auf einem anderen Server wieder die Arbeit aufgenommen.


[Update 20.05.2011 09:58 MESZ]

Nagios ist seit etwa gestern 23:30 wieder verfügbar. 

Der Zugriff auf die Web-Oberfläche war aufgrund einer DNS-Fehlkonfiguration bis vor wenigen Minuten noch gestört, ist jetzt aber ebenfalls wieder verfübar.

Im Augenblick fehlen noch anwendungsspezifische Nagios-Checks, diese werden wir nach Wiederherstellung des Backup-Servers aus den Backups wieder einspielen.


[Update 20.05.2011 17:35 MESZ]

Der Backup-Server wurde neu installiert und ist teilweise arbeitsfähig. Wir sind im Augenblick dabei die Backup-Archive zu scannen um den Katalog der vergangenen Backups wiederherzustellen und den Backup-Dienst wieder in Betrieb zu nehmen. Dies wird voraussichtlich bis Montag, d. 23.05.2011 andauern.

Weiterhin haben wir bereits den Beschaffungsprozess für ein Ersatzsystem begonnen.

Die Performance- und Verfügbarkeitsdaten von Nagios stehen prinzipiell zur Verfügung, müssen von uns in der nächsten Zeit jedoch mit den inzwischen erzeugten Daten noch integriert werden.

[Update 24.05.2011 17:15 MESZ]


Der Katalog des Backup-Servers wurde nach 2 Versuchen erfolgreich wiederhergestellt. D.h. ab heute Nacht werden wieder regulär Backups angefertigt und ab sofort können auch Daten von vor dem 19.05.2011 wieder aus dem Backup bereitgestellt werden.

Es steht weiterhin aus, dass wir die Dienst-spezifischen Nagios-Checks sowie die Archivdaten (Verfügbarkeit und Performance) wieder restaurieren. Wir werden dies in den nächsten Tagen weiterverfolgen.

[Update 31.05.2011 13:11 MESZ]


Nachdem wir lange eine Lösung suchen mussten um die historischen Performance-Daten wieder mit den neu angelegten Datenbanken zu integrieren, haben wir nun eine Lösung gefunden. Der Prozess dauert noch an, hat aber bereits etwa 30% der Performance-Datenbanken reintegriert. Wir denken, dass dieser Vorgang später am Nachmittag abgeschlossen sein sollte und die historischen Performance-Daten wieder verfügbar sind.

Weiterhin haben wir heute die historischen Verfügbarkeitsdaten von Nagios restauriert.