Probleme der Backup-, Nagios-, DNS- und Locking-Dienste [Update 5]

Um 14:45 haben wir heute ein Hardware-Upgrade auf unserem Backup-Server durchgeführt. Wir haben dort zusätzlichen Hauptspeicher verbaut um ein in den letzten Tagen aufgetretenes Performance-Problem der nächtlichen Backups zu beheben. Das Upgrade wurde tagsüber durchgeführt, da der Server nur sekundäre Dienste anbietet und die Hauptfunktion nachts benötigt wird.

Unglücklicherweise sind beide System-Festplatten (RAID 1) nicht wieder angefahren und scheinen defekt zu sein. Wir befinden uns momentan noch in der Diagnose des Problems und haben weitere Aktivitäten an der Maschine auf morgen verschoben, da die Deadline des Versandes von Ersatzteilen heute bereits überschritten war.

Bitte beachten Sie, dass zwar alle primären Systeme korrekt funktionieren, wir jedoch momentan nicht in der Lage sind Backups anzufertigen oder vom Backup wiederherzustellen. Die im System gespeicherten Backup-Daten sind von dem Problem jedoch nicht betroffen.

In der Zwischenzeit ziehen wir die sekundären Dienste, die dieses System ebenfalls angeboten hat auf andere Systeme um: DNS, Nagios und der Locking-Dienst.
  • DNS wird parallel von zwei weiteren Maschinen angeboten und wir haben die Situation dadurch verbessert, dass der defekte Server aus der Resolver-Liste ausgetragen wurde, sodass keine weiteren Hänger bei Verbindungsaufbau mehr passieren sollten.
    Wiederherstellungsziel: erreicht
  • Der Nagios-Server wird auf eine andere Maschine verlagert, was aufgrund der vollen Automatisierung relativ unproblematisch sein sollte.
    Wiederherstellungsziel: Freitag, 12:00
  • Der Locking-Dienst (verantwortlich für Zugriffssperren auf den verteilten Storage-Systemen für VM-Start und Shutdown) wird ebenfalls auf eine andere Maschine verlagert.
    Wiederherstellungsziel: Donnerstag, 21:00
 [Update 19.05.2011 21:24 MESZ]

Der Locking-Dienst hat auf einem anderen Server wieder die Arbeit aufgenommen.


[Update 20.05.2011 09:58 MESZ]

Nagios ist seit etwa gestern 23:30 wieder verfügbar. 

Der Zugriff auf die Web-Oberfläche war aufgrund einer DNS-Fehlkonfiguration bis vor wenigen Minuten noch gestört, ist jetzt aber ebenfalls wieder verfübar.

Im Augenblick fehlen noch anwendungsspezifische Nagios-Checks, diese werden wir nach Wiederherstellung des Backup-Servers aus den Backups wieder einspielen.


[Update 20.05.2011 17:35 MESZ]

Der Backup-Server wurde neu installiert und ist teilweise arbeitsfähig. Wir sind im Augenblick dabei die Backup-Archive zu scannen um den Katalog der vergangenen Backups wiederherzustellen und den Backup-Dienst wieder in Betrieb zu nehmen. Dies wird voraussichtlich bis Montag, d. 23.05.2011 andauern.

Weiterhin haben wir bereits den Beschaffungsprozess für ein Ersatzsystem begonnen.

Die Performance- und Verfügbarkeitsdaten von Nagios stehen prinzipiell zur Verfügung, müssen von uns in der nächsten Zeit jedoch mit den inzwischen erzeugten Daten noch integriert werden.

[Update 24.05.2011 17:15 MESZ]


Der Katalog des Backup-Servers wurde nach 2 Versuchen erfolgreich wiederhergestellt. D.h. ab heute Nacht werden wieder regulär Backups angefertigt und ab sofort können auch Daten von vor dem 19.05.2011 wieder aus dem Backup bereitgestellt werden.

Es steht weiterhin aus, dass wir die Dienst-spezifischen Nagios-Checks sowie die Archivdaten (Verfügbarkeit und Performance) wieder restaurieren. Wir werden dies in den nächsten Tagen weiterverfolgen.

[Update 31.05.2011 13:11 MESZ]


Nachdem wir lange eine Lösung suchen mussten um die historischen Performance-Daten wieder mit den neu angelegten Datenbanken zu integrieren, haben wir nun eine Lösung gefunden. Der Prozess dauert noch an, hat aber bereits etwa 30% der Performance-Datenbanken reintegriert. Wir denken, dass dieser Vorgang später am Nachmittag abgeschlossen sein sollte und die historischen Performance-Daten wieder verfügbar sind.

Weiterhin haben wir heute die historischen Verfügbarkeitsdaten von Nagios restauriert.

    Eingeschränkter Support aufgrund von Verbindungsstörung im Büro [3. Update]


    Gegen 11:30 hat ein Bagger einer nahegelegenen Baustelle ein Kabel durchtrennt über welches unsere Kommunikationsdienste im Büro in Halle bereitgestellt werden.

    Aus diesem Grund sind wir daher im Augenblick nicht in der Lage telefonische Anfragen über unsere regulären Rufnummern anzunehmen beantworten jedoch weiterhin alle Anfragen per E-Mail wie gewohnt.


    Unsere Dienste im Rechenzentrum Oberhausen werden in der nächsten Zeit nicht mit aktualisierten Systemkonfigurationen versorgt werden und Dienste, die Echtzeitzugriff auf LDAP benötigen, werden keine Logins erlauben (z.B. der Zugriff auf Web-Statistiken).


    Wir erwarten jedoch keine weitergehenden Störungen im Anwendungsbetrieb.


    [Nachtrag 2011-05-09 18:42 MESZ]

    Unser E-Mail-Support-System ist im Augenblick leider auch nicht verfügbar, da die eingehenden Mails von unserem primären Mail-Server nicht ins Büro weitergeleitet werden können. Sollten Sie dringende Unterstützung benötigen, senden Sie bitte eine E-Mail direkt an --- oder rufen Sie --- an.

    Unser Telekommunikationsanbieter hat die Situation gegen 17:00 vor Ort begutachtet und versucht ab morgen früh voraussichtlich um 7 Uhr das Kabel zu reparieren. Sollten die Reparaturen wie geplant begonnen werden ist mit einer Wiederherstellung der Verbindungen um 8 Uhr zu rechnen.

    Wir sind weiterhin im Augenblick dabei unseren LDAP-Server ins Rechenzentrum zu verlagern, sodass wir unabhängig von der Reparatur der Leitung die Konfigurationsdienste und Authentifizierung wiederherstellen können.


    [Nachtrag 2011-05-09 18:58 MESZ]


    Vor wenigen Minuten ist ein Techniker unseres Providers eingetroffen und hat begonnen die Leitung zu reparieren. Wir hoffen darauf, dass die Leitung daher vorfristig heute noch wiederhergestellt wird.


    [Nachtrag 2011-05-09 20:56 MESZ]


    Der Techniker hat die defekte Leitung erfolgreich repariert. Seit etwa 19:30 sind alle Verbindungen und auch alle Dienster wieder hergestellt.