[Gelöst] Netzwerkprobleme auf einigen VMs [5. Update]

Nach der gestrigen Installation des Kernel-Updates auf unseren KVM-Servern gibt es momentan Kompatibilitätsprobleme bei einigen wenigen VMs. Die betroffenen VMs verlieren teilweise Ihre Netzwerkanbindung und müssen neugestartet werden.

Alle betroffenen VMs wurden mit einem "Watchdog" bestückt, der die Netzwerkverbindungen aktiv überwacht und im Fehlerfall kurzfristig einen sauberen Neustart auslöst. Diese Maßnahme sollte Diensteinschränkungen minimieren während wir an einer langfristigen Lösung arbeiten.

Voraussichtlich lässt sich der Fehler durch eine Aktualisierung des Kernels der VMs beheben. Wir werden dies morgen prüfen und uns bemühen insbesondere die VMs mit Problemen schnellstmöglich wieder zu stabilisieren.

Leider ist diese Inkompatibilität in unserer Entwicklungs- und Testumgebung nicht aufgefallen und es ist bisher auch kein Muster bekannt, mit dem der Fehler provoziert werden kann.

Wir entschuldigen uns für die entstehenden Unannehmlichkeiten und bitten um Ihre Geduld und ihr Verständnis während wir daran arbeiten den Normalzustand wieder herzustellen.

1. Update (07.10.2013 09:19)

Wir haben heute morgen damit begonnen einen aktualisierten Kernel für virtuelle Maschinen bereitzustellen. Unser Ziel ist es, die bisher betroffenen Maschinen bis Mittag mit diesem Kernel zu versorgen um kurzfristig Daten über die Stabilität zu sammeln. Auf diesen Daten basierend werden wir im Verlauf des Tages  das weitere Vorgehen entwickeln.

2. Update (07.10.2013 12:02)

Wir haben erfolgreich einen neuen Kernel (3.10) für virtuelle Maschinen in unserer Entwicklungsumgebung bereitgestellt. Dabei sind keine negativen Auswirkungen auf System- oder Anwendungsebene aufgefallen. Wir rollen den Kernel jetzt vollständig in unserer Staging-Umgebung aus sowie auf einzelnen VMs im Rechenzentrum, die für interne Dienste zuständig sind. Sollten keine negativen Effekte auftreten werden wir die bisher betroffenen VMs voraussichtlich in den nächsten 2 Stunden aktualisieren.

3. Update (07.10.2013 16:08)

Wir haben den neuen Kernel auf einigen Maschinen ausgerollt jedoch leider noch keinen stabilen Betrieb damit erzielt. Zusätzlich haben wir jedoch die Information erhalten, dass ein bestimmtes Offloading-Feature für virtuelle Netzwerkkarten unter manchen Umständen zu den aktuellen Fehlern führt. Wir haben es geschafft mit dem neuen Kernel und dieser Einstellung die Stabilität deutlich zu verbessern und werden dies in den nächsten Stunden nochmal auf den Prüfstand stellen. Sollten die Ergebnisse zufriedenstellend sein werden wir im Laufe des Abends den neuen Kernel mit den deaktivierten Offloading-Optionen vollständig ausrollen.

4. Update (08.10.2013 01:48)

Die Kombination aus neuem Kernel und deaktiviertem Offloading hat sich als Maßnahme bewährt: wir haben seit etwa 7 Stunden keine gecrashte VM mehr beobachtet und inzwischen alle VMs auf den neuen Stand aktualisiert.

Wir stehen außerdem noch in Kontakt mit dem offiziellen KVM-Entwicklern und versuchen das Problem in einer Laborumgebung nachzustellen und einen langfristigen Fix, auch für andere Anwender, herbeizuführen.

5. Update (08.10.2013 15:40)

Wir überwachen unsere Infrastruktur seit gestern Abend und konnten keinen weiteren Crash einer VM mehr beobachten. Wir betrachten das Problem daher als gelöst.

Zwischenzeitlich haben wir in Zusammenarbeit mit den offiziellen KVM-Entwicklern mit der Nachstellung des Problems in einer Laborumgebung begonnen. Das wird hoffentlich helfen, die Ursache des Problems zu finden und die KVM-Entwicklern dabei unterstützen, einen Fix bereitzustellen.