Reflektionen des Systemausfalls vom 30. Oktober

Wie Du wahrscheinlich erlebt hast, hatten wir einen Serviceausfall am Mittwoch letzter Woche, als die Debitoor Applikation nicht verfügbar war für einen Zeitraum von 2,5 Stunden. Die Funktion Angebote war für 4,5 Stunden nicht verfügbar.

Da unser Ziel ist Dir Debitoor rund um die Uhr zur Verfügung zu stellen, sind wir nicht besonders stolz auf diesen Systemausfall und entschuldigen uns vielmals dafür.

Folglich werde ich im Detail erläutern, welche Massnahmen wir unternommen haben um das Problem zu lokalisieren und welche wir zur Vorbeugung getroffen haben.

Zeitleiste

11:40 Uhr: Zwei unserer Entwickler haben ein Update gefahren. Dies sollte nicht den Betrieb stören, da es normalerweise ein Routineablauf ist. Diesmal lief das Update nicht wie erwartet und die Funktion Angebote war nicht mehr in der Applikation. Alarm!

11:45 Uhr: Wir mussten das Programm offline nehmen, um den Kasus Knacktus zu finden.

14:15 Uhr: Sicher, den Schaden nicht direkt beheben zu können, schalteten wir das Programm wieder online und untersuchten weiter.

14:41 Uhr: Wir fanden heraus, dass auch die Ausgaben von einem ähnlichen Problem betroffen waren, und zwar aufgrund eines Systemupdates vom Vortag.

15:30 Uhr: Das Problem mit den "Ausgaben" konnte behoben werden und das Roll Out wurde durchgeführt. 18:30 Uhr: Nach einer 7-stündigen Auszeit konnten die Angebote vollständig wieder hergestellt werden und Debitoor lief normal.

Ursachen

Normalerweise verläuft ein Update nach einem automatischen Prozess, d.h. wir vertrauen auf eine Reihe von Entwicklungstools. So oft wie nötig und ohne unser persönliches Zutun - vor allem ohne Systemausfall.

Eine Woche vor dem Ausfall haben wir Änderungen an einem unserer Entwicklungstools vorgenommen samt davon abhängigen gleichzeitigen Updates von Debitoor. Diese durchliefen vorher einem Review samt Testprozess.

Offensichtlich trat diesmal ein Fehler auf und wir nutzten viel Zeit für die Problemanalyse, um ähnliche Fehler in Zukunft vermeiden zu können.

Zwei Fehler wurden identifiziert:

  • Aufgrund eines menschlichen Fehlers wurde das Update ohne der notwendigen Änderugen des neuen Entwicklungstools gefahren.

  • Das Review und Testen wurden versehentlich auf dem verkehrten Entwickler-Tool durchgeführt.

Aus Fehlern lernen

Lernen generell - und besonders aus Fehlern - ist unabdingbar, wenn man einen online Service wie Debitoor betreiben will. Unsere Policy ist Fehler nicht zu wiederholen und deshalb haben wir die folgenden Initiativen ergriffen:

  • Unsere manuellen Prozesse zu verbessern, um dieser Art Updates gewappnet zu sein

  • Weitere automatische Kontrollen der Problem verursachenden Prozesse einzuführen

Wir sind sicher, dass der Fehler in Zukunft nicht mehr auftauchen kann.

Zu guter Letzt

Wir können uns gar nicht oft genug für das Downtime entschuldigen. Wir wissen, wie es sich anfühlt mit anzusehen, wie Deine Arbeit offline geht und arbeiten wirklich hart daran, dass dies nicht erneut passieren wird.

Geschrieben von SusanneSusanne, 7. November 2013