Vergangene Woche erhielt ich eine Warnmail von einem Kundenserver: eine der vier Festplatten stehe kurz vor dem Ausfall. Der Austausch ist eigentlich eine Routineaufgabe – die dann aber doch ziemlich ausartete und mich für ein paar Stunden fürchten ließ, sämtliche Daten verloren zu haben – inklusive Backup.
Solche „Pre-Fail“-Meldungen sind eine gute Sache – der Server warnt nicht erst, wenn eine Festplatte ausgefallen ist, sondern schon, wenn sich ein bevorstehender Ausfall abzeichnet. Dadurch gewinnt man wertvolle Zeit.
Ich bestellte also eine Ersatzplatte und nahm den nicht abreißenden Strom an Warnmeldungen recht gelassen hin: ist recht, ich hatte mich ja darum gekümmert. So entging mir, dass sich unter die mehreren hundert Mails kurz darauf auch Meldungen über den bevorstehenden Ausfall einer zweiten Platte mischten.
Plan A und B…
Als die Ersatzplatte eintraf, fuhr ich sofort zum Kunden, baute sie ein, der Rebuild begann automatisch – alles wunderbar. Bis ich abends noch mal reinschaute und sah: der Vorgang war nach wenigen Minuten abgebrochen. Auch ein zweiter Versuch brach ab. Offensichtlich war die zweite Platte doch schon so beschädigt, dass sie für den Rebuild nicht mehr vollständig ausgelesen werden konnte. Also hielt ich tags darauf Rücksprache mit dem Hersteller und wurde freundlich informiert: ich müsse den RAID-Verbund verwerfen – das sei der Moment, für den man Datensicherung betreibe. Das stimmt: dass ich meine Kunden unaufhörlich dränge, die Backupplatte regelmäßig zu wechseln… dass ich die Datensicherung regelmäßig kontrolliere… jahraus, jahrein: alles für diesen Moment.
Ich war also immer noch relativ entspannt, denn die Sicherung lief einwandfrei. Mir war zwar bewusst, dass das eine „Operation am offenen Herzen“ werden würde, aber ich war ja gut gerüstet. Vom Kunden bekam ich ein Zeitfenster von Samstag- bis Sonntagabend für die Reparatur. Zum besprochenen Zeitpunkt erstellte ich eine letzte Sicherung („erfolgreich abgeschlossen“), prüfte noch mal alles und löschte dann beherzt den RAID-Verbund. Unser Glück war, dass die bisher verbauten Platten (4*500GB) nicht mehr lieferbar waren und ich als Ersatz stattdessen schon zum zweiten Mail eine 1TB-Platte geliefert bekommen hatte. Ich hatte also die Chance, diese beiden relativ jungen Platten zu einem RAID1 zu verbinden, das etwas weniger, aber immer noch ausreichend Platz für die Kundendaten bot.
Plan C, D und E…
Auf dem neuen RAID-Verbund legte ich wie vorgefunden drei Partitionen für System, Mails und Daten an und startete dann von der Windows-Server-DVD, um die Sicherung zurückzuspielen. An der Stelle kam das erste Erschrecken: die USB-Festplatte wurde überhaupt nicht erkannt. Also griff ich zu einer List: ich steckte die Backup-Platte an den USB-Port einer NAS, die ich als Ausweichspeicher mitgebracht hatte und konnte sie so übers Netzwerk freigeben. Et voilà – auf diesem Weg wurde sie akzeptiert. Die Rücksicherung begann und ich lehnte mich erleichtert zurück. Allerdings nur für einen Moment, denn der Vorgang brach nach wenigen Minuten ab. Die Fehlermeldung 0x80780015b war wenig hilfreich – in Internetforen wurde spekuliert, dass es sich um einen Hinweis auf eine beschädigte Datensicherung handle. Auch der Fehlercode “2155348129”, den ich später erhielt, brachte mich nicht weiter. Mir brach zum ersten Mal der Schweiß aus: wie viel konnte man einem „Sicherung erfolgreich abgeschlossen“ trauen? Inzwischen ging es auf Mitternacht zu, ich war ohnehin halb erkältet und ging erst mal schlafen.
Unangenehme Gespräche und Plan F, G, H…
Am nächsten Morgen legte ich mir einen Aktionsplan zurecht: weitere Schritte, die ich noch versuchen könnte, aber auch Stichworte zum Gespräch mit dem Kunden zum aktuellen Stand. Was sagt man in so einem Fall? „Tut mir leid, du hast zwar regelmäßig die Platte gewechselt, ich habe regelmäßig die Sicherung kontrolliert, es wurde immer Erfolg vermeldet, aber deine Daten und sämtliche Mail-Postfächer sind jetzt trotzdem weg“? Unschön.
Das Gespräch blieb mir vorerst erspart, weil ich den Kunden nicht erreichte, also machte ich mich an weitere Versuche. Die Sicherung in VirtualBox mounten, um zu sehen, ob der Server dort startet? Fehlanzeige. Den Server mit c’t-Notfall-Windows booten und versuchen, das Image mit Hilfe von vhd2disk zurückzuschreiben? Der Versuch brach – Überraschung – nach wenigen Minuten ab. Die Partition sei gemountet und der Vorgang werde sicherheitshalber abgebrochen.
Auch eine zweite Backupplatte gab es noch (weil der Kunde ja brav regelmäßig die Platten wechselt) – die enthielt allerdings eine zehn Tage alte Sicherung. Besser als nichts, aber auch nicht richtig gut. In solchen Momenten ist man ja gerne verleitet, noch dieses und jenes zu versuchen, und schwupps – hat man plötzlich aus Versehen die einzige Backupplatte formatiert und endgültig alles in den Abgrund gerissen. Ich hatte in der Zwischenzeit zwar eine Kopie der aktuellsten Sicherung angefertigt, allmählich aber trotzdem enormen Respekt vor der Situation, in der ich an diesem Sonntagvormittag festsaß.
Plan I, J, K, L… und unverhoffte Erleichterung.
Also schaute ich eine Weile aus dem Fenster und dachte mir weitere Lösungsansätze aus. Mir fiel ein, dass ich auf diesem Weg nur die Systempartition zu retten hätte – Mailboxen und Kundendaten könnte ich auch später noch aus dem laufenden Betriebssystem zurücksichern. Also löschte ich den RAID-Verbund ein weiteres Mal, zog die nicht mehr benötigten alten Festplatten aus den Slots – man weiß ja nie – und erstellte nur ein einzelnes logisches Laufwerk, ein kleines bisschen größer als beim vorigen Versuch. Weil ich die Datensicherung zwischenzeitlich direkt auf dem NAS liegen hatte, unternahm ich den folgenden Rücksicherungsversuch von dort aus.
Und was soll ich sagen? Der Restore lief problemlos durch. Welcher Teil des Maßnahmenbündels aus dem vorangegangenen Absatz letztlich geholfen hat, kann ich nicht sagen. Der Server startete einwandfrei, was ich (sinnbildlich) nägelkauend verfolgte, und gönnte sich dann erst mal eine gute Stunde, um in Seelenruhe Updates zu installieren, die wohl just am Vortag bereitgestellt worden waren. Als das durch war, konnte ich zwei weitere Laufwerke anlegen, Postfachspeicher und Kundendaten zurücksichern – und auch die Exchange-Datenbank ging sofort ohne Murren online (damit hatte ich nach diesem Drama ja nun wirklich nicht gerechnet).
Nach ziemlich genau vierundzwanzig Stunden konnte ich also die erlösende Nachricht schicken: alles funktioniert wieder.
Lessons learned?
Was lerne ich nun daraus? Dass das nicht nur dieser eine Moment ist, für den man Backup macht, sondern auch der, für den man eine Berufshaftpflicht hat? Dass ich mir einen weniger nervenaufreibenden Job oder zumindest einen Partner suchen sollte? Dass ich noch mehr Sorgfalt als ohnehin schon auf Backup-Kontrolle und regelmäßige Rücksicherungs-Tests verwenden sollte? (Aber mal Hand aufs Herz: wer macht das schon? Welcher Selbständige kann die Hardware dafür vorhalten? Und wer ist bereit, dafür zu bezahlen?)
Ich weiß es noch nicht. Fürs Erste nehme ich es als Warnschuss, und wenn ich meine Kunden in den kommenden Monaten noch hartnäckiger als sonst an ihre Datensicherung erinnern werde, dann mögen sie es mir nachsehen. Es ist zu ihrem – und meinem – Besten.