Was ist denn eigentlich ein Post Mortem?

In den letzten beiden Artikeln (Post Mortem I & Post Mortem II) habe ich das Thema „Post Mortem“ eher von der fiktionalen Seite betrachtet. Heute möchte ich etwas genauer beleuchten, was das ist und wozu es gut ist.

Wie gehen wir damit um, wenn etwas schief geht?

Das ist eine Frage, die sich eigentlich immer stellt, wenn es in einer Firma mal rumpelt, und man kann sich dieser Frage auf mehreren Ebenen nähern.

Wenn ein Dienst ausfällt, der Patient vor den Augen des behandelnden Arztes zu sterben droht oder das Flugzeug sich im Sturzflug befindet, werden wir darauf in irgendeiner Weise reagieren. Das unmittelbare Problem ist die erste Ebene. In Anbetracht eines Konflikts, der unsere schöne heile Welt durcheinander bringt, werden wir die Situation unter Kontrolle bringen wollen, was auch immer das für uns persönlich bedeutet.

Wie wir tatsächlich reagieren ist eine weitere Ebene und sie ist von verschiedenen Faktoren abhängig.

Würden wir beispielsweise einfach versuchen zu fliehen, wenn uns das Ergebnis wichtig ist? Wenn der Patient auf dem Tisch unser Partner oder Partnerin ist, wir uns für den Dienst oder die Passagiere im Flug verantwortlich fühlen, würden wir dem Problem vermutlich nicht einfach den Rücken zu kehren, oder? Wenn es um etwas geht, das wir als unseren Verantwortungsbereich betrachten, wird wohl unser Verantwortungsbewusstsein einsetzen und wir werden zumindest versuchen, das Problem wirklich in den Griff zu bekommen.

Tun was nötig ist.

Was wäre, wenn wir erkennen, dass wir das Problem nicht allein in den Griff bekommen können?

Wir könnten unser Bestes versucht haben und doch zur Erkenntnis gelangen, dass wir Hilfe brauchen.

Viele von uns wollen gerne als stark und kompetent gelten, also ist das kein einfacherer Schritt für uns. Doch wir haben ja schließlich unser Verantwortungsbewusstein und unsere Professionalität und wissen: das Problem wird von selbst nicht weggehen.

Also wahrscheinlich stellen wir das Problem über unsere Befindlichkeit, verlassen unsere Komfortzone und …

Was wäre, wenn wir einen Fehler gemacht hätten?

Wir hätten plötzlich zwei Hürden zu überwinden: um Hilfe bitten und einen Fehler einräumen.

Wieder könnten sich unsere Vernunft und unsere Befindlichkeit im Zwist befinden. Ein Zwist, der uns unter Umständen gar nicht bewusst ist, weil wir (so ungern wir das zugeben) ja doch auch in der ein oder anderen Art und Weise konditioniert sind. Um eine sinnvolle Entscheidung zu treffen, werden wir wegen dieser Konditionierung auch unsere vorangegangenen Erfahrungen in Betracht ziehen.

Neben vielen weiteren Faktoren hängt unsere Entscheidung damit auch davon ab, wie unser Umfeld auf ein Hilfegesuch reagiert.

Der Mensch ist fehlbar, die Maschine nicht – stimmt’s?

Wenn jemand ein Problem beschreibt, wird die erste Frage oft die sein, was der Hilfesuchende gemacht hat.

Diese Frage erscheint uns eine naheliegende und zielführende Frage zu sein, solange wir nicht selbst derjenige mit dem Problem sind. Wir stellen sie Kollegen genau wie Kunden und manch einer wird beim Lesen dieses Absatzes wahrscheinlich mit den Augen rollen, weil ihm schon völlig klar ist, wie die Antwort ausfallen wird.

Mit welcher Antwort rechnest du?

Wahrscheinlich verrät die Fragestellung aber mehr über unsere Denkweise als über den Hilfesuchenden.

Denn es ist gut möglich, dass er keine eigene Handlung mit dem Problem in Verbindung bringen kann, weil es keinen offensichtlichen kausalen Zusammenhang gibt. Den muss es aber geben, denken wir, und nicht wenige von uns sind sogar von einem monokausalen Zusammenhang überzeugt: jedes Problem nur eine Ursache.

Außerdem weiß doch jedes Kind, dass Menschen Fehler machen, oder?

Das Problem ist nur: so einfach ist es nicht.

Oft endet die Analyse ja, sobald das Problem abgestellt wird oder ein Schuldiger gefunden wurde.

Wir halten dann fest, dass die Ursache menschliches Versagen gewesen wäre oder dass eine Fehleinschätzung zu dem Problem geführt hat. Im Nachhinein sagen wir: uns wäre das nicht passiert, weil das Problem vorhersehbar war. Wir übersehen dabei, dass wir die Vorhersehbarkeit eines Ereignisses im Nachhinein allzugerne überschätzen. Dieses Phänomen wird in der Wissenschaft als Hindsight bias oder etwas flappsiger auch als „Schon immer gewusst“-Effekt bezeichnet.

Die Sache ist: es ist einfach nicht wahr.

In der Praxis stellt sich oft raus, dass es mehrere Ursachen für ein Problem gibt. Oft spielen auch situative Faktoren eine Rolle, die offensichtlich oder weniger offensichtlich sein können, und die nicht immer von den handelnden Personen beeinflusst oder auch nur vorhergesehen werden können.

Manchmal können wir auch als Team oder Organisation etwas verbessern: so erkennen wir vielleicht, dass bestimmte Vorgänge nur unter erheblichen Risiken durchzuführen sind: etwa weil man aufgrund der Prozesse häufig übermüdet an etwas gearbeitet wird, es an wirksamen Absicherungen mangelt oder die Werkzeuge für die Aufgabe unzureichend sind.

Das heißt: wenn wir denn überhaupt so genau hingucken.

Was ist denn eigentlich ein Post Mortem?

Genau darum geht es beim „Post mortem“: das ist ein Prozess, der nach einem konkreten Vorfall einsetzt – wenn etwa ein System ausgefallen ist oder das Flugzeug tatsächlich eine Bruchlandung hingelegt hat – und als unmittelbares Ergebnis einen Bericht hervorbringt.

Dieser Bericht ist aber letztlich nur ein Zwischenschritt, weil er unter der Annahme erzeugt wird, dass aus jedem (größeren) Vorfall etwas für die Zukunft gelernt und in vielen Fällen auch konkrete Verbesserungsmaßnahmen abgeleitet werden können. Insofern ist er am effektivsten, wenn man menschliches Versagens als Ursache bewusst anzweifelt und stattdessen bewusst andere Faktoren in Betracht zieht.

Ein Post-Mortem-Report sollte ungefähr die folgenden Bestandteile enthalten:

  • sachliche Schilderung des Vorfalls, eingetretener Ereignisse und der beobachteten Auswirkungen

  • welche Maßnahmen ergriffen wurden, um die Auswirkungen zu minimieren oder das Problem zu beheben

  • alle ermittelte(n) Ursache(n) im Sinne einer „Root Cause“-Analyse

  • ermittelte Maßnahmen, um das Problem in der Zukunft vermeiden zu können

Das Vorgehen kann dabei durchaus ähnlich dem Vorgehen bei einer Retrospektive sein, also sich in verschiedene Phasen einteilen:

  1. Daten sammeln

  2. Daten analysieren und Erkenntnisse generieren

  3. Maßnahmen festlegen

  4. Umsetzung der Maßnahmen

Dabei sollten natürlich die Personen einbezogen werden, die mit dem Vorfall zu tun hatten. Das sollte nicht als Strafe verstanden werden, denn es geht viel mehr um Informationen aus erster Hand und die Chance, sich aktiv an der Prävention solcher Probleme beteiligen zu können.

Denn es sollte schon darum gehen, möglichst die genauen Umstände nachzuvollziehen: bestenfalls auch welche Überlegungen oder Beobachtungen zu einer bestimmten Handlung geführt haben. Genau solche Informationen entziehen sich einem Dritten, können aber Hinweise auf sonst unbedeutend erscheinende Faktoren liefern. So war bei dem Gitlab-Beispiel ein Werkzeug beteiligt, das in einem recht kritischen Moment bisschen zu wenig an Informationen ausgab, sodass der Techniker eigene Schlüsse ziehen musste und sich dabei irrte. Vielleicht nicht der ausschlaggebende Faktor, aber etwas an dem man definitiv etwas verbessern konnte.

Möglichen Ergebnisse der Post-Mortem-Analyse könnten dann sein:

  • Anpassungen an technischen Systemen und Komponenten (beispielsweise zusätzliche Sicherungsmechanismen)

  • Austausch oder Verbesserung von Werkzeugen, die im Rahmen solcher Arbeit benutzt werden

  • Anpassungen an Prozessen, einschließlich Einführung pro-aktiver Maßnahmen

  • Verbesserungen an Dokumentationen (z.B. Runbooks, Checklisten und dergleichen)

  • Einführung von Frühwarnsystemen oder Verbesserung derselben (Feedback loops)

  • Verbesserung an den Umgebungsbedingungen (z.B. dafür sorgen, dass bestimmte Prozesse nicht mehr zu späten Uhrzeiten erfolgen)

Was den Post-Mortem-Prozess schwierig macht

Der Glauben, dass oftmals menschliches Fehlverhalten für ein Problem verantwortlich ist, macht den Prozess zu etwas Schwierigem.

Einerseits besteht das Risiko, letztlich doch zu oberflächlich an die Sache ranzugehen, wenn man etwa getroffene Entscheidungen als einen bedauerlichen Irrtum oder den Verursacher als Idiot betrachtet und sich nicht weiter damit auseinander setzt, warum sich die Person in der gegegenenen Situation so und nicht anders entschieden hat. Andererseits besteht natürlich auch das Risiko, dass Menschen sich auf den Schlips getreten fühlen.

Dem zu begegnen ist schwierig und es gibt sicherlich keine Patentlösung dafür (außer vielleicht etwas Fingerspitzengefühl und sich im Brückenbau zu üben).

You can’t „fix“ people, but you can fix systems and processes to better support people making the right choices when designing and maintaining complex systems. (Zitat aus dem SRE-Buch von Google)

Hilfreich wäre aber eine Unternehmenskultur, in der Sicherheit für die Akteure und die Bereitschaft zur Verantwortungsübernahme ausbalanciert sind. Das Unternehmen Etsy spricht in diesem Zusammenhang von einer „Just culture“. In einer solchen Unternehmenskultur werden Fehler und Probleme nicht einfach nur als etwas Unangenehmes, sondern auch als eine Gelegenheit gesehen, etwas zu lernen und zu verbessern und hierfür aktiv Verantwortung zu übernehmen.

Eine Kultur zu formen ist natürlich so eine Sache, bei der man sich zurecht fragt: geht das überhaupt?

Zumindest kann man durch Taten zeigen, was denn einer wünschenswerten Kultur entspricht und man kann die nötigen Umgebungsbedingungen schaffen.

Statt die vermeintlichen Verursacher zu bestrafen, diesen aktiven Verbesserungsprozess anstoßen und den Leuten Gelegenheit geben dazu beizutragen. Deutlich machen, dass einem Verantwortungsübernahme für eine sichere Umgebung wichtiger ist als perfekte Menschen, die nie Fehler machen.

Das ist übrigens auch eine Frage des Managements: wenn zwar Post Mortems geschrieben, aber letztlich keine Priorität für die Umsetzung der ermittelten Maßnahmen eingeräumt wird, verpufft deren Wirkung. Dasselbe gilt natürlich, wenn Probleme mit den vom Management geschaffenen Bedingungen identifiziert, aber nicht angegangen werden.

Und natürlich macht es auch Sinn bei der Erstellung eines „Post mortem“ andere Personen aus dem Team einzubeziehen: für andere Blickwinkel und natürlich auch um zu zeigen, dass eine sichere Umgebung keine Suppe zum Auslöffeln sondern eine Aufgabe fürs Team ist.

Letztlich geht es darum, dass die Menschen aktiv Verantwortung für das Ergebnis übernehmen können: auch wenn das Kind mal in den Brunnen gefallen ist.

Übrigens: Bei den Recherchen zu diesem Artikel bin ich auf das ganz interessante Buch Behind human erros (Affliate-Link) gestoßen. Ich hab bisher erst reingelesen, aber es scheint mir ein lesenswertes Buch zu sein, wenn man seine eigenen Vorstellungen zu menschlichem Versagen mal ein wenig herausfordern will.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.