Ausfallzeiten: Wie Unternehmen Milliarden verlieren & was sie dagegen tun können

©midjourney/Elke Mayr

Die wirtschaftlichen Auswirkungen ungeplanter Ausfallzeiten sind enorm. Was Unternehmen dagegen tun können.

von

Ann Kathrin Hermes

Inhalt

Ungeplante Ausfallzeiten (Downtime, engl.) sind ein kostspieliges Problem für Unternehmen weltweit. Eine aktuelle Studie von Splunk und Oxford Economics (hier geht es zur Studie) beleuchtet die finanziellen Auswirkungen dieser Ausfälle und zeigt auf, wie Unternehmen ihre Resilienz verbessern können.

Die Ergebnisse lassen aufhorchen: Die Global 2000 Unternehmen verlieren jährlich insgesamt 400 Milliarden US-Dollar durch ungeplante Ausfallzeiten. Das sind 200 Millionen Dollar pro Unternehmen, etwa 9 % des Gewinns.

Die direkten Kosten umfassen Umsatzverluste, Bußgelder und Kosten für Krisenmanagement. Besonders gravierend sind die Umsatzverluste, die mit 49 Millionen US-Dollar pro Jahr den größten Posten ausmachen. Bußgelder und Konventionalstrafen belaufen sich auf durchschnittlich 22 Millionen US-Dollar bzw. 16 Millionen pro Jahr.

Die direkten Downtime- Kosten im Einzelnen

Einzelposten	Kosten
Umsatzverlust	49 Millionen US-Dollar
Bußgelder	22 Millionen US-Dollar
Konventionalstrafen	16 Millionen US-Dollar
Anwalts-/Prozesskosten	15 Millionen US-Dollar
Markenkampagnen	14 Millionen US-Dollar
PR/Investor Relations	13 Millionen US-Dollar
Produktivitätsverluste	12 Millionen US-Dollar
Ransomeware-Zahlungen	11 Millionen US-Dollar
Zusätzliche Infrastrukturkapazitäten	11 Millionen US-Dollar
Lohnkosten für Überstunden	11 Millionen US-Dollar

Quelle: Splunk

Versteckte Kosten und langfristige Auswirkungen

Neben den direkten Kosten gibt es auch versteckte Kosten, die oft übersehen werden. Dazu gehören negative Auswirkungen auf den Aktienkurs, verzögerte Markteinführungen und Reputationsverluste. Die Studie schätzt, dass diese versteckten Kosten bei einem einzelnen Unternehmen mehr als 200 Millionen US-Dollar jährlich betragen können. Unternehmen zahlen oft noch Monate nach der Wiederherstellung der Systeme für die Folgen von Ausfallzeiten.

"Die wohl heftigsten versteckten Kosten? 28 % aller Befragten geben an, dass durch Ausfallzeiten der Unternehmenswert leidet. Schon bei einem einzigen Ausfall müssen Unternehmen damit rechnen, dass der Aktienkurs um 1 % bis 9 % sinkt (Mittelwert: 2,5 %). Im Durchschnitt dauert es dann 79 Tage, bis er sich wieder erholt", heißt es in der Studie.

"40 % der CMOs sagen, dass durch Ausfälle der durchschnittliche Customer Lifetime Value (CLV) sinkt, ebenfalls 40 % geben zu Protokoll, dass Ausfallzeiten den Beziehungen zu Resellern und/oder Partnern schaden. 29 % der Befragten haben aufgrund von Ausfallzeiten bereits Kundschaft verloren, 44 % sagen, dass Ausfallzeiten den Ruf des Unternehmens beschädigen. Den CMOs zufolge dauert es
im Durchschnitt 60 Tage, bis sich das Marken-Image nach der Behebung eines Incidents wieder erholt hat."

Ursachen von Ausfallzeiten

Die Studie identifiziert zwei Hauptursachen für Ausfallzeiten: Cybersicherheitsprobleme und Infrastruktur- bzw. Anwendungsprobleme. Menschliches Versagen spielt in beiden Fällen eine entscheidende Rolle. Im Durchschnitt verzeichnet ein Global 2000 Unternehmen 466 Stunden Ausfallzeit aufgrund von Cybersicherheitsvorfällen und 456 Stunden aufgrund von Infrastruktur- oder Anwendungsproblemen.

Cyberangriffe wie Ransomware und Phishing sind häufige Ursachen für Ausfallzeiten. 67 % der befragten CFOs geben an, dass sie CEO und Vorstand bei einem Ransomware-Angriff zur Zahlung des Lösegelds raten. Die Zahlungen für Ransomware-Lösegelder und Cyber-Erpressung summieren sich mittlerweile auf 19 Millionen US-Dollar pro Jahr.

Softwarefehler und Fehlkonfigurationen der Infrastruktur sind weitere häufige Ursachen für Ausfallzeiten. Diese Probleme führen oft zu Performance-Einbußen oder kompletten Systemausfällen. Die Behebung eines Softwarefehlers dauert im Durchschnitt 16 Stunden.

Die häufigsten Ausfallursachen

Menschliches Versagen (Cybersecurity)
Menschliches Versagen (ITOps)
Software-Panne
Malware-Angriff
Hardware-Panne
Phishing-Angriff
Ausfall von Drittanbieter-Software

Maßnahmen zur Verbesserung der Resilienz

Die Studie zeigt, dass Unternehmen, die gezielt in ihre digitale Resilienz investieren, besser mit Ausfallzeiten umgehen können. Diese sogenannten "Resilienz-Leader" investieren mehr in Cybersicherheitstools und Observability-Tools und haben innovativere Strategien für Sicherheit und Observability entwickelt. Sie sind in der Lage, ihre Systeme nach Ausfällen schneller wiederherzustellen und haben geringere direkte und versteckte Kosten.

"Du kannst einem Problem den ganzen Tag lang Geld hinterherwerfen, ohne es damit zu lösen. Resilienz-Leader zu sein bedeutet, ein Mindset zu haben, das Ausfallzeiten nicht akzeptiert – und deshalb Prozesse und Praktiken zu etablieren, die das ermöglichen", wird Greg Leffler, Director of Developer Evangelism von Splunk zitiert.

Investitionen in Cybersicherheit und Observability

Resilienz-Leader geben im Durchschnitt 12 Millionen US-Dollar mehr für Cybersicherheitstools und 2,4 Millionen US-Dollar mehr für Observability-Tools aus. Diese Investitionen führen zu umfassender Transparenz und übergreifender Zusammenarbeit, was einen proaktiven Ansatz in puncto Ausfallzeiten ermöglicht.

Nutzung von KI und maschinellem Lernen

Ein weiterer wichtiger Aspekt ist der Einsatz von Künstlicher Intelligenz und maschinellem Lernen zur Minimierung von Ausfallzeiten. 65 % der befragten Unternehmen nutzen bereits KI-Tools, um Ausfallzeiten zu vermeiden. Diese Tools helfen, kleinere Teams mit den notwendigen Informationen zu versorgen, um Ausfallzeiten zu minimieren und die Systeme schnell wieder online zu bringen.

Leader-Tipps: Wie erfolgreiche Unternehmen Resilienz aufbauen

In einer Welt, die von ständigen Veränderungen und Unsicherheiten geprägt ist, ist die Fähigkeit eines Unternehmens, sich anzupassen und zu erholen, entscheidend für den langfristigen Erfolg. Resilienz-Strategien helfen Unternehmen, nicht nur Störungen zu überstehen, sondern gestärkt daraus hervorzugehen.

Die Autor:innen der Studie haben folgende Resilien-Strategien entwickelt:

Notfallplan für Ausfälle erarbeiten
"Ausfallzeiten sind unvermeidlich. Darum ist es erfolgsentscheidend, dass das Unternehmen über geeignete Prozesse und Tools verfügt. Zu den elementaren Hygienemaßnahmen gehört, dass jede Anwendung instrumentiert ist, dass ein Runbook für Ausfälle vorliegt und Schritt für Schritt befolgt wird, dass Verantwortliche auf Engineering-Seite benannt sind – und dass auch alle darüber informiert sind, wer zuständig ist. Außerdem sollten Sie mit Ihren SecOps-, ITOps- und Engineering-Teams im Rahmen regelmäßiger Tabletop-Übungen Ausfallszenarien durchspielen und damit Ihre Reaktionen bei Downtime-Events testen und trainieren. Oder Sie arbeiten direkt mit Chaos Engineering, also mit zufallsartig generierten Realfehlern, die aufzeigen, wie weit ihre Systeme solchen Events gegenüber resilient sind."
Post-Mortem-Analysen durchführen – und im Zweifelsfall die Voraussetzungen dafür schaffen
"Sie möchten verhindern, dass ein Problem, das zu Ausfällen geführt hat, noch einmal auftritt? Dann ist eine gründliche Fehler-Ursachen-Analyse im Verlauf des Incidents das erste Mittel der Wahl. Die Analyse kann den ursprünglichen Fehler ausfindig machen und Lösungen aufzeigen. Weil das aber nicht immer auf Anhieb klappt, sollten Sie in Observability-Tools investieren, bestehende Silos aufbrechen und die Daten aus Ihren gesamten Umgebungen zentral erfassen und überschaubar machen. Dann haben Sie Tool-unabhängig einfachen Zugang zu sämtlichen relevanten Informationen und können auch noch im Nachgang rigorose Post-Mortem-Analysen durchführen und so letztlich verhindern, dass sich solche Vorfälle wiederholen."
Geistiges Eigentum schützen
"Wenn Sie ein großes Sprachmodell (LLM) mit dem geistigen Eigentum des Unternehmens trainieren, sollten Sie sich der Risiken dieses Vorgehens bewusst sein. Stellen Sie also klare Data-Governance-Richtlinien auf und schützen Sie das Unternehmen vor Datenverlusten. Und denken Sie daran: Eigenständige Tools mit generativer KI sind nur der erste Schritt. Der nächste besteht in KI-Funktionen, die in Ihre bestehenden Tools integriert sind, etwa Chat-Assistenten – damit beugen Sie Ausfällen noch effektiver vor. Solche domänenspezifischen Assistenten können die Produktivität steigern und außerdem der Belegschaft zu neuen, besseren Skills verhelfen, wovon das Unternehmen auf lange Sicht profitiert."
Gemeinsame Datengrundlage der Zusammenarbeit für Teams und Tools schaffen
"Ausfallursachen gibt es überall. Darum ist umfassende Transparenz, die alle Bereiche von SecOps, ITOps und Engineering umfasst, absolut erfolgsentscheidend. Wenn Ihre Teams Daten, Kontext und Tools gemeinsam nutzen können, fällt ihnen die Zusammenarbeit leichter. Dann können sie im Ernstfall Probleme schneller beheben, Fehler-Ursachen schneller identifizieren und den Betrieb eher wie- der aufnehmen."
Proaktiv gegen Ausfallzeiten vorgehen und verhindern, dass Probleme eskalieren
"Erfolg versprechen Investition in KI- und ML-gestützte Lösungen zur Mustererkennung und ein proaktives Programm zur Vermeidung von Ausfallzeiten, das auf die Zusammenarbeit der SecOps-, ITOps- und Engineering-Teams ausgelegt ist. Durch KI-gestützte vorausschauende Analysen können Sie Ihre SOC-Kapazitäten ver- vielfachen und verhindern, dass sich Probleme zu Katastrophen auswachsen."

Über die Autoren

Ann Kathrin Hermes

Ann Kathrin Hermes, Redakteurin trend.at, Senior Manager für strategisches PMO
Themenschwerpunkte: Digitalisierung, Künstliche Intelligenz (KI), Leadership, Strategie