Wegen eines Defekts bei Crowdstrike, der Windows Systeme lahmlegte, stehen Flughäfen und viele andere Einrichtung weltweit still. Airports and many other facilities around the world are at a standstill due to a Crowdstrike bug that crippled Windows systems.
Unternehmen und Institutionen auf der ganzen Welt waren aufgrund von Computerausfällen vom Netz getrennt. Rund um den Globus meldeten Banken, Supermärkte und andere große Institutionen Computerprobleme, die ihre Dienste unterbrachen. Einige Fluggesellschaften warnten vor Verspätungen und einige Flughäfen verhängten ein Flugverbot.

George Kurtz, Präsident und CEO von Crowdstrike, schrieb auf X (ehemals Twitter): „CrowdStrike arbeitet aktiv mit Kunden zusammen, die von einem Fehler in einem einzelnen Content-Update für Windows-Hosts betroffen sind. Mac- und Linux-Rechner sind nicht betroffen. Es handelt sich nicht um einen Sicherheitsvorfall oder einen Cyberangriff. Das Problem wurde identifiziert, isoliert und ein Patch bereitgestellt.

Wir verweisen unsere Kunden auf das Support-Portal, um die neuesten Updates zu erhalten, und werden weiterhin vollständige und kontinuierliche Updates auf unserer Website zur Verfügung stellen. Wir empfehlen Unternehmen außerdem, sicherzustellen, dass sie mit Vertretern von CrowdStrike über offizielle Kanäle kommunizieren. Unser Team arbeitet mit Hochdruck daran, die Sicherheit und Stabilität für die Kunden von CrowdStrike zu gewährleisten.“

Um 18.00 Uhr MEZ fügte Kurtz ein Update hinzu:

„Es gab heute keinen Sicherheits- oder Cybervorfall. Unsere Kunden sind weiterhin vollständig geschützt. Wir sind uns des Ernstes der Lage bewusst und bedauern die Unannehmlichkeiten und Unterbrechungen sehr. Wir arbeiten mit allen betroffenen Kunden zusammen, um sicherzustellen, dass die Systeme wieder funktionieren und sie die Dienstleistungen erbringen können, auf die sich ihre Kunden verlassen. Wie bereits erwähnt, wurde das Problem identifiziert und eine Lösung gefunden. Es gab ein Problem mit einem Falcon Content Update für Windows Hosts. Die neuesten Informationen, die wir laufend aktualisieren, finden Sie auf der CrowdStrike-Website (https://crowdstrike.com/blog/statement-on-windows-sensor-update/…), in meinen Beiträgen auf LinkedIn und in meinen Beiträgen auf X. Ich werde unsere Community und die Branche weiterhin mit Updates versorgen, sobald diese verfügbar sind.“

Omer Grossman, CIO bei CyberArk, kommentiert: „Das aktuelle Ereignis scheint – auch im vermeintlich ruhigen Juli – eines der schwerwiegendsten Cyber-Probleme des Jahres 2024 zu sein. Der Schaden für die Geschäftsprozesse weltweit ist enorm. Der Ausfall ist auf ein Software-Update des EDR (Endpoint Detection and Response)-Produkts von CrowdStrike zurückzuführen. Dieses Produkt wird mit hohen Privilegien ausgeführt und schützt Endpunkte. Eine Fehlfunktion kann hier, wie im aktuellen Vorfall zu sehen, zu einem Absturz des Betriebssystems führen.

Wir sehen hier zwei wichtige Themen auf der Agenda: Erstens, wie können die Kunden wieder online gehen und die Kontinuität der Geschäftsprozesse wiederherstellen? Da die Endgeräte abgestürzt sind – der Blue Screen of Death – können sie nicht remote aktualisiert werden und das Problem muss manuell gelöst werden, Endgerät für Endgerät. Dieser Prozess wird wahrscheinlich Tage dauern.

Die zweite Frage ist: Was hat den Absturz verursacht? Die Bandbreite der Möglichkeiten reicht von menschlichem Versagen – zum Beispiel ein Entwickler, der ein Update ohne ausreichende Qualitätskontrolle heruntergeladen hat – bis hin zum komplexen Szenario eines groß angelegten Cyberangriffs, der im Voraus vorbereitet wurde und bei dem ein Angreifer einen „Doomsday Command“ oder „Kill Switch“ aktiviert hat. Die Analysen und Updates von CrowdStrike in den kommenden Tagen werden von großem Interesse sein.“

Chris Dimitriadis, Chief Global Strategy Officer bei ISACA, kommentiert:

„Dies ist eine ausgewachsene Krise. Sobald ein Dienstleister in der digitalen Lieferkette betroffen ist, kann die gesamte Kette zusammenbrechen und großflächige Ausfälle verursachen. Dieser Vorfall ist ein klares Beispiel dafür, was man eine digitale Pandemie nennen könnte – ein einzelner Ausfallpunkt, der sich auf Millionen von Menschen weltweit auswirkt. Ärzte können Kranke nicht behandeln, Medien können keine Nachrichten senden und Reisende sitzen auf den Flughäfen fest. Es geht nicht nur um Betriebsabläufe, sondern um Menschen.

Der Ausfall ist das Ergebnis einer zunehmend komplexen und vernetzten digitalen Welt. Aus eben diesem Grund ist die Cyber-Resilienz von entscheidender Bedeutung für die Gewährleistung der Sicherheit und des Wohlergehens der Bürgerinnen und Bürger sowie für die globale Wirtschaft. Auch wenn wir noch auf weitere Details zu dem Vorfall warten, wissen wir, dass die Kosten und Auswirkungen dieses Vorfalls noch monatelang zu spüren sein werden.

Manchmal werden solche Vorfälle durch unbeabsichtigte Fehler bei Software-Updates verursacht. Manchmal sind sie das Ergebnis eines Cyberangriffs. Die Ironie dabei ist, dass auch Unternehmen, die sich für Cyber-Sicherheit einsetzen, Teil der Lieferkette sind, und dass dieselben Unternehmen, die sich für den Aufbau von Cyber-Resilienz engagieren, selbst zu Opfern werden und die kontinuierliche Durchführung der Dienstleistungen beeinträchtigen können.

Dieser Vorfall unterstreicht die dringende Notwendigkeit einer robusten Cyber-Resilienz und -Vorbereitung, um ähnliche Krisen in Zukunft zu verhindern. Bei der Cyber-Sicherheit sind das Erkennen und die Reaktion im Fall einer Krise ebenso wichtig wie Schutz und Prävention. Die richtigen Protokolle für den Krisenfall müssen vorzeitig erstellt werden, damit Betroffene bei Angriffen und Ausfällen umgehend handeln können, um den Schaden und die Beeinträchtigung zu minimieren. Das ist aber nur möglich, wenn es Mitarbeitende mit den notwendigen Fähigkeiten gibt, um maßgeschneiderte Sicherheitsrahmen für die Unternehmen zu schaffen. Zudem muss sichergestellt sein, dass alle Beteiligten darin geschult wurden, diese Protokolle zu befolgen. Wenn wir nicht vorbereitet sind, wird sich so etwas nur wiederholen.

Alain Blaes, Gründer und Geschäftsführer der auf High-Tech spezialisierten Münchner Kommunikationsagentur PR-COM meint:

Von Berlin über Australien bis Singapur – ein Programm-Update des IT-Security-Unternehmens CrowdStrike hat an diesem Freitag weltweit Infrastruktureinrichtungen, Unternehmen und Organisationen lahmgelegt. Operationen in Kliniken wurden verschoben, Flughäfen haben den Betrieb eingestellt, Handelsmärkte und Banken sind nicht mehr erreichbar. Nach Medienberichten gibt es auch zahlreiche Störungen in Deutschland, unter anderem die Flughäfen in Berlin, Düsseldorf und Hamburg sowie die Krankenhäuser in Lübeck und Kiel.

Die genaue Kausalkette der Entwicklung wird derzeit rekonstruiert. Als wahrscheinlichste Ursache gilt, dass ein fehlerhaftes Update von CrowdStrike weltweit PCs, Infrastrukturen und Dienste in einen Recovery Boot gezwungen hat. Ein Neustart, der das Problem nach dem Herunterfahren von Devices behebt, war danach nicht mehr möglich. Die Softwareprobleme hat CrowdStrike gegenüber Kunden in einer Mitteilung bestätigt, so das Magazin The Verge. Da die Software von CrowdStrike bei vielen Unternehmen und auch Cloud-Anbietern ein essentieller Bestandteil des Security-Stacks ist, hat sie in der Folge zu massiven Ausfällen beigetragen. So wurden seit den Morgenstunden bei Diensten wie AWS, Google, Azure viele Störungen gemeldet. Microsoft hat die Probleme in seinem Cloud-Angebot von 365 bestätigt und auf X erklärt, konkrete Gegenmaßnahmen zur Umleitung des Daten-Traffic ergriffen zu haben.

Schon jetzt zeichnet sich ab, dass der finanzielle Schaden der Störung in die Milliarden gehen wird. Der Aktienkurs von CrowdStrike ist zweistellig eingebrochen. Die Folgeschäden werden sich daran bemessen, wie lange die Ausfälle der Systeme andauern werden. Das betrifft auch mögliche Regressforderungen, die sich an CrowdStrike richten werden.

Die Tatsache, dass ein Stück Software die gesamte Weltwirtschaft so massiv lahmlegt, sollte uns zu denken geben. Es ist eine eindrucksvolle Demonstration, was im Falle eines Blackouts – ob zufällig oder intendiert – von Infrastruktur entstehen könnte. IT-Security muss deshalb die Nummer-eins-Priorität auf der politischen und unternehmerischen Agenda sein. Je vernetzter globale Akteure zusammenarbeiten, umso stärker muss sichergestellt werden, dass einzelne Anbieter keine derart existenzielle Marktstellung haben, dass ihr Ausfall für das gesamte System zur existenziellen Frage wird.

Diesen Wandel hin zum Computing 2.0 kann man sich als mentale Konsolidierungsphase vorstellen, in der die Ausfallsicherheit priorisiert und Rückfallebenen eingerichtet werden. Das betrifft gerade auch große Plattform- und Cloud-Anbieter. Denn mit steigender Marktmacht nimmt auch die Verantwortung zu, einen Beitrag zur öffentlichen Sicherheit zu leisten. In einer digitalen Gesellschaft kann öffentliche Sicherheit nicht ohne IT-Sicherheit erreicht werden. Auch wenn dieser „Knock-out“ vermutlich nicht zu existenziellen Bedrohungen führen wird, so gibt es keine Garantie für das nächste Mal. Deshalb braucht es Vorsorge.

Eileen Haggarty, AVP bei NETSCOUT, betont:

„Der IT-Ausfall, von dem derzeit zahlreiche Organisationen wie Fluggesellschaften, Medien und Banken betroffen sind, wurde offenbar durch ein fehlerhaftes Software-Update verursacht. Auch Krankenhäuser und Gesundheitsdienstleister sind betroffen: Mehrere große Krankenhäuser haben nicht dringend notwendige Operationen abgesagt, andere haben angekündigt, dass sie zwar noch Termine annehmen können, aber derzeit keine Verbindung zu den Patientenakten herstellen können und sich stattdessen auf Papierakten verlassen müssen.

Die wirksame Umsetzung von Systemaktualisierungen erfordert eine vorbeugende Wartung und routinemäßige Upgrades, um sicherzustellen, dass die Dienste mit optimaler Effizienz arbeiten können. Durch die Durchführung von Wartungsprüfungen und regelmäßigen Aktualisierungen können Organisationen das Risiko unerwarteter Ausfallzeiten verringern und damit finanzielle und Reputationsverluste verhindern. Um Ausfallzeiten aufgrund von Systemausfällen sowie das damit einhergehende Chaos und die Leistungsunterbrechung zu vermeiden, benötigen die IT-Teams von Unternehmen einen vollständigen und lückenlosen Überblick über die Bedrohungen, denen ihr Netzwerk ausgesetzt ist. Auf diese Weise können Unternehmen Netzwerke und Anwendungen unabhängig davon überwachen, wo sie gehostet werden oder wo die Benutzer auf sie zugreifen.

Um das Netzwerk eines Unternehmens vollständig zu verstehen und abzusichern, sollten IT-Teams außerdem proaktive synthetische Tests durchführen, die die Funktionalität der Anwendungen sicherstellen bzw. den realen Benutzerverkehr simulieren. Diese Tests helfen dabei, die Qualität des Benutzererlebnisses zu messen und Leistungsprobleme zu vermeiden, bevor die Benutzer selbst mit negativen Auswirkungen konfrontiert werden.

Mit Blick auf die Zukunft sollten Unternehmen aus dem heutigen globalen IT-Ausfall lernen und Visibility-Tools für die Nachbereitung einsetzen, die es ihnen ermöglichen, einen detaillierten Informationsbestand auf der Grundlage früherer Probleme aufzubauen, der ihnen hilft, zukünftige Herausforderungen effektiver zu bewältigen.“

Acronis CISO Kevin Reed schätzt die Lage so ein:

„Der jüngste Ausfall von CrowdStrike scheint auf einen Fehler in ihrem EDR-Agenten zurückzuführen zu sein, der leider nicht gründlich getestet wurde. Dies führte zu weitreichenden Unterbrechungen, da viele Installationen weltweit betroffen waren. Das fehlerhafte Update erfordert manuelle Eingriffe, insbesondere einen Neustart der Systeme im „abgesicherten Modus“ und das Löschen der fehlerhaften Treiberdatei. Dieser Prozess ist umständlich und macht die Systeme in der Zwischenzeit anfällig, was zu opportunistischen Angriffen einlädt.

Dieser Vorfall unterstreicht die Bedeutung strenger Tests und abgestufter Aktualisierungen für EDR-Agenten. Normalerweise werden die Tests bei jeder Veröffentlichung durchgeführt und können je nach Umfang der Aktualisierung oder der Änderungen Tage bis Wochen dauern.

Dieses Problem erinnert uns daran, wie anfällig die IT-Infrastruktur ist und warum die Cybersicherheit fest in die Datensicherung integriert werden sollte. Eine integrierte Lösung ist die einzige Möglichkeit, einen vollständigen Schutz zu bieten, der ein schnelles Roll-Back zum Arbeitszustand ermöglicht.

Unsere Acronis-Kunden, die über aktuelle Backups verfügen, können ihre Systeme in einen stabilen Zustand zurückversetzen und so Ausfallzeiten und Risiken minimieren. Für die Zukunft empfehlen wir allen Unternehmen, für robuste Backup-Lösungen zu sorgen und sich für bessere Testprotokolle bei ihren Sicherheitsanbietern einzusetzen.“

Mikko Hyppönen, CRO Withsecure, spricht von einer historischen Situation:

„Der Ausfall von Crowdstrike ist historisch. Millionen von Workstations auf der ganzen Welt fallen aus. Rund 70 Prozent der Fortune-100-Unternehmen sind betroffen.

Große Ausfälle sind selten. Normalerweise stürzt ein Cloud-Dienst ab, oder ein DNS-Problem, vielleicht ein Kabelbruch. Aber jetzt stürzen Millionen von Laptops und Workstations gleichzeitig mit einem Bluescreen ab. Die einzigen Vergleiche zu diesem Vorfall wären Malware-Ausbrüche wie Wannacry oder Notpetya. Bei diesem Vorfall stürzt die Software ab, die eigentlich dafür sorgen sollte, dass Ihr Computer funktioniert.

Endpunktsicherheitssoftware muss mit Zugriffsrechten auf niedriger Ebene ausgeführt werden, um den Computer zu schützen. Im Gegensatz zu normaler Software, die nur sich selbst zum Absturz bringen kann, kann eine Software mit solchen Rechten den gesamten Computer zum Absturz bringen. Erschwerend kommt hinzu, dass keine andere Software so häufig aktualisiert wird wie Sicherheitssoftware. Aus diesem Grund haben Sicherheitsfirmen sehr effektive Qualitätssicherungsprozesse entwickelt, die eine große Anzahl von Softwarekombinationen testen, um Abstürze zu vermeiden.

Offensichtlich haben diese Prozesse hier versagt, da der Treiber von Crowdstrike in Kombination mit der Konfigurationsdatei für den Updatekanal jeden Rechner zum Absturz brachte. Vielleicht haben sie einen Treiber getestet und einen anderen ausgeliefert – wir wissen es nicht. Die Zeit wird es zeigen.

Workarounds für den Absturz sind bekannt, aber sie sind alle manuell; man muss eine Person physisch an die Tastatur jedes abgestürzten Rechners setzen. Die meisten kritischen Systeme sind bereits wieder funktionsfähig, aber die Reparatur aller betroffenen Systeme wird Tage, vielleicht Wochen dauern.“

Hans-Peter Bauer, Vice President Cyber Security bei BlackBerry, bemerkt:

„Dieser Ausfall betrifft einige der kritischsten Systeme, Netzwerke und Anwendungen der Welt. Daher muss schnell, präzise und verantwortungsbewusst reagiert werden. Hier kann eine Critical Event Management-Lösung in Echtzeit für Transparenz sorgen und eine schnelle, auf Informationen basierende Reaktion sicherstellen, während sich die Krise entwickelt.
Es ist noch zu früh, um die genaue Ursache zu benennen. Aber es scheint sich um ein weiteres Beispiel für veraltete Cybersicherheitspraktiken zu handeln. Dabei erweisen sich komplexe Endpoint Detection and Response-Lösungen sowie umfangreiche Endpunkt-Agenten als großes Infrastrukturrisiko und sind unnötig komplex. Der Einsatz einer schlanken KI am Endpunkt kann solche Ausfälle vermeiden. Sie schützt Ihre Umgebung mit regelmäßigen Updates und ohne schwerfällige Agenten, die den Geschäftsbetrieb gefährden.“

„Der heutige weltweite IT-Ausfall erinnert eindringlich daran, dass Angriff die beste Verteidigung ist. Es ist entscheidend, die eigenen Schwachstellen und Risiken durch regelmäßige Tests zu verstehen – nicht nur bei der Einführung neuer Software, sondern langfristig.
Um sich vor potenziellen Angreifern zu schützen, die versuchen, IT-Ausfälle auszunutzen, bleibt eine Kombination aus KI-gestützten internen und externen Penetrationstests unerlässlich. Diese zeigen auf, wie ein externer Bedrohungsakteur mit autorisiertem Zugang oder ein Akteur aus dem internen Netzwerk Vermögenswerte gefährden könnte, indem er sich ständig weiterentwickelnde Taktiken, Techniken und Verfahren nutzt.
Die Leistungsfähigkeit und Sicherheit eines Systems ist nur so gut wie seine am wenigsten sicheren Hardware- und Softwarekomponenten. Daher hat die Beseitigung von Schwachstellen oberste Priorität, damit der Geschäftsbetrieb wie gewohnt weiterlaufen kann.“

Mark Jow, Security Evangelist EMEA bei Gigamon sagt hierzu:

„Der IT-Ausfall von Microsoft zeigt den Bedarf an robusteren und widerstandsfähigeren Lösungen, damit solche Probleme schnell behoben werden können, ohne dass es zu einem weit verbreiteten Kundenchaos und Sicherheitsrisiken kommt. Vorbereitung ist der Schlüssel – jeder IT- und Sicherheitsanbieter muss ein robustes System über den gesamten Lebenszyklus seiner Softwareentwicklung haben, um Upgrades zu testen, bevor sie ausgerollt werden, um sicherzustellen, dass es keine Fehler in den Updates gibt.“

 

Businesses and institutions around the world have been knocked offline after an IT outage. Banks, supermarkets and other major institutions reported computer problems disrupting services, with some airlines warning of delays and some airports grounding flights.

Crowdstrike President and CEO George Kurtz wrote on X (formerly Twitter): “CrowdStrike is actively working with customers impacted by a defect found in a single content update for Windows hosts. Mac and Linux hosts are not impacted. This is not a security incident or cyberattack. The issue has been identified, isolated and a fix has been deployed.

We refer customers to the support portal for the latest updates and will continue to provide complete and continuous updates on our website. We further recommend organizations ensure they’re communicating with CrowdStrike representatives through official channels. Our team is fully mobilized to ensure the security and stability of CrowdStrike customers.”

At 18.00 CET Kurtz added an update:

„Today was not a security or cyber incident. Our customers remain fully protected. We understand the gravity of the situation and are deeply sorry for the inconvenience and disruption. We are working with all impacted customers to ensure that systems are back up and they can deliver the services their customers are counting on. As noted earlier, the issue has been identified and a fix has been deployed. There was an issue with a Falcon content update for Windows Hosts. For the latest information that we will continuously update, please refer to the CrowdStrike website (crowdstrike.com/blog/statement), my posts on LinkedIn, and my posts on X.  I will continue to provide updates to our community and the industry as they become available.“

Omer Grossman, CIO at CyberArk, commented: „The current event appears to be one of the most serious cyber problems of 2024 – even in the supposedly quiet month of July. The damage to business processes around the world is enormous. The outage was caused by a software update to CrowdStrike’s Endpoint Detection and Response (EDR) product. This product runs with high privileges and protects endpoints. A malfunction here, as seen in the current incident, can cause the operating system to crash.

First, how do you get the customer back online and restore business continuity? Since the endpoints have crashed – the blue screen of death – they cannot be updated remotely and the problem has to be solved manually, endpoint by endpoint. This process is likely to take days.

The second question is, what caused the crash? The possibilities range from human error – such as a developer downloading an update without sufficient quality control – to the complex scenario of a large-scale, pre-planned cyberattack in which an attacker has activated a „doomsday command“ or „kill switch. It will be interesting to see CrowdStrike’s analysis and updates in the coming days.”

Chris Dimitriadis, chief global strategy officer at ISACA, said:
„This is a full-blown crisis. Once one service provider in the digital supply chain is affected, the entire chain can collapse and cause widespread outages. This incident is a clear example of what could be called a digital pandemic – a single point of failure affecting millions of people around the world. Doctors can’t treat the sick, media can’t broadcast news, and travelers are stranded at airports. It’s not just about operations, it’s about people.
The outage is the result of an increasingly complex and interconnected digital world. That is precisely why cyber resilience is critical to ensuring the safety and well-being of citizens and the global economy. While we await more details about the incident, we know that the cost and impact of this event will be felt for months to come.
Sometimes incidents like this are caused by unintentional errors in software updates. Sometimes they are the result of a cyber attack. The irony is that companies that are committed to cybersecurity are also part of the supply chain, and the same companies that are committed to building cyber resilience can themselves become victims and impact the continued delivery of services.
This incident underscores the urgent need for robust cyber resilience and preparedness to prevent similar crises in the future. When it comes to cybersecurity, detecting and responding to a crisis is just as important as protecting and preventing it. The right crisis protocols must be put in place ahead of time so that when attacks and outages occur, those affected can act immediately to minimize damage and disruption. However, this is only possible if there are people with the skills to create a customized security framework for the organization. It is also important to ensure that everyone involved has been trained to follow these protocols. If we are not prepared, it will only happen again.

 

Alain Blaes, founder and managing director of PR-COM, a Munich-based communications agency specializing in high-tech, says:

From Berlin to Australia to Singapore, a program update from IT security company CrowdStrike crippled infrastructure facilities, companies and organizations worldwide this Friday. Hospitals have postponed operations, airports have shut down, and retail stores and banks are inaccessible. According to media reports, Germany is also experiencing numerous disruptions, including airports in Berlin, Dusseldorf, and Hamburg, as well as hospitals in Lübeck and Kiel.
The exact chain of events is currently being reconstructed. The most likely cause is that a faulty CrowdStrike update forced PCs, infrastructure and services worldwide into a recovery boot. A reboot, which fixes the problem after the devices are shut down, was not possible. CrowdStrike confirmed the software issues to customers in a statement, according to The Verge. Because CrowdStrike’s software is a critical part of the security stack for many enterprises and cloud providers, it contributed to massive outages.

Since the morning hours, many disruptions have been reported for services such as AWS, Google and Azure.
Microsoft has confirmed problems with its 365 cloud offering and said at X that it has taken concrete steps to reroute traffic.
It is already clear that the financial damage caused by the outage will be in the billions of dollars. CrowdStrike’s stock price has plummeted by double digits. The consequential damages will be measured by the duration of the outage. This also applies to the potential recourse claims that will be made against CrowdStrike.

The fact that one piece of software can cripple the entire global economy on such a massive scale should give us pause. It is a powerful demonstration of what can happen to infrastructure in the event of a blackout, whether accidental or intentional. IT security must therefore be at the top of the political and corporate agenda. The more networked global players work together, the more important it is to ensure that individual providers do not have such an existential market position that their failure becomes an existential issue for the entire system.
This shift toward Computing 2.0 can be thought of as a mental consolidation.

This is especially true for large platform and cloud providers. As their market power increases, so does their responsibility to contribute to public security. In a digital society, public security cannot be achieved without IT security. Even if this „knockout“ does not lead to an existential threat, there is no guarantee for the next time. That is why we must take precautions.

Eileen Haggarty, AVP at NETSCOUT, points out:

„The IT outage currently affecting a wide range of organizations, including airlines, media and banks, appears to have been caused by a faulty software update. Hospitals and healthcare providers are also affected: Several major hospitals have canceled non-urgent surgeries, while others have announced that they are still accepting appointments but are currently unable to connect to patient records and are relying on paper files instead.

Effective implementation of system updates requires preventive maintenance and routine upgrades to ensure that services can operate at optimal efficiency. By performing maintenance checks and regular updates, organizations can reduce the risk of unexpected downtime and prevent financial and reputational losses. To avoid downtime due to system failures and the associated chaos and disruption to services, enterprise IT teams need a complete and seamless view of the threats facing their network. This enables organizations to monitor networks and applications regardless of where they are hosted or where users access them.

To fully understand and secure an organization’s network, IT teams should also proactively run synthetic tests that ensure application functionality or simulate real user traffic. These tests help measure the quality of the user experience and prevent performance issues before users experience any negative impact.

Looking to the future, organizations should learn from today’s global IT outage and use visibility tools for follow up, allowing them to build a detailed body of information based on past issues that will help them manage future challenges more effectively.

Here is how Acronis CISO Kevin Reed assesses the situation:

„CrowdStrike’s recent outage appears to have been caused by a bug in their EDR agent that unfortunately was not thoroughly tested. This caused widespread disruption as many installations worldwide were affected. The erroneous update requires manual intervention, specifically rebooting systems in „safe mode“ and deleting the erroneous driver file. This process is cumbersome and leaves systems vulnerable in the meantime, inviting opportunistic attacks.
This incident underscores the importance of rigorous testing and staged updates for EDR agents. Typically, testing is done with each release and can take days to weeks, depending on the scope of the update or changes.
This issue reminds us of the vulnerability of IT infrastructure and why cybersecurity should be firmly integrated with data protection. An integrated solution is the only way to provide complete protection that enables rapid rollback to a working state.
Our Acronis customers who have up-to-date backups can restore their systems to a stable state, minimizing downtime and risk. Going forward, we recommend that all organizations ensure they have robust backup solutions and advocate for better testing protocols with their security vendors.“

Mikko Hyppönen, CRO Withsecure, calls the outage historic:

„The Crowdstrike outage is historical. Millions of workstations are crashing, around the world. Around 70% of Fortune 100 companies are affected.

Big outages are almost never like this. Typically, it’s a cloud service crashing, or a DNS problem, maybe a cable cut. But now it’s millions of laptops and workstations crashing with a blue screen at the same time. The only comparisons to this would be malware outbreaks like Wannacry or Notpetya. With this incident, the software that was supposed to keep your machine up and running is now taking it down.

End-point security software needs to run with low-level access in order to protect the computer. Unlike normal software, which can only crash itself, software with rights like this can crash the whole computer. To make matters worse, no other software is updated as frequently as security software. So, security companies have built very effective quality assurance processes, testing huge amount of software combinations to avoid crashes. Obviously, those processes failed here, as Crowdstrike’s driver combined with their update channel configuration file crashed every machine. Maybe they tested one driver and shipped another – we don’t know. Time will tell.

Workarounds for the crash are known, but they are all manual; you need to get a person physically at the keyboard of every crashed machine. Most critical systems are already up and running, but fixing every affected system will take days, maybe weeks.“

Hans-Peter Bauer, vice president of cybersecurity at BlackBerry, said:

„This outage affects some of the world’s most critical systems, networks and applications. The response must be fast, accurate and accountable. A critical event management solution can provide real-time visibility and ensure a rapid, intelligence-driven response as the crisis unfolds.

It is too early to determine the exact cause. But it appears to be yet another example of outdated cybersecurity practices. Complex endpoint detection and response solutions, as well as extensive endpoint agents, are proving to be a major infrastructure risk and are unnecessarily complex. Deploying lean AI at the endpoint can prevent such failures. It protects your environment with regular updates and without cumbersome agents that threaten business operations.

Today’s global IT outage is a stark reminder that offense is the best defense. It’s critical to understand your vulnerabilities and risks through regular testing – not just when implementing new software, but over the long term.

To protect against potential attackers attempting to exploit IT failures, a combination of AI-powered internal and external penetration testing remains essential. These reveal how an external threat actor with authorized access or an actor from the internal network could compromise assets by using constantly evolving tactics, techniques and procedures.
The performance and security of a system is only as good as its least secure hardware and software components. Therefore, eliminating vulnerabilities is a top priority so that business operations can continue as usual.”

Mark Jow, Security Evangelist EMEA at Gigamon, said:

„The Microsoft IT outage highlights the need for more robust and resilient solutions so that such issues can be resolved quickly without causing widespread customer chaos and security risks. Preparation is key – every IT and security vendor needs to have a robust system in place throughout their software development lifecycle to test upgrades before they are rolled out to ensure there are no bugs in the updates“.

 

Arne Lehfeldt, Systems Engineer und CTO Ambassador bei Dell Technologies, erklärt im Podcast Security, Storage und Channel Germany mit Carolina Heyder, warum Unternehmen keine Angst vor KI haben sollten. Arne Lehfeldt, Systems Engineer and CTO Ambassador at Dell Technologies, explains why companies shouldn’t be afraid of AI in the Security, Storage and Channel Germany podcast with Carolina Heyder.

Von Jakob Jung

Dr. Jakob Jung ist Chefredakteur Security Storage und Channel Germany. Er ist seit mehr als 20 Jahren im IT-Journalismus tätig. Zu seinen beruflichen Stationen gehören Computer Reseller News, Heise Resale, Informationweek, Techtarget (Storage und Datacenter) sowie ChannelBiz. Darüber hinaus ist er für zahlreiche IT-Publikationen freiberuflich tätig, darunter Computerwoche, Channelpartner, IT-Business, Storage-Insider und ZDnet. Seine Themenschwerpunkte sind Channel, Storage, Security, Datacenter, ERP und CRM. Dr. Jakob Jung is Editor-in-Chief of Security Storage and Channel Germany. He has been working in IT journalism for more than 20 years. His career includes Computer Reseller News, Heise Resale, Informationweek, Techtarget (storage and data center) and ChannelBiz. He also freelances for numerous IT publications, including Computerwoche, Channelpartner, IT-Business, Storage-Insider and ZDnet. His main topics are channel, storage, security, data center, ERP and CRM. Kontakt – Contact via Mail: jakob.jung@security-storage-und-channel-germany.de

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

WordPress Cookie Hinweis von Real Cookie Banner