Pannes mondiales : CrowdStrike et Microsoft en cause

Des millions de personnes ont découvert hier CrowdStrike, mais pas pour de bonnes raisons. Pendant ce temps, Microsoft est également blâmé pour des pannes de réseau globales, et il est difficile de déterminer qui est responsable de quoi.

Après une mise à jour du logiciel Falcon Sensor de CrowdStrike, conçu pour protéger les systèmes critiques, des écrans bleus de la mort (BSOD) ont commencé à paralyser les systèmes basés sur Windows. Les problèmes ont débuté en Australie et se sont propagés en suivant la ligne de changement de date.

Des réseaux de télévision, des centres d’appels d’urgence et même les Jeux Olympiques de Paris ont été affectés. Des banques et des systèmes financiers en Inde, en Afrique du Sud, en Thaïlande et dans d’autres pays ont subi des pannes soudaines de leurs ordinateurs. Certains employés ont découvert que leurs ordinateurs portables professionnels affichaient un écran bleu vendredi matin. Les pannes ont non seulement mis hors service la commande mobile chez Starbucks, mais ont aussi touché un motel à Laramie, dans le Wyoming.

Les compagnies aériennes, déjà connues pour leur infrastructure complexe, ont été particulièrement touchées, avec American Airlines, United, Delta et Frontier parmi les compagnies américaines les plus affectées vendredi matin.

George Kurtz, PDG de CrowdStrike, exprime ses regrets

Des correctifs proposés par CrowdStrike et Microsoft pour résoudre les pannes Windows vont du « redémarrage jusqu’à 15 fois » à la suppression individuelle de pilotes dans des disques OS virtuels détachés. La présence de la protection BitLocker sur les appareils affectés complique encore les choses.

George Kurtz, PDG de CrowdStrike, a publié sur X (anciennement Twitter) que la société travaillait sur « un défaut trouvé dans une seule mise à jour de contenu pour les hôtes Windows », précisant que les hôtes Mac et Linux n’étaient pas affectés. « Ce n’est pas un incident de sécurité ou une cyberattaque. Le problème a été identifié, isolé et une correction a été déployée », a écrit Kurtz. Il a ajouté sur NBC’s Today Show que CrowdStrike est « profondément désolé pour l’impact que nous avons causé à nos clients. »

Comme noté sur Mastodon par LittleAlex, Kurtz était CTO chez McAfee en avril 2010 lorsque cette société a envoyé une mise à jour qui a supprimé un fichier crucial de Windows XP, provoquant des pannes généralisées nécessitant une réparation fichier par fichier.

Les coûts des pannes

Les coûts de telles pannes prendront du temps à être évalués et seront difficiles à mesurer. L’analyste des coûts du cloud CloudZero a estimé vendredi matin que l’incident CrowdStrike avait déjà coûté 24 milliards de dollars, basé sur une estimation antérieure.

Les services de Microsoft ont également subi des pannes jeudi soir et vendredi. Plusieurs services Azure ont été affectés, la cause étant « un workflow de gestion de cluster backend [qui] a déployé un changement de configuration causant un blocage de l’accès backend entre un sous-ensemble de clusters de stockage Azure et les ressources de calcul dans la région centrale des États-Unis ».

Les rapports sur ces pannes ont jusqu’à présent blâmé soit Microsoft, soit CrowdStrike, soit un mélange des deux. Cela semble inévitable, étant donné que les pannes se produisent toutes sur une même plateforme, Windows. Microsoft a émis un « avis » concernant le problème BSOD de CrowdStrike sur les machines virtuelles Windows. La société a souvent mis à jour cet avis vendredi, avec une solution qui pourrait surprendre les vétérans de l’IT.

« Nous avons reçu des retours de clients indiquant que plusieurs redémarrages (jusqu’à 15 ont été signalés) peuvent être nécessaires, mais les retours généraux montrent que les redémarrages sont une étape de dépannage efficace à ce stade », a écrit Microsoft dans le bulletin. Alternativement, Microsoft recommande aux clients ayant une sauvegarde « avant 19 h UTC le 18 juillet » de la restaurer, ou de connecter le disque OS à une VM de réparation pour supprimer le fichier (Windows/System32/Drivers/CrowdStrike/C00000291*.sys) à l’origine de la boucle de démarrage.

Le consultant en sécurité Troy Hunt a décrit ces doubles pannes comme « la plus grande panne informatique de l’histoire, » disant que « c’est ce que nous redoutions tous avec l’an 2000, sauf que cette fois, c’est arrivé ».