Pourquoi l’internet mondial était en panne le 18/11 ?
Mardi 18 novembre, un peu après midi, Internet a toussé… puis s’est effondré par intermittence. En quelques minutes, Cloudflare, l’un des piliers de l’infrastructure du Web mondial, a entraîné dans sa chute une avalanche de services : ChatGPT, X/Twitter, Canva, Clubic et des milliers d’autres plateformes. L’hypothèse d’une cyberattaque massive a d’abord dominé. En réalité, la vérité est plus banale — et beaucoup plus inquiétante.Tout commence à 12h05, lorsque Cloudflare déploie une mise à jour sur un cluster de bases de données ClickHouse. Une modification censée renforcer la sécurité en rendant explicites les permissions d’accès. Un ajustement mineur, en apparence. Sauf que ce changement provoque un bug imprévu : chaque colonne de données se duplique dans les métadonnées. Une anomalie invisible pour l’utilisateur… mais catastrophique pour un composant clé : le fichier utilisé par le système Bot Management, chargé d’analyser le trafic pour distinguer humains et robots.Habituellement, ce fichier contient une soixantaine d’empreintes. Avec les doublons, il en compte plus de 200. Le problème ? Le logiciel censé le traiter est conçu pour refuser tout fichier dépassant 200 entrées, afin d’éviter une surcharge mémoire. Résultat : lorsque ce fichier corrompu se propage aux milliers de serveurs mondiaux, les machines plantent en série et renvoient des erreurs 500 aux internautes du monde entier. Le cauchemar se complique encore. Le fichier est régénéré toutes les cinq minutes. Selon que le serveur tombe sur une version saine ou défectueuse, Cloudflare oscille entre fonctionnement normal et blackout. Diagnostiquer la panne devient un casse-tête. Matthew Prince, le PDG, parle même d’une possible “démonstration de force” d’un réseau de bots, après les gigantesques attaques DDoS de juin.Ce n’est qu’à 14h04 qu’une piste interne apparaît. À 14h37, les équipes identifient enfin le coupable : le fichier Bot Management. À 15h24, sa génération automatique est stoppée. À 15h30, Internet redémarre. Enfin… presque. Le tableau de bord tombe à son tour, écrasé par le flot de connexions en attente. Il faudra attendre 18h06 pour un retour complet. Dans un mea culpa inhabituellement frontal, Matthew Prince avoue : « Une panne comme celle-ci est inacceptable. » Cloudflare promet des coupe-circuits plus rapides, une validation plus stricte des fichiers internes, et des limites pour ses outils de débogage, eux-mêmes responsables d’un ralentissement massif. Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.