Les plus grandes catastrophes résultent parfois de petites choses toutes bêtes. Mardi soir, une partie d’internet — des sites web et des services en ligne, dont iCloud — n’était plus accessible. En cause : un gros plantage des serveurs S3 d’Amazon Web Services (AWS), un des plus importants hébergeurs au monde (lire : Quand Amazon S3 tousse, tout internet s'enrhume). Quatre heures plus tard, la panne était réparée. Mais que de frayeurs !
Amazon a donné l’explication du bug. Le matin de la panne, des membres de l’équipe S3 étaient en train de débogguer le système de facturation. Pour ce faire, ils ont dû déconnecter un petit nombre de serveurs. Mais durant l’opération, une des commandes a été mal saisie, ce qui a provoqué le retrait d’un nombre de serveurs bien plus grand que prévu.
Deux sous-systèmes S3 s’appuyaient sur les serveurs déconnectés ; un d’entre-eux gérait les métadonnées et les informations de localisation de tous les “objets” S3 de la région (à savoir le nord de la Virginie). Le deuxième sous-système s’occupait lui de la gestion du stockage et avait besoin de son confrère pour bien fonctionner. Durant le redémarrage de ces sous-systèmes, d’autres services AWS ont été touchés.
S3 est capable de tenir le choc d’une perte de plusieurs serveurs. Les ennuis ont été plus importants durant le redémarrage, une procédure visiblement complexe et plus longue que le reboot d’un Mac. La croissance « massive » du service d’hébergement ces dernières années, l’opération de redémarrage et la vérification « nécessaire » pour valider l’intégrité des métadonnées a demandé plus de temps que prévu, explique l’entreprise.
Ce qu’on retiendra de cette histoire, c’est que l’effet domino d’une bête erreur de saisie a provoqué une belle pagaille. Pour pallier ce genre de bug, Amazon va prendre des dispositions et faire en sorte que ses systèmes se rétablissent plus rapidement… S3 va aussi s’arranger pour éviter autant que possible les fautes de frappe.