todayonchain.com

Cómo un archivo informático derribó accidentalmente al 20% de internet ayer – en lenguaje sencillo

CryptoSlate
Un pequeño error de configuración de la base de datos en Cloudflare provocó un archivo de detección de bots sobredimensionado, causando errores HTTP 5xx generalizados y derribando el 20% de internet.

Resumen

La interrupción masiva de internet de ayer, que afectó a casi el 20% del tráfico web enrutado a través de Cloudflare, fue causada por un único y accidental error de configuración. Una actualización de permisos de la base de datos hizo que un sistema extrajera información duplicada al construir el archivo de detección de bots, lo que lo infló más allá del límite estricto de 200 elementos (normalmente contenía unos sesenta).

Cuando los servidores de Cloudflare intentaron cargar este archivo sobredimensionado, el componente de bots no pudo iniciarse, lo que provocó que muchos sitios web que utilizan Cloudflare devolvieran errores HTTP 5xx. El problema se complicó por un ciclo de reconstrucción de cinco minutos que reintroducía repetidamente el archivo defectuoso a medida que se actualizaban diferentes partes de la base de datos. Este patrón intermitente dificultó inicialmente el diagnóstico, pareciendo un posible ataque DDoS.

La resolución implicó detener la generación de nuevos archivos de bots, restaurar un archivo conocido como bueno y reiniciar los servidores centrales. Cloudflare aplicó una anulación para ciertos servicios alrededor de las 13:05 UTC, y el tráfico central comenzó a fluir nuevamente a las 14:30 UTC, con una recuperación total de los servicios posteriores a las 17:06 UTC. Cloudflare identificó que el fallo resaltaba una compensación de diseño donde los límites estrictos, destinados a mantener el rendimiento, provocaron una parada total en lugar de una transición gradual ante un archivo interno mal formado. La compañía planea reforzar la validación de la configuración interna y añadir más interruptores de emergencia globales.

(Fuente:CryptoSlate)