一つのコンピューターファイルが昨日どのようにしてインターネットの20%を誤ってダウンさせたか – 平易な言葉で解説
概要
昨日発生した、Cloudflareを経由するウェブトラフィックのほぼ20%に影響を与えた大規模なインターネット障害は、単一の偶発的な設定エラーによって引き起こされました。データベースの権限更新により、システムがボット検出ファイルを構築する際に意図せず重複した情報を取得し、ファイルが200項目という上限を超えて膨張しました(通常は約60項目)。
Cloudflareのサーバーがこの巨大化したファイルを読み込もうとした際、ボットコンポーネントが起動に失敗し、Cloudflareを利用する多くのウェブサイトがHTTP 5xxエラーを返す事態となりました。問題は5分ごとの再構築サイクルによって複雑化し、異なるデータベース部分が更新されるたびにエラーファイルが繰り返し再導入されました。このオン・オフのパターンは当初、潜在的なDDoS攻撃のように見え、診断を困難にしました。
解決策としては、新しいボットファイルの生成を停止し、既知の正常なファイルをプッシュし、コアサーバーを再起動することが含まれました。Cloudflareは協定世界時13:05頃に一部サービスへのバイパスを適用し、コアトラフィックは14:30頃に流れ始め、全ダウンストリームサービスは17:06までに復旧しました。Cloudflareは、パフォーマンスを維持するために設けられた厳格な制限が、内部ファイルが不正な形式になった際に、緩やかなフォールバックではなくハードストップを引き起こした設計上のトレードオフを示したと指摘しています。同社は内部設定の検証強化と、より多くのキルスイッチの追加を計画しています。
(出典:CryptoSlate)