一个计算机文件如何意外导致昨天20%的互联网瘫痪——用通俗的语言解释
内容摘要
昨天影响了近20%网络流量的互联网中断事件,其罪魁祸首是Cloudflare的一次意外的单一配置错误。一次数据库权限更新导致系统在构建机器人检测文件时意外地拉取了重复信息,使文件膨胀超出了200项的硬性限制(通常包含约六十项)。
当Cloudflare的服务器尝试加载这个超大文件时,机器人组件未能启动,导致许多使用Cloudflare的网站返回HTTP 5xx错误。问题因一个五分钟的重建周期而复杂化,该周期在不同数据库片段更新时会反复重新引入错误文件。这种断断续续的模式最初使诊断变得困难,看起来像潜在的DDoS攻击。
解决方案包括停止生成新的机器人文件、推送一个已知的良好文件并重启核心服务器。Cloudflare在协调世界时13:05左右为某些服务应用了绕过措施,核心流量在14:30左右开始恢复,下游服务在17:06完全恢复。Cloudflare认为这次故障凸显了设计上的权衡:旨在保持性能的严格限制,在内部文件格式错误时导致了硬性停止而非平稳的故障转移。该公司计划加强内部配置验证并增加更多的“一键关闭”开关。
(来源:CryptoSlate)