受影响的服务包括Cloudflare API和Cloudflare Recursive DNS,这两项服务都被标注为性能出现降级。在Cloudflare处理网络流量的全球诸多地区,状态页面显示数据在重新路由。
Cloudflare首席执行官Matt Prince指出罪魁祸首是美国亚特兰大的一台路由器:
他补充道,故障“似乎在20分钟多一点的时间内影响了我们约50%的流量。”
由于Cloudflare为许多非商业和商业网站处理DNS服务和边缘计算服务,因此短暂的服务中断立即引起了注意。
处理一半互联网DNS服务的Cloudflare遭遇“故障”。许多网站和服务受影响。
突发新闻:重大故障导致网站托管、网络和互联网安全提供商Cloudflare瘫痪。故障基本上已得到解决。80多个网站和应用出现宕机。
今天,我们的骨干网络出现了一个配置错误,导致众多网站和Cloudflare服务发生故障,故障持续了27分钟。我们得知,我们整个网络上的流量下降了约50%。由于我们骨干网的体系结构,这次故障并没影响整个Cloudflare网络,仅局限于某些地区。
之所以发生故障,是由于我们在处理从纽瓦克到芝加哥的骨干网的一个网段存在的毫无关联的问题时,我们的网络工程团队更新了亚特兰大一台路由器上的配置以缓解拥塞。该配置有一个错误,导致了我们骨干网上的所有流量统统被发送到亚特兰大。这很快使亚特兰大的那台路由器不堪重负,进而导致连接到骨干网的Cloudflare网络位置出现了故障。
受影响的位置有圣何塞、达拉斯、西雅图、洛杉矶、芝加哥、华盛顿特区、里士满、纽瓦克、亚特兰大、伦敦、阿姆斯特丹、法兰克福、巴黎、斯德哥尔摩、莫斯科、圣彼得堡、圣保罗、库里蒂巴和阿雷格里港。其他位置继续正常运行。
我们为这次故障深表歉意,已经对骨干网配置进行了全局变更,防止故障再次出现。
Cloudflare在我们遍布全球的许多数据中心之间运营着骨干网(backbone)。这个骨干网是我们的数据中心之间的一系列专用线路,用于数据中心之间更快速、更可靠的路径。这些连接让我们得以在不经过公共互联网的情况下在不同数据中心之间传输流量。
比如说,个人会使用该骨干网来联系位于纽约的一台网站原始服务器,通过我们的专用骨干网将请求传输到加利福尼亚州圣何塞或远至法兰克福或圣保罗的地方。避开使用公共互联网的这个额外选择能带来更高的服务的品质,因为这个专用网络可用来避免互联网拥塞点。借助骨干网,我们大家可以在何处路由以及如何路由互联网请求和流量方面获得极大的控制权,比公共互联网提供的控制权大得多。
首先,纽瓦克和芝加哥之间的骨干网连接出现了问题,导致亚特兰大和华盛顿特区之间的骨干网出现拥塞。
为了应对该问题,网络工程团队在亚特兰大进行了配置变更。进行变更后,故障从21点12分开始。一旦工程团队了解到故障,禁用了亚特兰大路由器,流量在21点39分重新开始正常传输。
不久之后,我们得知处理日志和衡量指标的其中一个核心数据中心出现拥塞,导致一些日志被丢弃。在此期间,边缘网络继续正常运行。
20点25分:亚特兰大(ATL)和阿什本(IAD)之间的骨干网出现拥塞;
21点12分至21点39分:亚特兰大(ATL)吸引了来自整个骨干网的流量;
21点47分至22点10分:核心数据中心拥塞导致一些日志丢失,边缘网络继续运行;
这里通过Cloudflare的内部流量管理器工具直观地显示了故障影响。顶部的红色和橙域表明亚特兰大的CPU使用率已达到过载状态,而白域表明受影响的数据中心因不再处理流量而出现CPU使用率降低至接近零的状态。这是故障期间。
其他未受影响的数据中心在故障期间其CPU使用率未出现变化。这一些数据中心在故障期间一直呈现绿色,没有变化,表明了这一点。
由于亚特兰大出现了骨干网拥塞,网络工程团队决定删除亚特兰大的部分骨干网流量。但不是从骨干网删除亚特兰大路由,而是只有单单一行的变更开始将所有BGP路由泄露到骨干网。
该term设置了本地优先级,添加了一些团体(community),并接受与前缀列表匹配的路由。本地优先级是iBGP会话方面的一个传递属性(它会被转移到下一个BGP peer)。
通过删除前缀列表条件,路由器被指令将其BGP路由统统发送到所有其他骨干路由器,本地优先级增加到200。遗憾的是,当时,边缘路由器从我们的计算节点收到的本地路由其本地优先级为100。由于较高的本地优先级占上风,原本发送到本地计算节点的所有流量都改而发送到了亚特兰大计算节点。
对我们的骨干BGP会话实行最大前缀限制——这会关闭亚特兰大的骨干网,但是我们的网络可以在没有骨干网的情况下正常运行。此更改将在7月20日周一部署到位。
更改本地服务器路由的BGP本地优先级。此更改将防止单单一个位置以类似方式吸引其他位置的流量。这次故障事件后,此更改已部署到位。
我们从未遇到过骨干网发生故障的情况,我们的团队迅速做出了反应,在受影响的位置恢复了服务,但这对于每个受影响的人/公司来说都是一段很痛苦的时期。我们为故障期间没办法访问网站的客户和全用户深表歉意。
我们已经对骨干网配置进行了变更,以确保不会再次发生这种情况,进一步的变更会在周一接着来进行。
在山区,农民耕作水平较低,尤其是在施肥方面,存在较多误区,有可能会出现施肥不当的现象,造成施肥后
北京商报讯(记者 金朝力 王柱力)转型数字修建之后,美的在楼宇科技范畴动作一再,其最为中心的暖通
离心机振荡毛病类型许多,例如不平衡、转子曲折、不对中、轴横向裂纹以及华德环保今日跟你评论的衔接松
11月24日,大连造船山海关船舶重工有限责任公司(山船重工)和华远星海运有限公司签订三年期船舶修
徐州高价回收二手650卧螺离心机梁山宏安机械设备购销有限公司我们的设备虽然是二手二手不等于是劣质