网站很担心意外导致的服务中断事故,社交网络巨头Facebook也不例外。不过脸书倒是敢于直面惨淡的事故,主动采取“毁掉”数据中心的方式来演练事故应对和处理,定期进行真实的事故压力测试。
在该公司Scale年度会议上,工程副总裁Jay Parikh表示,拆散一个数据中心比将其重新组装起来更容易,而该公司SWAT(Special Weapons And Tactics,特殊武器与战术)团队执行的定期压力测试正在让该公司软件工程师在数据中心重组方面分变得更。
Parikh将这项工作称为Project Storm,它始于2012年的Sandy飓风。该飓风威胁到了2个Facebook数据中心,虽然飓风并没有对数据中心造成损害,但这一事件促使该公司的工程团队开始思考在突然损失一个或多个数据中心的情况下,Facebook全球服务可能会受到怎样的影响,该公司因此召集了一个SWAT团队去寻找答案。
从2014年,Project Storm进行了一项真实世界的测试:干掉一个数据中心观察流量是否能顺利转移。经过多次测试,Facebook均能够应对单个数据中心下线的问题。目前该压力测试项目依然在进行中。