一枚碼工腳本誤刪亞馬遜 AWS 弗吉尼亞州數(shù)據(jù)中心幾乎所有 host,引發(fā)悲劇
2月28日,美國亞馬遜AWS在弗吉尼亞州的數(shù)據(jù)中心遭遇了故障,這起事件非同小可。故障使得云服務(wù)S3的錯誤率顯著上升,眾多在線服務(wù)因此受到影響。這一情況讓許多人既感到震驚,又感到無奈。
故障事件的開端
2月28日,美國弗吉尼亞州亞馬遜AWS數(shù)據(jù)中心發(fā)生故障。一位工程師誤操作,本意是移除部分服務(wù)器,卻意外刪除了一組服務(wù)器,還連帶影響了兩個S3子系統(tǒng)的支持。這一失誤表明,操作過程中的人為錯誤可能帶來嚴(yán)重影響,一個小小的失誤就可能引發(fā)一連串嚴(yán)重后果。這進(jìn)一步突顯了嚴(yán)格執(zhí)行操作流程的必要性,對執(zhí)行者的要求必須更加嚴(yán)格。這次失誤還引發(fā)了后續(xù)一系列反應(yīng),導(dǎo)致眾多在線服務(wù)受到影響。
企業(yè)數(shù)據(jù)中心的管理工作,特別是像亞馬遜這樣的行業(yè)巨頭,對執(zhí)行者的專業(yè)素養(yǎng)和操作流程的審查尤為關(guān)鍵。對于可能發(fā)生的人為失誤,是否應(yīng)該建立更為嚴(yán)格的多級審核制度?
涉及的相關(guān)服務(wù)
受影響的網(wǎng)站服務(wù)名單中,Slack赫然在列。這些服務(wù)要么鏡像部分丟失,要么處于半運行狀態(tài)。連亞馬遜彈性計算云(EC2)的新實例啟動也未能幸免。隨著云計算成為眾多企業(yè)和服務(wù)運行的關(guān)鍵支撐,一個服務(wù)的故障可能引發(fā)連鎖反應(yīng),如同多米諾骨牌般波及廣泛。無數(shù)企業(yè)和用戶都依賴這些服務(wù)來開展在線業(yè)務(wù)或獲取信息。而弗吉尼亞州數(shù)據(jù)中心故障所影響的范圍,或許已經(jīng)遍布全球各地。
大型云服務(wù)提供商的服務(wù)穩(wěn)定性顯得尤為重要。若出現(xiàn)故障,影響范圍廣泛。這時,小型服務(wù)提供商和企業(yè)是否應(yīng)重新審視選擇云服務(wù)供應(yīng)商時的風(fēng)險考量?
系統(tǒng)調(diào)試問題
亞馬遜S3團(tuán)隊當(dāng)時正在調(diào)試問題,這導(dǎo)致了S3計費系統(tǒng)的處理速度變慢。在PUT請求中,布置子系統(tǒng)在重啟時無法處理服務(wù)請求。S3API無法使用,這影響了依賴S3存儲的其他相關(guān)實例。這一現(xiàn)象充分展示了系統(tǒng)之間關(guān)聯(lián)的復(fù)雜性。僅僅是一個計費系統(tǒng)的調(diào)試,就可能產(chǎn)生如此顯著的蝴蝶效應(yīng)。那么,如果是更核心的系統(tǒng)出現(xiàn)問題?
企業(yè)在調(diào)試系統(tǒng)時,是否應(yīng)更加慎重地制定計劃?是否應(yīng)全面考慮系統(tǒng)之間的相互聯(lián)系?是否應(yīng)對調(diào)試的時間段進(jìn)行更為周密的安排,以避開業(yè)務(wù)高峰期等關(guān)鍵時段?
系統(tǒng)設(shè)計與應(yīng)對故障的思考
S3子系統(tǒng)本意是為了減輕故障帶來的影響,然而,多年來并未對某些服務(wù)進(jìn)行過全面的重啟。伴隨S3的進(jìn)步,重啟所需的時間已遠(yuǎn)遠(yuǎn)超出預(yù)期。這表明,盡管企業(yè)的系統(tǒng)設(shè)計具有前瞻性,但在業(yè)務(wù)迅猛增長后的情形可能并未得到充分預(yù)想。至于對故障的處理,也未很好地適應(yīng)業(yè)務(wù)變化后的新情況。
企業(yè)在業(yè)務(wù)迅速擴(kuò)張的過程中,是否需要設(shè)立一套專門的機(jī)制,定期對系統(tǒng)設(shè)計進(jìn)行重新評估和優(yōu)化,以便應(yīng)對可能出現(xiàn)的故障問題?
解決措施與應(yīng)對反應(yīng)
對修改工具進(jìn)行調(diào)整,使其刪除數(shù)據(jù)速度減慢,并增強(qiáng)安全防護(hù)。工程團(tuán)隊對服務(wù)進(jìn)行了拆分,便于對評估和測試恢復(fù)流程進(jìn)行審查。從故障發(fā)生至上午11點37分,由于SHD管理控制器依賴S3,未能更新服務(wù)狀態(tài)。因此,我們調(diào)整了SHD管理控制臺,使其能夠在多個區(qū)域運行。這些應(yīng)對措施展現(xiàn)了企業(yè)解決問題的態(tài)度,然而,這些措施是否足夠?
企業(yè)實施故障應(yīng)對措施時,如何確保能迅速且高效地恢復(fù)服務(wù)?
服務(wù)重要性與反思
亞馬遜自豪于其S3服務(wù)的卓越可用性,然而此次事件卻揭示了一個事實:服務(wù)對于客戶、應(yīng)用、用戶和業(yè)務(wù)來說至關(guān)重要。亞馬遜必須進(jìn)行深刻反思,其他云服務(wù)企業(yè)也應(yīng)將此次事件作為警示。一個服務(wù)故障所影響的,絕不僅僅是一個小范圍的群體。
其他云服務(wù)企業(yè)能從亞馬遜此次故障中學(xué)到哪些經(jīng)驗以防止類似危機(jī)的發(fā)生?期待讀者們積極留言,并點贊及轉(zhuǎn)發(fā)這篇文章。大家還了解哪些典型的云服務(wù)故障案例嗎?
作者:小藍(lán)
鏈接:http://www.haitaopa.cn/content/3585.html
本站部分內(nèi)容和圖片來源網(wǎng)絡(luò),不代表本站觀點,如有侵權(quán),可聯(lián)系我方刪除。