谷歌分析宕機(jī)原因:SRE超載系統(tǒng)致谷歌云存儲(chǔ)錯(cuò)誤率提高
本月12日,全球各地的用戶反饋谷歌旗下Gmail、YouTube、Google Drive等服務(wù)發(fā)生宕機(jī),與此同時(shí),F(xiàn)acebook旗下的WhatsApp、Instagram也在14日發(fā)生了大規(guī)模宕機(jī)事故。盡管兩起宕機(jī)事故看似非常接近,但實(shí)際上,這兩起事故本身不具備關(guān)聯(lián)性。
根據(jù)谷歌方面提供的事件報(bào)告,本次谷歌相關(guān)發(fā)生大規(guī)模宕機(jī)是因?yàn)楣雀鑳?nèi)部的blob(大型數(shù)據(jù)對(duì)象)存儲(chǔ)服務(wù)經(jīng)歷了4小時(shí)10分鐘的中斷。受此影響,包括美洲、歐洲和亞洲的部分地區(qū)都受到了此次宕機(jī)時(shí)間影響。谷歌的分析報(bào)告指出,本月11日,Google SRE發(fā)出警報(bào)內(nèi)部blob服務(wù)使用的元數(shù)據(jù)的存儲(chǔ)資源顯著增加;3 月 12 日,為了減少資源使用,SRE進(jìn)行了配置更改,其副作用是使系統(tǒng)的關(guān)鍵部分超載以查找blob數(shù)據(jù)的位置,而增加的負(fù)載最終導(dǎo)致級(jí)聯(lián)故障。
具體來看,谷歌內(nèi)部blob存儲(chǔ)服務(wù)從當(dāng)?shù)貢r(shí)間12日18:40到22:50期間錯(cuò)誤率提高,平均錯(cuò)誤率為 20%,事件發(fā)生時(shí)錯(cuò)誤率為31%,用戶可見的 谷歌服務(wù),包括使用blob存儲(chǔ)服務(wù)的Gmail、照片和谷歌云硬盤錯(cuò)誤率也提高了,如果沒有這些服務(wù)中內(nèi)置的緩存和冗余機(jī)制極大地降低了用戶影響,那么后果會(huì)更加嚴(yán)重。
谷歌表示,非谷歌云平臺(tái)服務(wù)受到的影響將有單獨(dú)的事件報(bào)告,對(duì)于受到此次事件影響的用戶,谷歌表示歉意,并表示將采取積極的措施防止此類事件的發(fā)生。