GitHub 全球崩潰:數(shù)百萬(wàn)開發(fā)人員下班;國(guó)產(chǎn)Github呼聲強(qiáng)烈
周一早上,軟件開發(fā)平臺(tái)GitHub出現(xiàn)了嚴(yán)重宕機(jī),眾多開發(fā)人員為之抓狂。

GitHub故障是從04:06 UTC(03:06 BST)開始的,在09:31 BST已得到了解決。

這次事件讓人們對(duì)單單在2020年4月發(fā)生三起單獨(dú)故障后GitHub的可靠性提出了新的疑問。
GitHub將4月的那三次故障分別歸咎于:
軟件負(fù)載均衡系統(tǒng)的錯(cuò)誤配置破壞了在服務(wù)于http://GitHub.com的應(yīng)用程序與其依賴的內(nèi)部服務(wù)之間的流量?jī)?nèi)部路由;
數(shù)據(jù)庫(kù)連接配置錯(cuò)誤,與當(dāng)時(shí)進(jìn)行中的數(shù)據(jù)分區(qū)工作有關(guān),“導(dǎo)致意外地進(jìn)入到生產(chǎn)環(huán)境”;
網(wǎng)絡(luò)配置“無(wú)意中應(yīng)用于我們的生產(chǎn)網(wǎng)絡(luò)”。
GitHub在4月曾承認(rèn),其模擬實(shí)驗(yàn)室環(huán)境存在問題。
該公司稱:“該模擬環(huán)境構(gòu)建數(shù)據(jù)庫(kù)和數(shù)據(jù)庫(kù)連接的方式與生產(chǎn)環(huán)境不一樣。這可能導(dǎo)致生產(chǎn)環(huán)境所特有的連接變更的可測(cè)試性受限制。我們會(huì)在未來(lái)幾個(gè)月內(nèi)解決這個(gè)問題?!?/p>
GitHub的大部分平臺(tái)都在其自己的裸機(jī)基礎(chǔ)架構(gòu)上運(yùn)行,網(wǎng)絡(luò)基礎(chǔ)架構(gòu)則“圍繞Clos網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)而建,每個(gè)網(wǎng)絡(luò)設(shè)備都通過邊界網(wǎng)關(guān)協(xié)議(BGP)共享路由?!?/p>
GitHub在2018年被微軟以75億美元的價(jià)格收購(gòu),被5000多萬(wàn)開發(fā)人員所使用??紤]到它支持的工作負(fù)載以及外界廣泛依賴它以確保高可用性,像這樣的大規(guī)模故障可能會(huì)帶來(lái)嚴(yán)重影響。
與其他許多大型基礎(chǔ)架構(gòu)提供商一樣,GitHub的所有者微軟也面臨這個(gè)挑戰(zhàn):新冠疫情后遠(yuǎn)程工作人員數(shù)量激增,從而導(dǎo)致工作負(fù)載激增,因此需要迅速擴(kuò)大數(shù)據(jù)中心基礎(chǔ)架構(gòu)的規(guī)模。微軟在4月份承認(rèn),疫情過后,它面臨供應(yīng)鏈方面的一些問題。
眾多網(wǎng)友在twitter、微博議論:



由于全球各地的工廠紛紛關(guān)閉,大企業(yè)和超大規(guī)模公司需要檢修數(shù)據(jù)中心,新冠疫情嚴(yán)重影響了全球服務(wù)器硬件供應(yīng)鏈。(Dropbox的首席技術(shù)官表示,他公司的數(shù)據(jù)中心團(tuán)隊(duì)“在8周內(nèi)主動(dòng)更換掉了30000個(gè)部件”,以安全地減少現(xiàn)場(chǎng)工作人員)。
與此同時(shí),芯片制造商AMD在第一季度財(cái)報(bào)電話會(huì)議上表示,新冠疫情危機(jī)期間的短短10天內(nèi),一家未透露名稱的云提供商為數(shù)據(jù)中心增加了10000臺(tái)服務(wù)器,由于工作負(fù)載猛增,該云提供商拼命擴(kuò)大其基礎(chǔ)架構(gòu)的規(guī)模。
然而,GitHub的問題似乎主要還是跟模擬環(huán)境與生產(chǎn)環(huán)境之間的缺口方面的問題有關(guān)。