風哥數(shù)據(jù)庫核心技術(shù)之非常規(guī)特殊恢復(fù)實戰(zhàn)
分布式數(shù)據(jù)庫故障時如何確保故障自動轉(zhuǎn)移,自動恢復(fù)業(yè)務(wù),實現(xiàn)高可用?
分布式庫的組件較多,大致可分為數(shù)據(jù)節(jié)點、計算節(jié)點、控制節(jié)點三類角色。其中,計算節(jié)點一般為無狀態(tài)的,故障后可切換自動恢復(fù);控制節(jié)點一般采用自身高可用保障,出現(xiàn)問題會主動自愈;數(shù)據(jù)節(jié)點出現(xiàn)問題時較為重要,因為其上面承載的數(shù)據(jù)。我理解問題主要是對應(yīng)這一角色。針對數(shù)據(jù)節(jié)點,不同分布式數(shù)據(jù)庫產(chǎn)品,底層實現(xiàn)有所差異,大致可分為兩種情況:
1.基于單機數(shù)據(jù)庫的主從復(fù)制模式
2.基于多數(shù)派協(xié)議保證的多副本模式
無論是哪種模式,當出現(xiàn)故障時都會完成自動選主,自動切換,從而實現(xiàn)高可用。目前的大部分產(chǎn)品,都已可實現(xiàn)在同AZ、同城跨AZ的自主切換、對業(yè)務(wù)無感(業(yè)務(wù)需實現(xiàn)出錯重試機制)。針對異地的情況,一般還是建議人工介入,而不自動完成切換。
標簽: