某年帶著大廠“光環(huán)”入職現(xiàn)在公司的囧事
這篇文章的主人公是我自己,多年前,自己感覺無論是個(gè)人能力,還是對(duì)公司的貢獻(xiàn),在老東家已得不到晉升。現(xiàn)公司對(duì)我開出了金錢和職位的誘惑,這也是很多碼農(nóng)從大廠跳中小廠的原因之一。
匹馬單槍入職的第一天,臨下班之前,公司線上 Kafka 集群出故障了,某些核心業(yè)務(wù)的主題分區(qū)一直處于 “不可用” 狀態(tài)。
通過?“kafka-topics” 命令查詢,這些分區(qū)的 Leader 顯示的是 -1。經(jīng)詢問,這些 Leader 所在的 Broker 機(jī)器因?yàn)樨?fù)載過高宕機(jī)了。重啟 Broker 之后,Controller 無法成功的為這些分區(qū)選出 Leader。
由于是生產(chǎn)環(huán)境,當(dāng)務(wù)之急是恢復(fù)受損的分區(qū),有同學(xué)問我能否重啟這些分區(qū)舊 Leader 所在的所有 Broker 節(jié)點(diǎn),畢竟重啟大法有時(shí)很靈驗(yàn),但是,這一次沒有成功;運(yùn)維老大一聲“哎,誰懂Kafka???”,說者無心,聽者有意,真是“燒雞大窩脖”。
然后有人建議能否重啟集群中所有的 Broker 節(jié)點(diǎn),通常這是不能接受的,很多業(yè)務(wù)依然在運(yùn)行,而且這種大規(guī)模的無計(jì)劃重啟,也透露著負(fù)責(zé)人的無能。
無奈之下,咨詢了老東家的 Kafka 負(fù)責(zé)人,提示我們刪除?ZooKeeper 的 /controller 節(jié)點(diǎn),效果出奇得好:之前的受損分區(qū)全部恢復(fù)正常,業(yè)務(wù)數(shù)據(jù)得以正常生產(chǎn)和消費(fèi)。
入職第一天,自己感覺丟人丟大了,從那時(shí)起,開始學(xué)習(xí) Kafka 源碼。
講這個(gè)真實(shí)的故事,主要是給那些從大廠跳槽到中小廠的同學(xué)一點(diǎn)建議,在大廠我們都是螺絲釘,對(duì)某一技術(shù)棧比較熟悉,但是中小廠則不同,往往需要的是一個(gè)多面手。