企業(yè)級大數據平臺建設,解決哪幾大問題?
(1)資源浪費
通常在企業(yè)內部存在多個不同的技術團隊與業(yè)務團隊。若每個團隊搭建各自的大數據集群,服務器資源便會被分割成若干小塊而不能發(fā)揮合力,服務器資源的整體利用率也無法得到保障,這無疑會造成企業(yè)資源的浪費。
其次大數據集群涉及的技術繁雜,搭建和運維需學習和運營成本。這種重復的建設既費力又毫無意義,導致資源無謂浪費。

(2)數據孤島
若企業(yè)內部存在多個分散的小集群,那么業(yè)務數據從物理上便被孤立地存儲于各小集群中,無法對數據全量的整合使用,數據失去關聯(lián)的能力,同時也喪失大數據技術使用全量數據進行分析的優(yōu)勢。
其次,在這種情況下也很難實現對業(yè)務數據進行統(tǒng)一的模型定義與存儲,相同的數據被不同的部門賦予不同的含義,同一份數據以不同的模型定義重復地存儲多個集群中,不僅造成存儲資源浪費,還增加不同部門間的溝通成本。
?
(3)服務孤島
企業(yè)內部各小集群的首要任務是支撐團隊或項目組的業(yè)務場景來滿足自身的需求,所以在實現功能時不會以面向服務的思維來抽象提煉服務,很可能都沒有暴露供小集群外部使用的服務。就算小集群有提供服務,也缺乏統(tǒng)一的頂層設計,提供的服務參差不齊,其訪問入口也不統(tǒng)一。這些服務被分散在不同的集群中,應用程序不能跨多個集群使用所有服務。
?
(4)安全存疑
企業(yè)內部各項目組或團隊自身維護的小集群通常都只為支撐自身業(yè)務而實現的,不會同時面對多個用戶。企業(yè)通過一些行政管理手段保障集群的安全。但當團隊人員擴充、集群規(guī)模擴大或大數據集群的服務同時面向多個技術團隊和業(yè)務部門時,會顯露諸多問題。首當其沖的便是需要面對多用戶的問題,集群不再只有一個用戶,而是需要面對多個不同的用戶,會引出如用戶的管理、用戶的訪問控制、服務的安全控制和數據的授權等問題。
?
(5)缺乏可維護性和可擴展性
大數據領域的技術發(fā)展日新月異,正處于高速發(fā)展時期。集群服務有時需更新以獲得新的能力,或需要安裝補丁以修復Bug。在這種情況下對多個小集群進行維護就會變得非常麻煩。同時當某個小集群性能達到瓶頸時,無法容易地做到橫向擴容。
?
(6)缺乏可復制性
小集群缺乏統(tǒng)一的技術路線,導致大數據集群的運維工作缺乏可復制性。因一個部門或團隊與其他部門使用的技術組件不一致,這樣一個集群的安裝、維護和調試等經驗就無法快速復制和推廣到其他團隊或部門。同時在大數據應用研發(fā)方面也會存在同樣的問題,從以往的項目中提煉、抽象和總結一些經驗、規(guī)則或是開發(fā)框架來幫助應用研發(fā),但是技術路線的不統(tǒng)一將導致經驗喪失指導意義。
?