網(wǎng)易云微專業(yè)大數(shù)據(jù)開發(fā)工程師
大數(shù)據(jù)計算原理
在待處理的數(shù)據(jù)存儲在服務器集群的所有服務器上,主要使用HDFS系統(tǒng),將文件分成很多塊(Block),以塊為單位存儲在集群的服務器上
大數(shù)據(jù)引擎根據(jù)集群里的不同服務器的計算能力,在每臺服務器上啟動若干分布式任務執(zhí)行進程,這些進程會等待給它們分配執(zhí)行任務
使用大數(shù)據(jù)計算框架支持的編程模型進行編程,比如Hadoop的MapReduce編程模型,或Spark的RDD編程模型,編寫應用程序,例如python或java程序
用Haddop或Spark的啟動命令執(zhí)行這個應用程序,執(zhí)行引擎會解析程序要處理的數(shù)據(jù)輸入路徑,根據(jù)輸入數(shù)據(jù)量的大小,將數(shù)據(jù)分片,每個片分配給一個任務執(zhí)行進程去處理
任務執(zhí)行進收到任務后檢查是否有任務對應的程序包,沒有就去下載,下載后加載程序
加載程序后,任務根據(jù)分配的數(shù)據(jù)片的文件地址和數(shù)據(jù)在文件內(nèi)的偏移量讀取數(shù)據(jù),并把數(shù)據(jù)輸入給應用程序相應的方法去執(zhí)行,從而實現(xiàn)分布式服務器集群中并行處理的計算目標
標簽: