多易 Spark內(nèi)核原理與源碼分析
Stage
Job 分成的階段,一個 Spark 作業(yè)常被分為一個或者多個 Stage。 Stage 基于 RDD 的 DAG 依賴關(guān)系圖進(jìn)行劃分。調(diào)度器從 DAG 圖末端出發(fā),遇到 ShuffleDependecy 就斷開。遇到 NarrowDependecy 就加入到當(dāng)前 Stage。
Partition
數(shù)據(jù)分區(qū),即一個 RDD 可以被劃分成多少個分區(qū)
Shuffle
有些運(yùn)算需要將各節(jié)點(diǎn)上的同一類數(shù)據(jù)匯集到某一節(jié)點(diǎn)進(jìn)行計算,把這些分布在不同節(jié)點(diǎn)的數(shù)據(jù)按照一定的規(guī)則匯集到一起的過程稱為 Shuffle。后面會有單獨(dú)的文章講 Shuffle。
標(biāo)簽: