散文網(wǎng) » 科技 »學(xué)習(xí) » 大數(shù)據(jù)之Spark優(yōu)化

大數(shù)據(jù)之Spark優(yōu)化

2021-03-26 17:43 作者:編程大戰(zhàn) 0人讀過 | 我要投稿

?

? ? ? 你所認識的大數(shù)據(jù)是抖音，快手，淘寶等生活方面都可以推薦符合你心意的視頻和商品，讓你感到倍加神奇，忍不住來了解大數(shù)據(jù)到底是為什么會這樣？？？

??? ? 在互聯(lián)網(wǎng)技術(shù)發(fā)展到至今階段，大量日常，工作等事務(wù)產(chǎn)生的數(shù)據(jù)都已經(jīng)信息化，人類產(chǎn)生的數(shù)據(jù)量相比以前有了爆炸式的增長，以前傳統(tǒng)的數(shù)據(jù)處理技術(shù)已經(jīng)無法勝任，需求催生技術(shù)，一套用來處理海量數(shù)據(jù)的技術(shù)應(yīng)運而生，這就是發(fā)數(shù)據(jù)技術(shù)。

? ? ?大數(shù)據(jù)是海量數(shù)據(jù)相關(guān)的抽取、集成、管理、分析、解釋技術(shù)。大數(shù)據(jù)系統(tǒng)，是一個龐大的框架系統(tǒng)

??? 本節(jié)課講的知識點就是大數(shù)據(jù)里的“Spark優(yōu)化”?

一、Spark介紹

? ? ? Apache Spark 是專為大規(guī)模數(shù)據(jù)處理而設(shè)計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學(xué)伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用并行框架

? ? ? Spark，擁有Hadoop MapReduce所具有的優(yōu)點；但不同于MapReduce的是——Job中間輸出結(jié)果可以保存在內(nèi)存中，從而不再需要讀寫HDFS，因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學(xué)習(xí)等需要迭代的MapReduce的算法。

? ? ? ?Apache Spark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計的快速通用的計算引擎?，F(xiàn)在形成一個高速發(fā)展應(yīng)用廣泛的生態(tài)系統(tǒng)。

二、那些高科技用到了Spark？

? ? ? 人工智能的核心就起大數(shù)據(jù)，通過大數(shù)據(jù)分析來決定執(zhí)行那一步，Spark被用在了大數(shù)據(jù)領(lǐng)域，因為其能夠處理大量的數(shù)據(jù)，依靠磁盤并能進行了復(fù)雜的運算，這些的特點，正是為人工智能提供了核心大腦。

三、Spark優(yōu)化有哪些？

Spark資源優(yōu)化

2.?Spark并行度優(yōu)化

3.?Spark代碼優(yōu)化

4.?內(nèi)存調(diào)優(yōu)

5.?Sparkshuffle優(yōu)化

6.?堆外內(nèi)存優(yōu)化

7.?解決數(shù)據(jù)傾斜

? ? ? 對于大數(shù)據(jù)的未來，會滲透到行業(yè)的各個角落，任何地方都脫離不開大數(shù)據(jù)的范疇。人工智能、云計算、云醫(yī)療等，都是現(xiàn)在炙手可熱的行業(yè)標向，這些完全脫離不了大數(shù)據(jù)的支撐，由此我們就應(yīng)該清晰的認識到大數(shù)據(jù)的重要性。

標簽：