大數(shù)據(jù)之Spark優(yōu)化

?
? ? ? 你所認識的大數(shù)據(jù)是抖音,快手,淘寶等生活方面都可以推薦符合你心意的視頻和商品,讓你 感到倍加神奇,忍不住來了解大數(shù)據(jù)到底是為什么會這樣???

??? ? 在互聯(lián)網(wǎng)技術(shù)發(fā)展到至今階段,大量日常,工作等事務(wù)產(chǎn)生的數(shù)據(jù)都已經(jīng)信息化,人類產(chǎn)生的數(shù)據(jù)量相比以前有了爆炸式的增長,以前傳統(tǒng)的數(shù)據(jù)處理技術(shù)已經(jīng)無法勝任,需求催生技術(shù),一套用來處理海量數(shù)據(jù)的技術(shù)應(yīng)運而生,這就是發(fā)數(shù)據(jù)技術(shù)。

? ? ?大數(shù)據(jù)是海量數(shù)據(jù)相關(guān)的抽取、集成、管理、分析、解釋技術(shù)。大數(shù)據(jù)系統(tǒng),是一個龐大的框架系統(tǒng)
??? 本節(jié)課講的知識點就是大數(shù)據(jù)里的“Spark優(yōu)化”?
一、Spark介紹
? ? ? Apache Spark 是專為大規(guī)模數(shù)據(jù)處理而設(shè)計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學(xué)伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用并行框架

? ? ? Spark,擁有Hadoop MapReduce所具有的優(yōu)點;但不同于MapReduce的是——Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學(xué)習(xí)等需要迭代的MapReduce的算法。
? ? ? ?Apache Spark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計的快速通用的計算引擎?,F(xiàn)在形成一個高速發(fā)展應(yīng)用廣泛的生態(tài)系統(tǒng)。

二、那些高科技用到了Spark?
? ? ? 人工智能的核心就起大數(shù)據(jù),通過大數(shù)據(jù)分析來決定執(zhí)行那一步,Spark被用在了大數(shù)據(jù)領(lǐng)域,因為其能夠處理大量的數(shù)據(jù),依靠磁盤并能進行了復(fù)雜的運算,這些的特點,正是為人工智能提供了核心大腦。

三、Spark優(yōu)化有哪些?
Spark資源優(yōu)化
2.?Spark并行度優(yōu)化
3.?Spark代碼優(yōu)化
4.?內(nèi)存調(diào)優(yōu)
5.?Sparkshuffle優(yōu)化
6.?堆外內(nèi)存優(yōu)化
7.?解決數(shù)據(jù)傾斜

? ? ? 對于大數(shù)據(jù)的未來,會滲透到行業(yè)的各個角落,任何地方都脫離不開大數(shù)據(jù)的范疇。人工智能、云計算、云醫(yī)療等,都是現(xiàn)在炙手可熱的行業(yè)標向,這些完全脫離不了大數(shù)據(jù)的支撐,由此我們就應(yīng)該清晰的認識到大數(shù)據(jù)的重要性。