Python Apache Spark大數(shù)據(jù)實(shí)戰(zhàn)教程
Python Apache Spark大數(shù)據(jù)實(shí)戰(zhàn)教程
PySpark 教程包含 20 多個(gè)使用 Python 在桌面或 Hadoop 上分析大型數(shù)據(jù)集的動(dòng)手示例!
課程英文名:Taming Big Data with Apache Spark and Python - Hands On
此視頻教程共5.5小時(shí),中英雙語(yǔ)字幕,畫質(zhì)清晰無(wú)水印,源碼附件全

下載地址
課程編號(hào):347
百度網(wǎng)盤地址:https://pan.baidu.com/s/1mCEdU86NEamaGifJimRVBw?pwd=jtdn
課程內(nèi)容
你將會(huì)學(xué)到的
在?[Spark]?3 中使用 DataFrames 和結(jié)構(gòu)化流
使用?[MLLib]?機(jī)器學(xué)習(xí)庫(kù)回答常見的數(shù)據(jù)挖掘問(wèn)題
了解 Spark Streaming 如何讓您實(shí)時(shí)處理連續(xù)的數(shù)據(jù)流
將大數(shù)據(jù)分析問(wèn)題定義為 Spark 問(wèn)題
使用 Amazon 的 Elastic MapReduce 服務(wù)在具有 Hadoop YARN 的集群上運(yùn)行您的作業(yè)
在臺(tái)式計(jì)算機(jī)或集群上安裝和運(yùn)行 Apache Spark
使用 Spark 的彈性分布式數(shù)據(jù)集來(lái)處理和分析跨多個(gè) CPU 的大型數(shù)據(jù)集
使用 Spark 實(shí)現(xiàn)迭代算法,例如廣度優(yōu)先搜索
了解 Spark SQL 如何讓您處理結(jié)構(gòu)化數(shù)據(jù)
對(duì)集群上運(yùn)行的大型作業(yè)進(jìn)行調(diào)整和故障排除
使用廣播變量和累加器在 Spark 集群上的節(jié)點(diǎn)之間共享信息
了解 GraphX 庫(kù)如何幫助解決網(wǎng)絡(luò)分析問(wèn)題
顯示更少
本課程包括:
7 小時(shí) 長(zhǎng)的隨選視頻
4 篇文章
26 個(gè)可下載資源
在移動(dòng)設(shè)備和電視上觀看
結(jié)業(yè)證書
要求
訪問(wèn)個(gè)人計(jì)算機(jī)。本課程使用 Windows,但示例代碼也可以在 Linux 上正常運(yùn)行。
一些先前的編程或腳本經(jīng)驗(yàn)。Python 經(jīng)驗(yàn)會(huì)有很大幫助,但你可以邊學(xué)邊學(xué)。
說(shuō)明
新的!?針對(duì) Spark 3 進(jìn)行了更新,增加了動(dòng)手練習(xí),并且更加關(guān)注 DataFrames 和結(jié)構(gòu)化流。
"大數(shù)據(jù)"分析是一項(xiàng)熱門且極具價(jià)值的技能本課程將教你大數(shù)據(jù)中最熱門的技術(shù):Apache Spark,特別是PySpark。包括亞馬遜、eBay、NASA JPL和雅虎在內(nèi)的雇主都使用 Spark 快速提取意義從容錯(cuò)Hadoop集群中的海量數(shù)據(jù)集。您將在家中使用自己的 Windows 系統(tǒng)學(xué)習(xí)相同的技術(shù)。這比您想象的要容易。
通過(guò) 20 多個(gè)動(dòng)手示例學(xué)習(xí)和掌握將數(shù)據(jù)分析問(wèn)題構(gòu)建為 Spark 問(wèn)題的藝術(shù),然后在本課程中將它們擴(kuò)展為在云計(jì)算服務(wù)上運(yùn)行。您將向來(lái)自亞馬遜和 IMDb 的前工程師和高級(jí)經(jīng)理學(xué)習(xí)。
了解 Spark 的 DataFrames 和彈性分布式數(shù)據(jù)存儲(chǔ)的概念
使用 Python 和 pyspark 快速開發(fā)和運(yùn)行 Spark 作業(yè)
將復(fù)雜的分析問(wèn)題轉(zhuǎn)化為迭代或多階段 Spark 腳本
使用 Amazon 的Elastic MapReduce服務(wù)擴(kuò)展到更大的數(shù)據(jù)集
了解Hadoop YARN如何跨計(jì)算集群分發(fā) Spark
了解其他 Spark 技術(shù),例如 Spark SQL、Spark Streaming 和 GraphX
在本課程結(jié)束時(shí),您將在幾分鐘內(nèi)運(yùn)行在云中分析數(shù)千兆字節(jié)信息的代碼。
本課程使用熟悉的 Python 編程語(yǔ)言;如果您希望使用 Scala 從 Spark 中獲得最佳性能,請(qǐng)參閱我的"Apache Spark with Scala -- Hands On with Big Data"課程。
一路上我們會(huì)有一些樂(lè)趣。您將通過(guò)一些使用 Spark 分析電影分級(jí)數(shù)據(jù)和書中文本的簡(jiǎn)單示例來(lái)熱身。一旦你掌握了基礎(chǔ)知識(shí),我們將轉(zhuǎn)向一些更復(fù)雜和有趣的任務(wù)。我們將使用一百萬(wàn)個(gè)電影評(píng)分來(lái)尋找彼此相似的電影,您甚至可能會(huì)在此過(guò)程中發(fā)現(xiàn)一些您可能喜歡的新電影!我們將分析超級(jí)英雄的社交圖譜,并了解誰(shuí)是最"流行"的超級(jí)英雄并開發(fā)一個(gè)系統(tǒng)來(lái)找出超級(jí)英雄之間的"分離度"。是否所有漫威超級(jí)英雄都與無(wú)敵浩克有一定的聯(lián)系?你會(huì)找到答案的。
本課程非常實(shí)用;在我們一起編寫、分析和運(yùn)行真實(shí)代碼時(shí),您將花費(fèi)大部分時(shí)間跟隨講師無(wú)論是在您自己的系統(tǒng)上,還是在使用 Amazon 的 Elastic MapReduce 服務(wù)的云中。包括7 小時(shí)的視頻內(nèi)容,其中包含20 多個(gè)越來(lái)越復(fù)雜的真實(shí)示例,您可以自己構(gòu)建、運(yùn)行和學(xué)習(xí)。按照你自己的節(jié)奏,按照你自己的時(shí)間表來(lái)完成它們。本課程最后概述了其他基于 Spark 的技術(shù),包括 Spark SQL、Spark Streaming 和 GraphX。
使用 Apache Spark 處理大數(shù)據(jù)是當(dāng)今技術(shù)世界的一項(xiàng)重要技能?,F(xiàn)在報(bào)名!
"我和 Frank Kane 一起學(xué)習(xí)了"使用 Apache Spark 和 Python 馴服大數(shù)據(jù)",并幫助我為我的公司構(gòu)建了一個(gè)很棒的大數(shù)據(jù)即服務(wù)平臺(tái)。我推薦這門課程!" -- Cleuton Sampaio De Melo Jr.
此課程面向哪些人:
有一些軟件開發(fā)背景的人想學(xué)習(xí)大數(shù)據(jù)分析中最熱門的技術(shù),會(huì)想看看這個(gè)。本課程從軟件開發(fā)的角度關(guān)注 Spark;我們?cè)诖诉^(guò)程中介紹了一些機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘概念,但這不是重點(diǎn)。如果您想學(xué)習(xí)如何使用 Spark 分割龐大的數(shù)據(jù)集并從中提取意義,那么本課程適合您。
如果您以前從未編寫過(guò)計(jì)算機(jī)程序或腳本,那么本課程還不適合您。如果您對(duì)編程不熟悉,我建議您先從 Python 課程開始。
如果您的軟件開發(fā)工作涉及或?qū)⑸婕疤幚泶罅繑?shù)據(jù),您需要了解 Spark。
如果您正在為數(shù)據(jù)科學(xué)或大數(shù)據(jù)的新職業(yè)進(jìn)行培訓(xùn),Spark 是其中的重要組成部分。