大數(shù)據(jù)實(shí)戰(zhàn)啟航班(Hadoop+Spark+Flink+離線計(jì)算+實(shí)時(shí)計(jì)算)
大數(shù)據(jù)實(shí)戰(zhàn)啟航班(Hadoop+Spark+Flink+離線計(jì)算+實(shí)時(shí)計(jì)算)
參考資料地址1:https://pan.baidu.com/s/1rlsWvDMVGCHEQHclVZcHYA 提取碼: spun
參考資料地址2:https://share.weiyun.com/CcAZRytS 密碼:egum9h
實(shí)戰(zhàn)大數(shù)據(jù)|Hadoop|Spark|Flink|離線計(jì)算|實(shí)時(shí)計(jì)算
第1章 大數(shù)據(jù)概述及環(huán)境搭建
大數(shù)據(jù)(Big Data)通常用來形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時(shí)會(huì)花費(fèi)過多時(shí)間和金錢。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。簡(jiǎn)言之,從各種各樣類型的數(shù)據(jù)中,快速獲得有價(jià)值信息的能力,就是大數(shù)據(jù)技術(shù)。
第2章 Hadoop分布式文件系統(tǒng)(HDFS)
Hadoop分布式文件系統(tǒng)(HDFS)是指被設(shè)計(jì)成適合運(yùn)行在通用硬件(commodity hardware)上的分布式文件系統(tǒng)(Distributed File System)。
第3章 Hadoop資源管理系統(tǒng)(YARN)
Apache Hadoop YARN (Yet Another Resource Negotiator,另一種資源協(xié)調(diào)者)是一種新的 Hadoop 資源管理器,它是一個(gè)通用資源管理系統(tǒng),可為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度,它的引入為集群在利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面帶來了巨大好處。
第4章 Hadoop分布式計(jì)算框架(MapReduce)
MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。概念"Map(映射)"和"Reduce(歸約)",是它們的主要思想,都是從函數(shù)式編程語言里借來的,還有從矢量編程語言里借來的特性
第5章 Zookeeper分布式協(xié)調(diào)服務(wù)
ZooKeeper是一個(gè)分布式的,開放源碼的分布式應(yīng)用程序協(xié)調(diào)服務(wù),是Google的Chubby一個(gè)開源的實(shí)現(xiàn),是Hadoop和Hbase的重要組件。它是一個(gè)為分布式應(yīng)用提供一致性服務(wù)的軟件,提供的功能包括:配置維護(hù)、域名服務(wù)、分布式同步、組服務(wù)等。
第6章 Hadoop分布式集群搭建與管理
搭建Haoop分布式集群所需環(huán)境:VMware,CentOS,Hadoop,JDK,Xshell。整個(gè)過程在VMware虛擬機(jī)中完成
第7章 Hive數(shù)據(jù)倉庫工具
hive是基于Hadoop的一個(gè)數(shù)據(jù)倉庫工具,用來進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)化、加載,這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)的機(jī)制。
第8章 HBase分布式數(shù)據(jù)庫
HBase是一個(gè)分布式的、面向列的開源數(shù)據(jù)庫,該技術(shù)來源于 Fay Chang 所撰寫的Google論文“Bigtable:一個(gè)結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ)系統(tǒng)”。
第9章 Sqoop數(shù)據(jù)遷移工具
Sqoop(發(fā)音:skup)是一款開源的工具,主要用于在Hadoop(Hive)與傳統(tǒng)的數(shù)據(jù)庫(mysql、postgresql...)間進(jìn)行數(shù)據(jù)的傳遞,可以將一個(gè)關(guān)系型數(shù)據(jù)庫(例如 : MySQL ,Oracle ,Postgres等)中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫中。
第10章 Flume日志采集系統(tǒng)
Flume是Cloudera提供的一個(gè)高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),F(xiàn)lume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時(shí),F(xiàn)lume提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,并寫到各種數(shù)據(jù)接受方(可定制)的能力。
第11章 Kafka分布式消息系統(tǒng)
Kafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)(消息引擎系統(tǒng)),它可以處理消費(fèi)者在網(wǎng)站中的所有動(dòng)作流數(shù)據(jù)。
第12章 Davinci大數(shù)據(jù)可視化分析
通過圖形化手段清晰地傳達(dá)數(shù)據(jù),促進(jìn)信息的傳遞與溝通,是數(shù)據(jù)可視化的基礎(chǔ)要素,也是設(shè)計(jì)美學(xué)和功能相結(jié)合的具體表現(xiàn)形式。Davinci便是這樣一款可視應(yīng)用平臺(tái)
第13章 Spark實(shí)時(shí)分析系統(tǒng)
Spark計(jì)算機(jī)集群是2009年由UC Berkeley AMP lab開發(fā)的一個(gè)集群計(jì)算的框架,目的是讓數(shù)據(jù)分析更加快速。
第14章 Flink實(shí)時(shí)分析系統(tǒng)
Flink 是一個(gè)框架和分布式處理引擎,用于對(duì)無界和有界數(shù)據(jù)流進(jìn)行有狀態(tài)計(jì)算
第15章 項(xiàng)目實(shí)戰(zhàn):互聯(lián)網(wǎng)金融項(xiàng)目離線分析
第16章 項(xiàng)目實(shí)戰(zhàn):互聯(lián)網(wǎng)直播項(xiàng)目實(shí)時(shí)分析