大數(shù)據(jù)技能競賽知識點解析與實踐
鏈接:https://pan.baidu.com/s/1_hKUTMjpdPTIvUYSO77L8Q?pwd=pldr?
提取碼:pldr

實驗環(huán)境配置說明
第1章Linux操作系統(tǒng)
1.1主機名配置
1.1.1設(shè)置主機名
1.1.2Hosts映射
1.2防火墻配置與管理
1.2.1防火墻操作命令
1.2.2配置防火墻規(guī)則
1.3時間同步
1.3.1同步網(wǎng)絡(luò)時間
1.3.2同步服務(wù)器時間
1.4定時任務(wù)管理
1.5SSH遠程訪問
1.5.1SSH協(xié)議
1.5.2SSH連接工具
1.6軟件包管理
1.6.1軟件配置
1.6.2下載安裝軟件
思考與練習(xí)
第2章數(shù)據(jù)庫技術(shù)
2.1MySQL數(shù)據(jù)庫
2.1.1MySQL的安裝
2.1.2數(shù)據(jù)庫操作管理
2.1.3數(shù)據(jù)表操作管理
2.1.4數(shù)據(jù)操作管理
2.1.5視圖
2.1.6權(quán)限管理
2.1.7備份與還原
2.1.8SQL優(yōu)化
2.2非關(guān)系型數(shù)據(jù)庫NoSQL
2.2.1HBase列式數(shù)據(jù)庫
2.2.2Redis數(shù)據(jù)庫
2.2.3MongoDB文件數(shù)據(jù)庫
思考與練習(xí)
第3章大數(shù)據(jù)平臺技術(shù)
3.1Hadoop分布式大數(shù)據(jù)框架
3.1.1搭建Hadoop偽分布式集群
3.1.2搭建Hadoop完全分布式集群
3.1.3命令行方式管理HDFS
3.1.4使用開發(fā)工具連接Hadoop
集群
3.1.5Java API操作HDFS
3.1.6分布式計算框架之MapReduce
3.1.7編寫MapReduce方法
3.1.8配置Hadoop集群高可用
(HA)
3.2Hive數(shù)據(jù)倉庫
3.2.1本地模式安裝Hive數(shù)據(jù)倉庫
3.2.2Hive數(shù)據(jù)倉庫的常見屬性
3.2.3Hive DDL操作
3.2.4Hive DML操作
3.2.5Hive中的數(shù)據(jù)查詢
3.2.6Hive中的窗口函數(shù)
3.2.7案例:國內(nèi)主要城市房屋出租
情況統(tǒng)計分析
3.3HBase數(shù)據(jù)庫
3.3.1搭建HBase偽分布式集群
3.3.2HBase的Shell操作
3.3.3HBase的Java API操作
3.3.4使用HBase的過濾器
3.3.5HBase與MapReduce的集成
3.3.6HBase與Hive的集成
3.3.7HBase與Sqoop的集成
3.4Spark技術(shù)框架
3.4.1集群安裝部署
3.4.2Spark Shell
3.4.3Spark SQL
3.4.4Spark Streaming
3.4.5Spark MLlib
3.4.6Structured Streaming實時計算
3.5大數(shù)據(jù)平臺運維與管理
3.5.1故障排查
3.5.2性能調(diào)優(yōu)
3.6大數(shù)據(jù)框架應(yīng)用
3.6.1協(xié)調(diào)框架:ZooKeeper
3.6.2數(shù)據(jù)收集:Flume
3.6.3數(shù)據(jù)傳輸:Sqoop
3.6.4任務(wù)調(diào)度工具:Azkaban
思考與練習(xí)
第4章數(shù)據(jù)采集與分析
目錄4.1報表數(shù)據(jù)處理
4.1.1數(shù)據(jù)預(yù)處理
4.1.2數(shù)據(jù)分析
4.2網(wǎng)絡(luò)信息獲取技術(shù)
4.2.1HTTP基本原理
4.2.2網(wǎng)頁組成
4.2.3網(wǎng)絡(luò)請求
4.2.4正則表達式
4.2.5XPath解析
4.2.6Beautiful Soup
4.2.7數(shù)據(jù)存儲
4.3數(shù)據(jù)統(tǒng)計分析
4.3.1描述性分析
4.3.2探索性分析
4.3.3缺失值分析
4.3.4方差分析
4.3.5T檢驗
4.3.6卡方檢驗
思考與練習(xí)
第5章數(shù)據(jù)挖掘與數(shù)據(jù)可視化
5.1數(shù)據(jù)挖掘
5.1.1線性回歸
5.1.2邏輯回歸
5.1.3支持向量機
5.1.4樸素貝葉斯
5.1.5決策樹
5.1.6時間序列分析
5.1.7關(guān)聯(lián)分析
5.1.8K-Means聚類
5.1.9主成分分析
5.2數(shù)據(jù)可視化
5.2.1報表可視化
5.2.2Matplotlib可視化
5.2.3Seaborn可視化
5.2.4ECharts實現(xiàn)數(shù)據(jù)可視化
5.2.5D3實現(xiàn)數(shù)據(jù)可視化
5.2.6FineBI實現(xiàn)數(shù)據(jù)可視化
5.2.7Tableau實現(xiàn)數(shù)據(jù)可視化
5.3業(yè)務(wù)分析報告撰寫
5.3.1明確背景與目的
5.3.2尋找合適數(shù)據(jù)
5.3.3數(shù)據(jù)分析與圖表
5.3.4報告結(jié)論與建議
5.3.5邏輯結(jié)構(gòu)清晰
思考與練習(xí)
查看全部↓
前言/序言
隨著各行各業(yè)數(shù)據(jù)資源的極大豐富及大數(shù)據(jù)技術(shù)的不斷發(fā)展,大數(shù)據(jù)相關(guān)產(chǎn)業(yè)迎來了空前的發(fā)展機遇。大數(shù)據(jù)相關(guān)技術(shù)在各領(lǐng)域得到了廣泛的應(yīng)用,例如,金融大數(shù)據(jù)、商業(yè)大數(shù)據(jù)、網(wǎng)絡(luò)輿情大數(shù)據(jù)及醫(yī)療與健康大數(shù)據(jù)等。對大數(shù)據(jù)人才的市場需求呈現(xiàn)井噴式增長。
各類大數(shù)據(jù)相關(guān)學(xué)科競賽的舉辦,有效促進了高等院校大數(shù)據(jù)相關(guān)專業(yè)教學(xué)模式的探索性改良,推進相關(guān)專業(yè)課程體系、教學(xué)內(nèi)容和教學(xué)方法等教學(xué)資源的質(zhì)量提升和豐富完善,對于高校大數(shù)據(jù)相關(guān)專業(yè)建設(shè)的發(fā)展起到很好的促進作用。通過大數(shù)據(jù)學(xué)科競賽,能夠激發(fā)學(xué)生的自主學(xué)習(xí)熱情,培養(yǎng)學(xué)生的團隊意識和創(chuàng)新意識,提高了學(xué)生在平臺搭建、數(shù)據(jù)采集、數(shù)據(jù)分析與挖掘等方面的實踐能力,提高學(xué)生的專業(yè)技能,并踐行了“理實一體化”“做學(xué)教一體化”的教學(xué)模式。
本書是作者在長期從事大數(shù)據(jù)分析技術(shù)、數(shù)據(jù)挖掘教學(xué)和科學(xué)研究成果的基礎(chǔ)上,以大學(xué)生大數(shù)據(jù)技能競賽、“智警杯”公安系統(tǒng)大數(shù)據(jù)技能競賽為背景,以“大數(shù)據(jù)分析與應(yīng)用職業(yè)技能等級標(biāo)準(zhǔn)”為參考編寫而成。全書共5章,系統(tǒng)介紹了Linux操作系統(tǒng)、數(shù)據(jù)庫技術(shù)、大數(shù)據(jù)平臺技術(shù)、數(shù)據(jù)采集與分析、數(shù)據(jù)挖掘與數(shù)據(jù)可視化等內(nèi)容。
第1章為Linux操作系統(tǒng),主要介紹主機名、Hosts映射、防火墻配置等Linux常用命令,同時對時間同步、定時任務(wù)、遠程訪問等服務(wù)進行介紹。