最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

Hadoop權(quán)威指南:大數(shù)據(jù)的存儲(chǔ)與分析(第4版)

2023-07-05 09:09 作者:取個(gè)名字吧一個(gè)就好  | 我要投稿

鏈接:https://pan.baidu.com/s/1nBHhioBYKYnvkYtvQUQnzg?pwd=v2hx?

提取碼:v2hx

本書結(jié)合理論和實(shí)踐,由淺入深,全方位介紹了Hadoop 這一高性能的海量數(shù)據(jù)處理和分析平臺(tái)。全書5部分24 章,第Ⅰ部分介紹Hadoop 基礎(chǔ)知識(shí),第Ⅱ部分介紹MapReduce,第Ⅲ部分介紹Hadoop 的運(yùn)維,第Ⅳ部分介紹Hadoop 相關(guān)開源項(xiàng)目,第Ⅴ部分提供了三個(gè)案例,分別來(lái)自醫(yī)療衛(wèi)生信息技術(shù)服務(wù)商塞納(Cerner)、微軟的人工智能項(xiàng)目ADAM(一種大規(guī)模分布式深度學(xué)習(xí)框架)和開源項(xiàng)目Cascading(一個(gè)新的針對(duì)MapReduce 的數(shù)據(jù)處理API)。本書是一本專業(yè)、全面的Hadoop 參考書和工具書,闡述了Hadoop 生態(tài)圈的新發(fā)展和應(yīng)用,程序員可以從中探索海量數(shù)據(jù)集的存儲(chǔ)和分析,管理員可以從中了解Hadoop 集群的安裝和運(yùn)維。

內(nèi)容簡(jiǎn)介

  本書結(jié)合理論和實(shí)踐,由淺入深,全方位介紹了Hadoop這一高性能的海量數(shù)據(jù)處理和分析平臺(tái)。全書5部分24章,第Ⅰ部分介紹Hadoop基礎(chǔ)知識(shí),主題涉及Hadoop、MapReduce、Hadoop分布式文件系統(tǒng)、YARN、Hadoop的I/O操作。第Ⅱ部分介紹MapReduce,主題包括MapReduce應(yīng)用開發(fā);MapReduce的工作機(jī)制、MapReduce的類型與格式、MapReduce的特性。第Ⅲ部分介紹Hadoop的運(yùn)維,主題涉及構(gòu)建Hadoop集群、管理Hadoop。第Ⅳ部分介紹Hadoop相關(guān)開源項(xiàng)目,主題涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三個(gè)案例,分別來(lái)自醫(yī)療衛(wèi)生信息技術(shù)服務(wù)商塞納(Cerner)、微軟的人工智能項(xiàng)目ADAM(一種大規(guī)模分布式深度學(xué)習(xí)框架)和開源項(xiàng)目Cascading(一個(gè)新的針對(duì)MapReduce的數(shù)據(jù)處理API)。

  本書是一本專業(yè)、全面的Hadoop參考書和工具書,闡述了Hadoop生態(tài)圈的新發(fā)展和應(yīng)用,程序員可以從中探索海量數(shù)據(jù)集的存儲(chǔ)和分析,管理員可以從中了解Hadoop集群的安裝和運(yùn)維。


作者簡(jiǎn)介

  作者簡(jiǎn)介

  TomWhite是杰出的Hadoop專家之一。自2007年2月以來(lái),TomWhite一直是ApacheHadoop的提交者(committer),也是Apache軟件基金會(huì)的成員。Tom是Cloudera的軟件工程師,他是Cloudera的首批員工,對(duì)Apache和Cloudera做出了舉足輕重的貢獻(xiàn)。在此之前,他是一名獨(dú)立的Hadoop顧問(wèn),幫助公司搭建、使用和擴(kuò)展Hadoop。他是很多行業(yè)大會(huì)的專題演講人,比如ApacheCon、OSCON和Strata。Tom在英國(guó)劍橋大學(xué)獲得數(shù)學(xué)學(xué)士學(xué)位,在利茲大學(xué)獲得科學(xué)哲學(xué)碩士學(xué)位。他目前與家人居住在威爾士。

  譯者簡(jiǎn)介

  王海博士,解放軍理工大學(xué)通信工程學(xué)院教授,博導(dǎo),教研中心主任,長(zhǎng)期從事無(wú)線自組網(wǎng)網(wǎng)絡(luò)的設(shè)計(jì)與研發(fā)工作,主持國(guó)家自然科學(xué)基金、國(guó)家863計(jì)劃課題等多項(xiàng)課題,近5年獲軍隊(duì)科技進(jìn)步二等獎(jiǎng)1項(xiàng),三等獎(jiǎng)6項(xiàng),作為di一發(fā)明人申請(qǐng)國(guó)家發(fā)明專利十余項(xiàng),發(fā)表學(xué)術(shù)論文50余篇。

  華東博士,現(xiàn)任南京醫(yī)科大學(xué)計(jì)算機(jī)教研室教師,一直致力于計(jì)算機(jī)輔助教學(xué)的相關(guān)技術(shù)研究,陸續(xù)開發(fā)了人體解剖學(xué)網(wǎng)絡(luò)自主學(xué)習(xí)考試平臺(tái)、診斷學(xué)自主學(xué)習(xí)平臺(tái)和面向執(zhí)業(yè)醫(yī)師考試的預(yù)約化考試平臺(tái)等系統(tǒng),并在各個(gè)學(xué)科得到廣泛的使用,獲得全國(guó)高等學(xué)校計(jì)算機(jī)課件評(píng)比一等獎(jiǎng)和三等獎(jiǎng)各一項(xiàng)。主編、副主編教材兩部,獲發(fā)明專利一項(xiàng)、軟件著作權(quán)多項(xiàng)。

  劉喻博士,長(zhǎng)期從事軟件開發(fā)、軟件測(cè)試和軟件工程化管理工作,目前任教于清華大學(xué)軟件所。

  呂粵海,長(zhǎng)期從事軍事通信網(wǎng)絡(luò)技術(shù)研究與軟件開發(fā)工作,先后通過(guò)華為光網(wǎng)絡(luò)高級(jí)工程師認(rèn)證、思科網(wǎng)絡(luò)工程師認(rèn)證。


目錄

第Ⅰ部分Hadoop基礎(chǔ)知識(shí)

第1章初識(shí)Hadoop3

1.1數(shù)據(jù)!數(shù)據(jù)!3

1.2數(shù)據(jù)的存儲(chǔ)與分析5

1.3查詢所有數(shù)據(jù)6

1.4不僅僅是批處理7

1.5相較于其他系統(tǒng)的優(yōu)勢(shì)8

1.6ApacheHadoop發(fā)展簡(jiǎn)史12

1.7本書包含的內(nèi)容16

第2章關(guān)于MapReduce19

2.1氣象數(shù)據(jù)集19

2.2使用Unix工具來(lái)分析數(shù)據(jù)21

2.3使用Hadoop來(lái)分析數(shù)據(jù)22

2.4橫向擴(kuò)展31

2.5HadoopStreaming37

第3章Hadoop分布式文件系統(tǒng)42

3.1HDFS的設(shè)計(jì)42

3.2HDFS的概念44

3.3命令行接口50

3.4Hadoop文件系統(tǒng)52

3.5Java接口56

3.6數(shù)據(jù)流68

3.7通過(guò)distcp并行復(fù)制76

第4章關(guān)于YARN78

4.1剖析YARN應(yīng)用運(yùn)行機(jī)制79

4.2YARN與MapReduce1相比82

4.3YARN中的調(diào)度85

4.4延伸閱讀95

第5章Hadoop的I/O操作96

5.1數(shù)據(jù)完整性96

5.2壓縮99

5.3序列化109

5.4基于文件的數(shù)據(jù)結(jié)構(gòu)127

第Ⅱ部分關(guān)于MapReduce

第6章MapReduce應(yīng)用開發(fā)141

6.1用于配置的API142

6.2配置開發(fā)環(huán)境144

6.3用MRUnit來(lái)寫單元測(cè)試152

6.4本地運(yùn)行測(cè)試數(shù)據(jù)156

6.5在集群上運(yùn)行160

6.6作業(yè)調(diào)優(yōu)174

6.7MapReduce的工作流176

第7章MapReduce的工作機(jī)制184

7.1剖析MapReduce作業(yè)運(yùn)行

機(jī)制184

7.2失敗191

7.3shuffle和排序195

7.4任務(wù)的執(zhí)行201

第8章MapReduce的

類型與格式207

8.1MapReduce的類型207

8.2輸入格式218

8.3輸出格式236

第9章MapReduce的特性243

9.1計(jì)數(shù)器243

9.2排序252

9.3連接264

9.4邊數(shù)據(jù)分布270

9.5MapReduce庫(kù)類276

第Ⅲ部分Hadoop的操作

第10章構(gòu)建Hadoop集群279

10.1集群規(guī)范280

10.2集群的構(gòu)建和安裝284

10.3Hadoop配置288

10.4安全性305

10.5利用基準(zhǔn)評(píng)測(cè)程序測(cè)試

Hadoop集群311

第11章管理Hadoop314

11.1HDFS314

11.2監(jiān)控327

11.3維護(hù)329

第Ⅳ部分Hadoop相關(guān)開源項(xiàng)目

第12章關(guān)于Avro341

12.1Avro數(shù)據(jù)類型和模式342

12.2內(nèi)存中的序列化和

反序列化特定API347

12.3Avro數(shù)據(jù)文件349

12.4互操作性351

12.5模式解析352

12.6排列順序354

12.7關(guān)于AvroMapReduce356

12.8使用AvroMapReduce

進(jìn)行排序359

12.9其他語(yǔ)言的Avro362

第13章關(guān)于Parquet363

13.1數(shù)據(jù)模型364

13.2Parquet文件格式367

13.3Parquet的配置368

13.4Parquet文件的讀/寫369

13.5ParquetMapReduce374

第14章關(guān)于Flume377

14.1安裝Flume378

14.2示例378

14.3事務(wù)和可靠性380

14.4HDFSSink382

14.5扇出385

14.6通過(guò)代理層分發(fā)387

14.7Sink組391

14.8Flume與應(yīng)用程序的集成395

14.9組件編目395

14.10延伸閱讀397

第15章關(guān)于Sqoop398

15.1獲取Sqoop398

15.2Sqoop連接器400

15.3一個(gè)導(dǎo)入的例子401

15.4生成代碼404

15.5深入了解數(shù)據(jù)庫(kù)導(dǎo)入405

15.6使用導(dǎo)入的數(shù)據(jù)409

15.7導(dǎo)入大對(duì)象412

15.8執(zhí)行導(dǎo)出414

15.9深入了解導(dǎo)出功能416

15.10延伸閱讀419

第16章關(guān)于Pig420

16.1安裝與運(yùn)行Pig421

16.2示例425

16.3與數(shù)據(jù)庫(kù)進(jìn)行比較428

16.4PigLatin429

16.5用戶自定義函數(shù)446

16.6數(shù)據(jù)處理操作455

16.7Pig實(shí)戰(zhàn)465

16.8延伸閱讀468

第17章關(guān)于Hive469

17.1安裝Hive470

17.2示例472

17.3運(yùn)行Hive473

17.4Hive與傳統(tǒng)數(shù)據(jù)庫(kù)相比480

17.5HiveQL483

17.6表488

17.7查詢數(shù)據(jù)501

17.8用戶定義函數(shù)508

17.9延伸閱讀516

第18章關(guān)于Crunch517

18.1示例518

18.2Crunch核心API521

18.3管線執(zhí)行537

18.4Crunch庫(kù)545

18.5延伸閱讀547

第19章關(guān)于Spark548

19.1安裝Spark549

19.2示例549

19.3彈性分布式數(shù)據(jù)集555

19.4共享變量564

19.5剖析Spark作業(yè)運(yùn)行機(jī)制565

19.6執(zhí)行器和集群管理器570

19.7延伸閱讀574

第20章關(guān)于HBase575

20.1HBase基礎(chǔ)575

20.2概念576

20.3安裝581

20.4客戶端584

20.5創(chuàng)建在線查詢應(yīng)用589

20.6HBase和RDBMS的比較598

20.7Praxis601

20.8延伸閱讀602

第21章關(guān)于ZooKeeper604

21.1安裝和運(yùn)行ZooKeeper605

21.2示例607

21.3ZooKeeper服務(wù)615

21.4使用ZooKeeper來(lái)構(gòu)建

應(yīng)用629

21.5生產(chǎn)環(huán)境中的ZooKeeper640

21.6延伸閱讀643

第Ⅴ部分案例學(xué)習(xí)

第22章醫(yī)療公司塞納(Cerner)

的可聚合數(shù)據(jù)647

22.1從多CPU到語(yǔ)義集成647

22.2進(jìn)入ApacheCrunch648

22.3建立全貌649

22.4集成健康醫(yī)療數(shù)據(jù)651

22.5框架之上的可組合性654

22.6下一步655

第23章生物數(shù)據(jù)科學(xué):

用軟件拯救生命657

23.1DNA的結(jié)構(gòu)659

23.2遺傳密碼:將DNA字符

轉(zhuǎn)譯為蛋白質(zhì)660

22.3將DNA想象成源代碼661

23.4人類基因組計(jì)劃和參考

基因組663

22.5DNA測(cè)序和比對(duì)664

23.6ADAM,一個(gè)可擴(kuò)展的

基因組分析平臺(tái)666

23.7使用Avro接口描述語(yǔ)言進(jìn)行

自然語(yǔ)言編程666

23.8使用Parquet進(jìn)行面向列的

存取668

23.9一個(gè)簡(jiǎn)單例子:用Spark和

ADAM做k-mer計(jì)數(shù)669

23.10從個(gè)性化廣告到個(gè)性化

醫(yī)療672

23.11聯(lián)系我們673

第24章開源項(xiàng)目Cascading674

24.1字段、元組和管道675

24.2操作678

24.3Taps,Schemes和Flows680

24.4Cascading實(shí)踐應(yīng)用681

24.5靈活性684

24.6ShareThis中的Hadoop和

Cascading685

24.7總結(jié)689

附錄A安裝ApacheHadoop691

附錄B關(guān)于CDH697

附錄C準(zhǔn)備NCDC氣象數(shù)據(jù)699

附錄D新版和舊版Java

MapReduceAPI702


查看全部↓

精彩書摘

  第3章Hadoop分布式文件系統(tǒng)

  當(dāng)數(shù)據(jù)集的大小超過(guò)一臺(tái)獨(dú)立的物理計(jì)算機(jī)的存儲(chǔ)能力時(shí),就有必要對(duì)它進(jìn)行分區(qū)(partition)并存儲(chǔ)到若干臺(tái)單獨(dú)的計(jì)算機(jī)上。管理網(wǎng)絡(luò)中跨多臺(tái)計(jì)算機(jī)存儲(chǔ)的文件系統(tǒng)稱為分布式文件系統(tǒng)(distributedfilesystem)。該系統(tǒng)架構(gòu)于網(wǎng)絡(luò)之上,勢(shì)必會(huì)引入網(wǎng)絡(luò)編程的復(fù)雜性,因此分布式文件系統(tǒng)比普通磁盤文件系統(tǒng)更為復(fù)雜。例如,使文件系統(tǒng)能夠容忍節(jié)點(diǎn)故障且不丟失任何數(shù)據(jù),就是一個(gè)極大的挑戰(zhàn)。


Hadoop權(quán)威指南:大數(shù)據(jù)的存儲(chǔ)與分析(第4版)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
阿拉善盟| 韩城市| 柳河县| 唐河县| 互助| 大理市| 玛纳斯县| 普兰县| 甘泉县| 新巴尔虎右旗| 鲜城| 鄂伦春自治旗| 锦屏县| 宁都县| 阿坝县| 同仁县| 伊金霍洛旗| 扶沟县| 柳河县| 景洪市| 雷波县| 宁蒗| 万州区| 灵石县| 大余县| 扎囊县| 汉寿县| 寿光市| 城市| 团风县| 商都县| 沂源县| 汶川县| 舞阳县| 简阳市| 鹰潭市| 松潘县| 邓州市| 西峡县| 白山市| 大名县|