手機(jī)站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 科技 »學(xué)習(xí) » 【大數(shù)據(jù)基礎(chǔ)Ep2】《Hadoop權(quán)威指南》讀書筆記P5：數(shù)據(jù)的存儲(chǔ)與分析

【大數(shù)據(jù)基礎(chǔ)Ep2】《Hadoop權(quán)威指南》讀書筆記P5：數(shù)據(jù)的存儲(chǔ)與分析

2023-04-04 17:10 作者:學(xué)酥酥的學(xué)習(xí)日記本 0人讀過 | 我要投稿

（合計(jì)630字，用時(shí)20min——）

第1章初識(shí)Hadoop

1.2數(shù)據(jù)的存儲(chǔ)與分析

第一段：?jiǎn)栴}——在硬盤存儲(chǔ)容量多年不斷提升的同時(shí)，訪問速度（硬盤數(shù)據(jù)讀取速度）卻沒有與時(shí)俱進(jìn)。

第二段：讀完整個(gè)硬盤中的數(shù)據(jù)需要更長(zhǎng)時(shí)間，寫入數(shù)據(jù)就別提了。一個(gè)減少讀取時(shí)間的辦法是同時(shí)從多個(gè)硬盤上讀數(shù)據(jù)——100個(gè)硬盤，每個(gè)硬盤存儲(chǔ)1%的數(shù)據(jù)，并行讀取，那么不到兩分鐘就可以讀完所有數(shù)據(jù)。

第三段：存儲(chǔ)硬盤容量的1%似乎很浪費(fèi)，可以存儲(chǔ)100個(gè)數(shù)據(jù)集，每個(gè)數(shù)據(jù)集1TB，并實(shí)現(xiàn)共享硬盤的讀取——通過硬盤共享來縮短數(shù)據(jù)分析時(shí)間，從統(tǒng)計(jì)角度來看，用戶的分析工作都是在不同時(shí)間點(diǎn)進(jìn)行的，所以彼此之間的干擾并不太大。

第四段：還有更多問題。

第五段：硬件故障問題：一旦開始使用多個(gè)硬件，其中個(gè)別硬件就很有可能發(fā)生故障，

????對(duì)策：復(fù)制（replication）：系統(tǒng)保存數(shù)據(jù)的復(fù)本（replica），一旦有系統(tǒng)發(fā)生故障，就可以使用另外保存的復(fù)本，如——

冗余硬盤陣列（RAID）；
Hadoop的文件系統(tǒng)（Hadoop Distributed FileSystem，HDFS）。

第六段：分布式系統(tǒng)的數(shù)據(jù)分析任務(wù)的正確性——

????對(duì)策：MapReduce提出一個(gè)編程模型，該模型抽象出這些硬盤讀/寫問題并將其轉(zhuǎn)換為對(duì)一個(gè)數(shù)據(jù)集（由鍵-值對(duì)組成）的計(jì)算，這樣的模型由map和reduce兩部分組成，而且只有這兩部分提供對(duì)外的接口。

第七段：Hadoop提供了一個(gè)可靠的且可擴(kuò)展的存儲(chǔ)和分析平臺(tái)，因?yàn)镠adoop運(yùn)行在商用硬件上且開源——Hadoop的使用成本是在可承受范圍內(nèi)的。

標(biāo)簽：大數(shù)據(jù)Hadoop MapReduce HDFS 硬件故障計(jì)算機(jī)RAID 程序員編程復(fù)本