【大數(shù)據(jù)基礎(chǔ)Ep2】《Hadoop權(quán)威指南》讀書筆記P5:數(shù)據(jù)的存儲(chǔ)與分析

(合計(jì)630字,用時(shí)20min——)
第1章 初識(shí)Hadoop
1.2數(shù)據(jù)的存儲(chǔ)與分析
第一段:?jiǎn)栴}——在硬盤存儲(chǔ)容量多年不斷提升的同時(shí),訪問速度(硬盤數(shù)據(jù)讀取速度)卻沒有與時(shí)俱進(jìn)。
第二段:讀完整個(gè)硬盤中的數(shù)據(jù)需要更長(zhǎng)時(shí)間,寫入數(shù)據(jù)就別提了。一個(gè)減少讀取時(shí)間的辦法是同時(shí)從多個(gè)硬盤上讀數(shù)據(jù)——100個(gè)硬盤,每個(gè)硬盤存儲(chǔ)1%的數(shù)據(jù),并行讀取,那么不到兩分鐘就可以讀完所有數(shù)據(jù)。
第三段:存儲(chǔ)硬盤容量的1%似乎很浪費(fèi),可以存儲(chǔ)100個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集1TB,并實(shí)現(xiàn)共享硬盤的讀取——通過硬盤共享來縮短數(shù)據(jù)分析時(shí)間,從統(tǒng)計(jì)角度來看,用戶的分析工作都是在不同時(shí)間點(diǎn)進(jìn)行的,所以彼此之間的干擾并不太大。
第四段:還有更多問題。
第五段:硬件故障問題:一旦開始使用多個(gè)硬件,其中個(gè)別硬件就很有可能發(fā)生故障,
????對(duì)策:復(fù)制(replication):系統(tǒng)保存數(shù)據(jù)的復(fù)本(replica),一旦有系統(tǒng)發(fā)生故障,就可以使用另外保存的復(fù)本,如——
冗余硬盤陣列(RAID);
Hadoop的文件系統(tǒng)(Hadoop Distributed FileSystem,HDFS)。
第六段:分布式系統(tǒng)的數(shù)據(jù)分析任務(wù)的正確性——
????對(duì)策:MapReduce提出一個(gè)編程模型,該模型抽象出這些硬盤讀/寫問題并將其轉(zhuǎn)換為對(duì)一個(gè)數(shù)據(jù)集(由鍵-值對(duì)組成)的計(jì)算,這樣的模型由map和reduce兩部分組成,而且只有這兩部分提供對(duì)外的接口。
第七段:Hadoop提供了一個(gè)可靠的且可擴(kuò)展的存儲(chǔ)和分析平臺(tái),因?yàn)镠adoop運(yùn)行在商用硬件上且開源——Hadoop的使用成本是在可承受范圍內(nèi)的。