最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

【大數(shù)據(jù)基礎(chǔ)Ep2】《Hadoop權(quán)威指南》讀書筆記P5:數(shù)據(jù)的存儲(chǔ)與分析

2023-04-04 17:10 作者:學(xué)酥酥的學(xué)習(xí)日記本  | 我要投稿

(合計(jì)630字,用時(shí)20min——)

第1章 初識(shí)Hadoop

1.2數(shù)據(jù)的存儲(chǔ)與分析

第一段:?jiǎn)栴}——在硬盤存儲(chǔ)容量多年不斷提升的同時(shí),訪問速度(硬盤數(shù)據(jù)讀取速度)卻沒有與時(shí)俱進(jìn)。

第二段:讀完整個(gè)硬盤中的數(shù)據(jù)需要更長(zhǎng)時(shí)間,寫入數(shù)據(jù)就別提了。一個(gè)減少讀取時(shí)間的辦法是同時(shí)從多個(gè)硬盤上讀數(shù)據(jù)——100個(gè)硬盤,每個(gè)硬盤存儲(chǔ)1%的數(shù)據(jù),并行讀取,那么不到兩分鐘就可以讀完所有數(shù)據(jù)。

第三段:存儲(chǔ)硬盤容量的1%似乎很浪費(fèi),可以存儲(chǔ)100個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集1TB,并實(shí)現(xiàn)共享硬盤的讀取——通過硬盤共享來縮短數(shù)據(jù)分析時(shí)間,從統(tǒng)計(jì)角度來看,用戶的分析工作都是在不同時(shí)間點(diǎn)進(jìn)行的,所以彼此之間的干擾并不太大。

第四段:還有更多問題。

第五段:硬件故障問題:一旦開始使用多個(gè)硬件,其中個(gè)別硬件就很有可能發(fā)生故障,

????對(duì)策:復(fù)制(replication):系統(tǒng)保存數(shù)據(jù)的復(fù)本(replica),一旦有系統(tǒng)發(fā)生故障,就可以使用另外保存的復(fù)本,如——

  1. 冗余硬盤陣列(RAID);

  2. Hadoop的文件系統(tǒng)(Hadoop Distributed FileSystem,HDFS)。

第六段:分布式系統(tǒng)的數(shù)據(jù)分析任務(wù)的正確性——

????對(duì)策:MapReduce提出一個(gè)編程模型,該模型抽象出這些硬盤讀/寫問題并將其轉(zhuǎn)換為對(duì)一個(gè)數(shù)據(jù)集(由鍵-值對(duì)組成)的計(jì)算,這樣的模型由map和reduce兩部分組成,而且只有這兩部分提供對(duì)外的接口

第七段:Hadoop提供了一個(gè)可靠的且可擴(kuò)展的存儲(chǔ)和分析平臺(tái),因?yàn)镠adoop運(yùn)行在商用硬件上且開源——Hadoop的使用成本是在可承受范圍內(nèi)的。


【大數(shù)據(jù)基礎(chǔ)Ep2】《Hadoop權(quán)威指南》讀書筆記P5:數(shù)據(jù)的存儲(chǔ)與分析的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
宜丰县| 台中县| 贵港市| 凤山市| 百色市| 永年县| 永丰县| 布尔津县| 九龙城区| 吐鲁番市| 广河县| 同仁县| 盐池县| 福清市| 诏安县| 三门县| 榆树市| 南丰县| 建宁县| 凤阳县| 大宁县| 龙口市| 双鸭山市| 鸡西市| 特克斯县| 绥中县| 新闻| 轮台县| 思茅市| 伊金霍洛旗| 塔城市| 新巴尔虎右旗| 遂宁市| 隆化县| 南靖县| 上虞市| 商水县| 马公市| 宣武区| 华蓥市| 工布江达县|