【大數(shù)據(jù)基礎(chǔ)Ep1】《Hadoop權(quán)威指南》讀書筆記P3:數(shù)據(jù)!數(shù)據(jù)!

(合計(jì)697字,用時(shí)20min——)
第1章 初識(shí)Hadoop
1.1數(shù)據(jù)!數(shù)據(jù)!
第一段:數(shù)據(jù)大爆炸:
國(guó)際數(shù)據(jù)公司(IDC)曾經(jīng)發(fā)布報(bào)告稱,2013年數(shù)字世界(digital universe)統(tǒng)計(jì)得出全球數(shù)據(jù)總量為4.4ZB(zettabyte);
預(yù)測(cè)在2020年達(dá)到44ZB;
1ZB=10^21字節(jié)=1000EB(exabuytes)=10^6PB(petabytes)=10億TB(terrabytes);
結(jié)論:這遠(yuǎn)遠(yuǎn)超過(guò)了全世界每人一塊硬盤中所能保存的數(shù)據(jù)總量。
第二段:各種例子——
紐約證交所每天產(chǎn)生的交易數(shù)據(jù)大約在4TB至5TB之間;
臉譜網(wǎng)(Facebook)存儲(chǔ)的照片超過(guò)2400億張,并以每月至少7PB的速度增長(zhǎng);
家譜網(wǎng)站Ancestry.com存儲(chǔ)的數(shù)據(jù)約為10PB;
互聯(lián)網(wǎng)檔案館(The Internet Archive)存儲(chǔ)的數(shù)據(jù)約為18.5PB;
瑞士日內(nèi)瓦附近的大型強(qiáng)子對(duì)撞機(jī)每年產(chǎn)生的數(shù)據(jù)約為30PB
——大數(shù)據(jù)的出現(xiàn)會(huì)影響到小機(jī)構(gòu)和個(gè)人嗎?
第三段:作者的觀點(diǎn):照片為例,一個(gè)拍照愛好者的照片生成速度相當(dāng)可觀。
第四段:個(gè)人產(chǎn)生的數(shù)據(jù)正在快速增長(zhǎng)。
第五段:保存?zhèn)€人成長(zhǎng)過(guò)程中產(chǎn)生的所有數(shù)據(jù)逐漸成為主流,更重要的,作為物聯(lián)網(wǎng)一部分的機(jī)器設(shè)備產(chǎn)生的數(shù)據(jù)可能遠(yuǎn)遠(yuǎn)超過(guò)我們個(gè)人所產(chǎn)生的數(shù)據(jù)。
第六段:組織或企業(yè),要想在未來(lái)取得成功,不僅需要管理好自己的數(shù)據(jù),更需要從其他組織或企業(yè)的數(shù)據(jù)中獲取有價(jià)值的信息。
第七段:共享數(shù)據(jù)集先鋒,不同來(lái)源的信息在經(jīng)過(guò)混搭和處理之后,會(huì)帶來(lái)意外的效果和我們難以想象的應(yīng)用。
第八段:通過(guò)星空照片分析并能辨別它來(lái)自星空或其他星體的哪一部分。
第九段:對(duì)于某些應(yīng)用,“大數(shù)據(jù)勝于好算法”。
第十段:我們必須想辦法存儲(chǔ)和分析這些數(shù)據(jù)。