什么是大數(shù)據(jù)



大數(shù)據(jù)是具有海量、高增長率和多樣化的信息資產(chǎn),它需要全新的處理模式來增強(qiáng)決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力。
Big data is high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization.








大數(shù)據(jù)通常都擁有海量的數(shù)據(jù)存儲。僅根據(jù)2013年的統(tǒng)計,互聯(lián)網(wǎng)搜索巨頭百度已擁有數(shù)據(jù)量接近EB級別、阿里、騰訊聲明自己存儲的數(shù)據(jù)總量都達(dá)到了百PB以上。此外,電信、醫(yī)療、金融、公共安全、交通、氣象等各個方面保存的數(shù)據(jù)量也都達(dá)到數(shù)十或者上百PB級別。
面對這樣規(guī)模的數(shù)據(jù)存儲量,依靠單臺數(shù)據(jù)庫服務(wù)器顯然是不夠的,需要以分布式文件系統(tǒng)(例如 HDFS)作為基石。
大數(shù)據(jù)通常都擁有海量的數(shù)據(jù)存儲。僅根據(jù)2013年的統(tǒng)計,互聯(lián)網(wǎng)搜索巨頭百度已擁有數(shù)據(jù)量接近EB級別、阿里、騰訊聲明自己存儲的數(shù)據(jù)總量都達(dá)到了百PB以上。此外,電信、醫(yī)療、金融、公共安全、交通、氣象等各個方面保存的數(shù)據(jù)量也都達(dá)到數(shù)十或者上百PB級別。
面對這樣規(guī)模的數(shù)據(jù)存儲量,依靠單臺數(shù)據(jù)庫服務(wù)器顯然是不夠的,需要以分布式文件系統(tǒng)(例如 HDFS)作為基石。
在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫中,所存儲的數(shù)據(jù)都是結(jié)構(gòu)化的,例如:
但是在現(xiàn)實(shí)生活中,信息往往并沒有嚴(yán)格的結(jié)構(gòu)限制。比如一個電商網(wǎng)站需要記錄如下用戶行為:
用戶張三, 于某某時間在商品搜索欄搜索了“蘋果手機(jī)”一詞,然后進(jìn)入 XXX 商鋪進(jìn)行瀏覽,經(jīng)過與店家溝通,討價還價,最終以6000元的價格購買了 iPhone 7 “鋼琴黑”款式手機(jī)一部。
諸如此類的用戶行為數(shù)據(jù)屬于非結(jié)構(gòu)化數(shù)據(jù),很難用關(guān)系型數(shù)據(jù)庫存儲。因此諸多No-SQL數(shù)據(jù)庫(例如 HBase)成為了存儲大數(shù)據(jù)的更好選擇。
如果沒有更加快速有效的海量數(shù)據(jù)解決方案,那么如此大量多樣的數(shù)據(jù)不但沒有帶來更多價值,反而成為了系統(tǒng)的負(fù)擔(dān)。關(guān)于這一點(diǎn),谷歌公司率先提出的MapReduce模型為我們帶來了新的道路。
MapReduce可以簡單的理解成一種分治方法:把龐大的任務(wù)分成若干小任務(wù),交給多個節(jié)點(diǎn)進(jìn)行并行處理,然后再把所有節(jié)點(diǎn)的處理結(jié)果合并起來,從而大大提升了數(shù)據(jù)處理效率。(關(guān)于MapReduce的詳細(xì)流程,將會在以后的文章中進(jìn)行講解。)