每天都說大數(shù)據(jù),構(gòu)成大數(shù)據(jù)的4V你知道是什么嗎?

過去的十年,我們經(jīng)常聽說的是互聯(lián)網(wǎng)時代,而我們現(xiàn)在更經(jīng)常聽到的是大數(shù)據(jù)時代。大數(shù)據(jù)這個詞,聽起來高大上。但到底什么是大數(shù)據(jù)呢,U娘請到我們的專業(yè)講師給大家詳細(xì)解讀一番!
大數(shù)據(jù)首先是一個非常大的數(shù)據(jù)集,可以達(dá)到TB(萬億字節(jié))甚至ZB(十萬億億字節(jié))。這里面的數(shù)據(jù)可能既有結(jié)構(gòu)化的數(shù)據(jù),也有半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),而且來自于不同的數(shù)據(jù)源。
結(jié)構(gòu)化的數(shù)據(jù)是什么呢?對于接觸過關(guān)系型數(shù)據(jù)庫的小伙伴來說,應(yīng)該一點(diǎn)都不陌生。對了,就是我們關(guān)系型數(shù)據(jù)庫中的一張表,每行都具有相同的屬性。如下面的一張表:

每行數(shù)據(jù)都有相同的屬性,這就是結(jié)構(gòu)化的數(shù)據(jù)。
我們再來看半結(jié)構(gòu)化數(shù)據(jù)。XML或JSON格式的數(shù)據(jù)就是我們所常見的半結(jié)構(gòu)的數(shù)據(jù)。如,下面所示的XML數(shù)據(jù):
<book>
<name>大數(shù)據(jù)時代</name>
<author>趙牟</author>
<price>¥60.5</price>
</book>
子標(biāo)簽的次序和個數(shù)不一定完全一致。
那什么又是非結(jié)構(gòu)化數(shù)據(jù)呢?這類數(shù)據(jù)沒有預(yù)定義完整的數(shù)據(jù)結(jié)構(gòu),在我們?nèi)粘9ぷ魃钪锌赡芨嘟佑|的就是這類數(shù)據(jù),比如,圖片、圖像、音頻、視頻、辦公文檔等等。

知道了這三類結(jié)構(gòu)的數(shù)據(jù),我們再來看看大數(shù)據(jù)的數(shù)據(jù)源有哪些呢?歸納起來大致有五種數(shù)據(jù)源。
一是社交媒體平臺,如有名氣的Facebook、Twitter、YouTube和Instagram等。媒體是最受歡迎的大數(shù)據(jù)來源之一,因為它提供了關(guān)于消費(fèi)者偏好和變化趨勢的寶貴依據(jù)。并且因為媒體是自我傳播的,可以跨越所有的物理和人口障礙,因此它是企業(yè)深入了解目標(biāo)受眾、得出模式和結(jié)論、增強(qiáng)決策能力的最快方式。
二是云平臺,公有的、私有的和第三方的云平臺。如今,越來越多的企業(yè)將數(shù)據(jù)轉(zhuǎn)移到云上,超越了傳統(tǒng)的數(shù)據(jù)源。云存儲支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),并為業(yè)務(wù)提供實(shí)時信息和隨需應(yīng)變的依據(jù)。云計算的主要特性是靈活性和可伸縮性。由于大數(shù)據(jù)可以通過網(wǎng)絡(luò)和服務(wù)器在公共或私有云上存儲和獲取,因此云是一種高效、經(jīng)濟(jì)的數(shù)據(jù)源。
三是Web資源。公共網(wǎng)絡(luò)構(gòu)成了廣泛且易于訪問的大數(shù)據(jù),個人和公司都可以從網(wǎng)上或“互聯(lián)網(wǎng)”上獲得數(shù)據(jù)。此外,國內(nèi)的大型購物網(wǎng)站,淘寶、京東、阿里巴巴,更是云集了海量的用戶數(shù)據(jù)。
四是IoT(Internet of Things)物聯(lián)網(wǎng)數(shù)據(jù)源。物聯(lián)網(wǎng)目前正處于迅猛發(fā)展勢頭。有了物聯(lián)網(wǎng),我們不僅可以從電腦和智能手機(jī)獲取數(shù)據(jù),還可以從醫(yī)療設(shè)備、車輛流程、視頻游戲、儀表、相機(jī)、家用電器等方面獲取數(shù)據(jù)。這些都構(gòu)成了大數(shù)據(jù)寶貴的數(shù)據(jù)來源。
五是來自于數(shù)據(jù)庫的數(shù)據(jù)源?,F(xiàn)今的企業(yè)都喜歡融合使用傳統(tǒng)和現(xiàn)代數(shù)據(jù)庫來獲取相關(guān)的大數(shù)據(jù)。這些數(shù)據(jù)都是企業(yè)驅(qū)動業(yè)務(wù)利潤的寶貴資源。常見的數(shù)據(jù)庫有MS Access、DB2、Oracle、MySQL以及大數(shù)據(jù)的數(shù)據(jù)庫Hbase、MongoDB等。
我們再來總結(jié)一下,什么樣的數(shù)據(jù)就屬于大數(shù)據(jù)呢?通常來大數(shù)據(jù)有4個特點(diǎn),這就是業(yè)內(nèi)人士常說的4V,volume容量、 variety多樣性、velocity速度和veracity準(zhǔn)確性。