如何通俗講什么是大數(shù)據(jù)(舉例來講)
在互聯(lián)網(wǎng)的高速發(fā)展下,可能人們都已經(jīng)或多或少的聽到過大數(shù)據(jù),但大數(shù)據(jù)到底是什么,可能大家還不是很清楚,今天我用通俗的語言來告訴大家,什么是大數(shù)據(jù)。

大數(shù)據(jù)解釋
大數(shù)據(jù),很明顯從字面上理解就是巨大的數(shù)據(jù),海量的數(shù)據(jù)。大,意思就是數(shù)據(jù)的量級很大,不上TB都不好意思說是大數(shù)據(jù)。

數(shù)據(jù),從狹義上講就是12345那么些數(shù)據(jù),畢竟計算機(jī)底層是二進(jìn)制來存的,那么在大數(shù)據(jù)領(lǐng)域中,數(shù)據(jù)就不僅僅包括數(shù)字這些,它可以是所有格式的東西,比如日志,音頻視頻,文件等等。
所以,大數(shù)據(jù)從字面上理解就是海量的數(shù)據(jù),但在技術(shù)上它包括這些海量數(shù)據(jù)的采集,過濾,清洗,存儲,處理,查看等等部分,每一個部分包括一些大數(shù)據(jù)的相關(guān)技術(shù)框架來支持。

我們來舉個例子,淘寶雙十一的總交易額的顯示,后面就是大數(shù)據(jù)技術(shù)的支持,全國那么多淘寶用戶的交易記錄匯聚到一起,數(shù)據(jù)量是非常龐大的,而要做到將數(shù)據(jù)展現(xiàn)出來,就需要強(qiáng)有力的大數(shù)據(jù)技術(shù)來進(jìn)行處理。

數(shù)據(jù)量一旦過于龐大,那么就需要找一個專門的地方進(jìn)行存儲,但是一個服務(wù)器硬盤存儲量是有限的,肯定滿足不了這么大的數(shù)據(jù)量存儲,所以,分布式的存儲系統(tǒng)也就應(yīng)運(yùn)而生,簡單的說,就是把這些龐大的數(shù)據(jù)分開存儲在幾百甚至幾千臺服務(wù)器上,那么管理他們的系統(tǒng)也稱為HDFS文件系統(tǒng),也就是大數(shù)據(jù)技術(shù)的最基本的組件。

那么這些數(shù)據(jù)存儲之后,就需要一些分布式的數(shù)據(jù)庫來進(jìn)行管理查詢,繼而衍生出了Hbase等,另外還需要一些組件來計算分析這些數(shù)據(jù),所以逐漸衍生出了大數(shù)據(jù)開發(fā)工程師、數(shù)據(jù)分析師、數(shù)據(jù)架構(gòu)師、數(shù)據(jù)庫開發(fā)、數(shù)據(jù)庫管理等大數(shù)據(jù)相關(guān)的工作崗位。
