到底什么是大數(shù)據(jù)?
1、從“數(shù)據(jù)”到“大數(shù)據(jù)”
時(shí)至今日,“數(shù)據(jù)”變身“大數(shù)據(jù)”,“開(kāi)啟了一次重大的時(shí)代轉(zhuǎn)型”。 “大數(shù)據(jù)”這一概念的形成,有三個(gè)標(biāo)志性事件:
2008年9 月,美國(guó)《自然》(Nature)雜志專(zhuān)刊——The next google,第一次正式提出“大數(shù)據(jù)”概念。
2011年2月1日,《科學(xué)》(Science)雜志專(zhuān)刊——Dealing with data,通過(guò)社會(huì)調(diào)查的方式,第一次綜合分析了大數(shù)據(jù)對(duì)人們生活造成的影響,詳細(xì)描述了人類(lèi)面臨的“數(shù)據(jù)困境”。
2011年5月,麥肯錫研究院發(fā)布報(bào)告——Big data: The next frontier for innovation, competition, and productivity,第一次給大數(shù)據(jù)做出相對(duì)清晰的定義:“大數(shù)據(jù)是指其大小超出了常規(guī)數(shù)據(jù)庫(kù)工具獲取、儲(chǔ)存、管理和分析能力的數(shù)據(jù)集。”
2、什么是“大數(shù)據(jù)”

大數(shù)據(jù)是指以多元形式,自許多來(lái)源搜集而來(lái)的龐大數(shù)據(jù)組,往往具有實(shí)時(shí)性。在企業(yè)對(duì)企業(yè)銷(xiāo)售的情況下,這些數(shù)據(jù)可能得自社交網(wǎng)絡(luò)、電子商務(wù)網(wǎng)站、顧客來(lái)訪紀(jì)錄,還有許多其他來(lái)源。這些數(shù)據(jù),并非公司顧客關(guān)系管理數(shù)據(jù)庫(kù)的常態(tài)數(shù)據(jù)組。
3、大數(shù)據(jù)的技術(shù)支撐

4、存儲(chǔ):存儲(chǔ)成本的下降
1)云計(jì)算出現(xiàn)之前
在云計(jì)算出現(xiàn)之前,數(shù)據(jù)存儲(chǔ)的成本是非常高的。例如,公司要建設(shè)網(wǎng)站,需要購(gòu)置和部署服務(wù)器,安排技術(shù)人員維護(hù)服務(wù)器,保證數(shù)據(jù)存儲(chǔ)的安全性和數(shù)據(jù)傳輸?shù)臅惩ㄐ?,還會(huì)定期清理數(shù)據(jù),騰出空間以便存儲(chǔ)新的數(shù)據(jù),機(jī)房整體的人力和管理成本都很高。
2)云計(jì)算出現(xiàn)之后
云計(jì)算出現(xiàn)后,數(shù)據(jù)存儲(chǔ)服務(wù)衍生出了新的商業(yè)模式,數(shù)據(jù)中心的出現(xiàn)降低了公司的計(jì)算和存儲(chǔ)成本。例如,公司現(xiàn)在要建設(shè)網(wǎng)站,不需要去購(gòu)買(mǎi)服務(wù)器,不需要去雇用技術(shù)人員維護(hù)服務(wù)器,可以通過(guò)租用硬件設(shè)備的方式解決問(wèn)題。
存儲(chǔ)成本的下降,也改變了大家對(duì)數(shù)據(jù)的看法,更加愿意把1年、2年甚至更久遠(yuǎn)的歷史數(shù)據(jù)保存下來(lái),有了歷史數(shù)據(jù)的沉淀,才可以通過(guò)對(duì)比,發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)和價(jià)值。正是由于存儲(chǔ)成本的下降,才能為大數(shù)據(jù)搭建最好的基礎(chǔ)設(shè)施。
5、計(jì)算:運(yùn)算速度越來(lái)越快
海量數(shù)據(jù)從原始數(shù)據(jù)源到產(chǎn)生價(jià)值,期間會(huì)經(jīng)過(guò)存儲(chǔ)、清洗、挖掘、分析等多個(gè)環(huán)節(jié),如果計(jì)算速度不夠快,很多事情是無(wú)法實(shí)現(xiàn)的。所以,在大數(shù)據(jù)的發(fā)展過(guò)程中,計(jì)算速度是非常關(guān)鍵的因素。
分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop的出現(xiàn),為大數(shù)據(jù)帶來(lái)了新的曙光;
HDFS為海量的數(shù)據(jù)提供了存儲(chǔ);
MapReduce則為海量的數(shù)據(jù)提供了并行計(jì)算,從而大大提高了計(jì)算效率;
Spark、Storm、Impala等各種各樣的技術(shù)進(jìn)入人們的視野。
6、智能:機(jī)器擁有理解數(shù)據(jù)的能力
大數(shù)據(jù)帶來(lái)的最大價(jià)值就是“智慧”,大數(shù)據(jù)讓機(jī)器變得有智慧,同時(shí)人工智能進(jìn)一步提升了處理和理解數(shù)據(jù)的能力。例如:
谷歌AlphaGo大勝世界圍棋冠軍李世石
阿里云小Ai成功預(yù)測(cè)出《我是歌手》的總決賽歌王
iPhone上智能化語(yǔ)音機(jī)器人Siri
微信上與大家聊天的微軟小冰
7、大數(shù)據(jù)的意義
美國(guó)著名管理學(xué)家愛(ài)德華·戴明所言:“我們信靠上帝。除了上帝,任何人都必須用數(shù)據(jù)來(lái)說(shuō)話?!?/p>
(1)有數(shù)據(jù)可說(shuō)
在大數(shù)據(jù)時(shí)代,“萬(wàn)物皆數(shù)”,“量化一切”,“一切都將被數(shù)據(jù)化”。人類(lèi)生活在一個(gè)海量、動(dòng)態(tài)、多樣的數(shù)據(jù)世界中,數(shù)據(jù)無(wú)處不在、無(wú)時(shí)不有、無(wú)人不用,數(shù)據(jù)就像陽(yáng)光、空氣、水分一樣常見(jiàn),好比放大鏡、望遠(yuǎn)鏡、顯微鏡那般重要。
(2)說(shuō)數(shù)據(jù)可靠
大數(shù)據(jù)中的“數(shù)據(jù)”真實(shí)可靠,它實(shí)質(zhì)上是表征事物現(xiàn)象的一種符號(hào)語(yǔ)言和邏輯關(guān)系,其可靠性的數(shù)理哲學(xué)基礎(chǔ)是世界同構(gòu)原理。世界具有物質(zhì)統(tǒng)一性,統(tǒng)一的世界中的一切事物都存在著時(shí)空一致性的同構(gòu)關(guān)系。這意味著任何事物的屬性和規(guī)律,只要通過(guò)適當(dāng)編碼,均可以通過(guò)統(tǒng)一的數(shù)字信號(hào)表達(dá)出來(lái)。
因此,“用數(shù)據(jù)說(shuō)話”、“讓數(shù)據(jù)發(fā)聲”,已成為人類(lèi)認(rèn)知世界的一種全新方法。
8、風(fēng)馬??上嗉?/h1>
在大數(shù)據(jù)背景下,因海量無(wú)限、包羅萬(wàn)象的數(shù)據(jù)存在,讓許多看似毫不相干的現(xiàn)象之間發(fā)生一定的關(guān)聯(lián),使人們能夠更簡(jiǎn)捷、更清晰地認(rèn)知事物和把握局勢(shì)。大數(shù)據(jù)的巨大潛能與作用現(xiàn)在難以進(jìn)行估量,但揭示事物的相關(guān)關(guān)系無(wú)疑是其真正的價(jià)值所在。
經(jīng)典案例:
(1)啤酒與尿布

(2)谷歌與流感
