最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

如何處理大數(shù)據(jù)

2023-07-16 20:21 作者:bili_95424348331  | 我要投稿

如何處理大數(shù)據(jù)

隨著數(shù)據(jù)越來(lái)越多,我們自然就會(huì)面臨兩個(gè)問(wèn)題,第一個(gè)問(wèn)題是這些大量歷史數(shù)據(jù)還有用嗎,為了節(jié)省空間可否刪除呢?畢竟硬件資源有限。

答案是有用的,而且可能帶來(lái)意想不到的價(jià)值。我們可能從大量數(shù)據(jù)中找到某些行業(yè)的規(guī)律或規(guī)則,這些規(guī)則可能會(huì)帶來(lái)巨大收益。

第二個(gè)問(wèn)題就是如何處理這些海量歷史大數(shù)據(jù)呢?我們的處理辦法就是傳統(tǒng)的商業(yè)智能領(lǐng)域的數(shù)據(jù)挖掘技術(shù)。另外,還有一種處理技術(shù)是目前比較火的云計(jì)算技術(shù),這種技術(shù)對(duì)數(shù)據(jù)處理的實(shí)時(shí)性要求很高,一般要求秒級(jí)處理。

數(shù)據(jù)分析與挖掘

分享一個(gè)真正通過(guò)數(shù)據(jù)挖掘收益的經(jīng)典案例,最大零售超市沃爾瑪擁有世界上最大的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),為了能夠準(zhǔn)確了解顧客在其門(mén)店的購(gòu)買(mǎi)習(xí)慣,沃爾瑪對(duì)其顧客的購(gòu)物行為進(jìn)行購(gòu)物籃分析,想知道顧客經(jīng)常一起購(gòu)買(mǎi)的商品有哪些。通過(guò)數(shù)據(jù)挖掘和分析,一個(gè)意外的發(fā)現(xiàn)是:美國(guó)中年男子購(gòu)買(mǎi)尿布的同時(shí)一般存在很大的可能會(huì)購(gòu)買(mǎi)啤酒。通過(guò)分析后超市將啤酒和尿布擺放位置靠近,這樣給超市帶來(lái)了巨大收益。

國(guó)內(nèi)百度大數(shù)據(jù)也做過(guò)很多次預(yù)測(cè)分析。2014 年世界杯足球賽,百度通過(guò)大數(shù)據(jù)分析了所有比賽,小組賽準(zhǔn)確率達(dá)到 60%,淘汰賽階段高達(dá) 100%。還有微軟、Google等幾家公司都利用大數(shù)據(jù)做了相應(yīng)的預(yù)測(cè)。

這兩個(gè)案例都是傳統(tǒng)的數(shù)據(jù)分析領(lǐng)域,最終目的都是為了從大數(shù)據(jù)中找到一些規(guī)則或者作出預(yù)測(cè),為企業(yè)決策提供幫助,有點(diǎn)像沙里淘金。為了一點(diǎn)點(diǎn)金粒,就要留住所有沙子。這里的金子就是規(guī)則和結(jié)果,大量沙子就是大數(shù)據(jù)。

數(shù)據(jù)分析的步驟類(lèi)似于從沙子里淘金的步驟,其步驟如下:

  • 采集大數(shù)據(jù):可能有很多來(lái)源,這里要說(shuō)明一下,數(shù)據(jù)必須真實(shí)可靠,否則得到的規(guī)則也將是錯(cuò)誤的。

  • 數(shù)據(jù)抽取:清洗,把對(duì)結(jié)果形成干擾的或者異常的數(shù)據(jù)剔除。比如運(yùn)動(dòng)員檔案的數(shù)據(jù)里面出現(xiàn)一些名字,各項(xiàng)指標(biāo)都是空著的,這樣沒(méi)意義的數(shù)據(jù)要?jiǎng)h除。

  • 在清洗完畢的數(shù)據(jù)基礎(chǔ)上構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),實(shí)際上就是對(duì)我們感興趣的維度構(gòu)建一個(gè)模型,比如你要考察的是足球運(yùn)動(dòng)員,可能關(guān)注身高、體重、坐高、下肢長(zhǎng)、小腿長(zhǎng),而對(duì)長(zhǎng)得帥不帥、哪里人不感興趣。模型建好之后,最后一步運(yùn)用數(shù)據(jù)挖掘算法進(jìn)行計(jì)算得到結(jié)論,這就是大數(shù)據(jù)處理的傳統(tǒng)領(lǐng)域——數(shù)據(jù)分析,也叫作商業(yè)智能。


上面講到的兩個(gè)案例都是實(shí)時(shí)性要求不高,不要求馬上得到結(jié)果。如果希望快速得到結(jié)果,比如幾秒鐘得到處理結(jié)果,這就是大數(shù)據(jù)處理的另一個(gè)領(lǐng)域,即云計(jì)算。

基于云平臺(tái)的分布式處理

介紹云計(jì)算之前,首先思考一個(gè)小問(wèn)題:給出一篇文檔,讓你從中找出出現(xiàn)的單詞以及這些單詞出現(xiàn)的次數(shù)。

解題思路其實(shí)很簡(jiǎn)單,就是從頭到尾讀取文檔,碰到單詞記錄下來(lái),同時(shí)記錄它出現(xiàn)的次數(shù),如果之前出現(xiàn)過(guò),計(jì)數(shù)就加1。

理清了思路,再思考一個(gè)問(wèn)題,如果讀取一個(gè) 100GB 的文檔,使用原來(lái)的算法還能處理嗎?還能在合理的時(shí)間內(nèi)給出答案嗎?我們知道從硬盤(pán)讀取文件到內(nèi)存是通過(guò) IO 流進(jìn)行的,而計(jì)算的大量時(shí)間耗費(fèi)都在 IO 上了。由于讀取的數(shù)據(jù)體量很大,所以無(wú)論你對(duì)算法本身如何調(diào)整和優(yōu)化,數(shù)據(jù)處理的效率依然會(huì)很低。

那么應(yīng)該如何快速處理呢?有兩種解決方法,一是找一臺(tái)運(yùn)算性能非常高的服務(wù)器,存儲(chǔ)和運(yùn)算能力都很驚人,但造價(jià)同樣驚人。SAP 公司內(nèi)存數(shù)據(jù)庫(kù)產(chǎn)品 HANA,直接將所有數(shù)據(jù)存儲(chǔ)到內(nèi)存,全部數(shù)據(jù)存儲(chǔ)和運(yùn)算在內(nèi)存中進(jìn)行。但造價(jià)非常昂貴。國(guó)內(nèi)有幾家公司在使用這樣的產(chǎn)品,比如農(nóng)夫山泉。但并不是所有企業(yè)都負(fù)擔(dān)得起。

另一個(gè)方法就是把一些廉價(jià)的服務(wù)器形成集群,每個(gè)服務(wù)器都需要承擔(dān)一定運(yùn)算任務(wù),合作完成。就這個(gè)例子而言,可以用 100 臺(tái)普通計(jì)算機(jī),每臺(tái)計(jì)算 1GB 的數(shù)據(jù),最后統(tǒng)計(jì)出來(lái)的結(jié)果合并在一起就可以了。這個(gè)方法既節(jié)省成本,而且速度又快,因?yàn)榉?wù)器之間是并行運(yùn)算的。這種技術(shù)早期叫網(wǎng)格計(jì)算,后來(lái)叫分布式計(jì)算,其實(shí)本質(zhì)上就是如今的云計(jì)算。

上面這個(gè)思想需要解決兩個(gè)問(wèn)題:一是分布式存儲(chǔ),大數(shù)據(jù)分別存儲(chǔ)到不同機(jī)器,而對(duì)使用者感覺(jué)好像是一臺(tái)機(jī)器;二是分布式計(jì)算問(wèn)題,每臺(tái)機(jī)器都需要分配一個(gè)任務(wù)執(zhí)行運(yùn)算,所有任務(wù)同時(shí)進(jìn)行,最后還需要對(duì)各個(gè)節(jié)點(diǎn)的運(yùn)算結(jié)果進(jìn)行合并得到結(jié)果。能夠解決這兩個(gè)問(wèn)題流行的云計(jì)算框架就是Apache的Hadoop項(xiàng)目,里面包含好多的子項(xiàng)目和模塊。

Hadoop 被公認(rèn)是一套行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)開(kāi)源軟件,在分布式環(huán)境下提供了海量數(shù)據(jù)的處理能力。幾乎所有主流廠商都圍繞Hadoop在開(kāi)發(fā)工具、開(kāi)源軟件、商業(yè)化工具和技術(shù)服務(wù)。大型企業(yè),如 Oracle、IBM、Microsoft、Intel、Cisco 都明顯增加了 Hadoop 方面的投入。

淘寶從 2009 年開(kāi)始,用于對(duì)海量數(shù)據(jù)的離線(xiàn)處理,例如對(duì)日志的分析、交易記錄的分析等。規(guī)模從當(dāng)初的 3~400 臺(tái)節(jié)點(diǎn),增加到現(xiàn)在的一個(gè)集群有 3000 個(gè)節(jié)點(diǎn)。淘寶現(xiàn)在已經(jīng)有 2~3 個(gè)這樣的集群,在支付寶的集群規(guī)模也有 700 臺(tái)節(jié)點(diǎn),對(duì)用戶(hù)的消費(fèi)記錄可以實(shí)現(xiàn)毫秒級(jí)查詢(xún)。

隨著以博客、社交網(wǎng)絡(luò)、基于位置的服務(wù) LBS 為代表的新型信息發(fā)布方式的不斷涌現(xiàn),以及云計(jì)算、物聯(lián)網(wǎng)等技術(shù)的興起,數(shù)據(jù)正以前所未有的速度在不斷地增長(zhǎng)和累積,大數(shù)據(jù)時(shí)代已經(jīng)到來(lái)。


如何處理大數(shù)據(jù)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
张家口市| 彰武县| 阳东县| 普格县| 芦山县| 永川市| 安义县| 宜兴市| 杭州市| 阿城市| 卢龙县| 无锡市| 调兵山市| 扶绥县| 曲水县| 和平区| 鹤壁市| 荣昌县| 垣曲县| 白玉县| 卢氏县| 高青县| 文水县| 临沂市| 广平县| 柳河县| 漾濞| 黄冈市| 基隆市| 长葛市| 夏津县| 三明市| 呼和浩特市| 鄂尔多斯市| 门源| 玛纳斯县| 布拖县| 四会市| 东阳市| 棋牌| 金华市|