ApacheCN 機(jī)器學(xué)習(xí)實戰(zhàn)講義 十五、大數(shù)據(jù)與MapReduce
2018-05-03 00:07 作者:絕不原創(chuàng)的飛龍 | 我要投稿

大數(shù)據(jù) 概述
大數(shù)據(jù): 收集到的數(shù)據(jù)已經(jīng)遠(yuǎn)遠(yuǎn)超出了我們的處理能力。
大數(shù)據(jù) 場景
假如你為一家網(wǎng)絡(luò)購物商店工作,很多用戶訪問該網(wǎng)站,其中有些人會購買商品,有些人則隨意瀏覽后就離開。
對于你來說,可能很想識別那些有購物意愿的用戶。
那么問題就來了,數(shù)據(jù)集可能會非常大,在單機(jī)上訓(xùn)練要運行好幾天。
接下來:我們講講 MapRedece 如何來解決這樣的問題
MapRedece
Hadoop 概述
Hadoop 是 MapRedece 框架的一個免費開源實現(xiàn)。
MapReduce: 分布式的計算框架,可以將單個計算作業(yè)分配給多臺計算機(jī)執(zhí)行。
閱讀全文:http://ml.apachecn.org/mlia/bigdata-and-mapreduce/
標(biāo)簽: