【大數(shù)據(jù)基礎(chǔ)Ep3】《Hadoop權(quán)威指南》讀書筆記P6:MapReduce概述
2023-04-07 18:03 作者:學(xué)酥酥的學(xué)習(xí)日記本 | 我要投稿

(合計(jì)404字,用時(shí)20min——)
第1章 初識(shí)Hadoop
1.3 查詢所有數(shù)據(jù)
MapReduce:
方法:每個(gè)查詢需要處理整個(gè)數(shù)據(jù)集或至少一個(gè)數(shù)據(jù)集的絕大部分。
性質(zhì):MapReduce是一個(gè)批量查詢處理器,能夠在合理的時(shí)間范圍內(nèi)處理針對(duì)整個(gè)數(shù)據(jù)集的動(dòng)態(tài)查詢。
意義:
它改變了我們對(duì)數(shù)據(jù)的傳統(tǒng)看法,解放了以前只是保存在磁帶和硬盤上的數(shù)據(jù);
它讓我們有機(jī)會(huì)對(duì)數(shù)據(jù)進(jìn)行創(chuàng)新:以前需要很長時(shí)間處理才能獲得結(jié)果的問題,到現(xiàn)在變得頃刻之間就迎刃而解,同時(shí)還可以引發(fā)新的問題和新的見解。
例子:
Rackspace公司的郵件部門Mailtrust就用Hadoop來處理郵件日志,他們寫了一條特別的查詢用于幫助找出用戶的地理分布;
操作:每月運(yùn)行一次MapReduce任務(wù)來幫助我們決定擴(kuò)容時(shí)將新的郵件服務(wù)器放在哪些Rackspace數(shù)據(jù)中心。
效果:通過整合好幾百GB的數(shù)據(jù),用工具來分析這些數(shù)據(jù),Rackspace的工程師能夠對(duì)以往沒有注意到的數(shù)據(jù)有所理解,甚至還運(yùn)用這些信息來改善現(xiàn)有的服務(wù)。