實(shí)戰(zhàn)大數(shù)據(jù)(Hadoop+Spark+Flink)從平臺(tái)構(gòu)建到交互式數(shù)據(jù)分析(離線/實(shí)時(shí))
鏈接:https://pan.baidu.com/s/1yAcI2s0BsQ65zEB9__rObg?pwd=19dm?
提取碼:19dm

《實(shí)戰(zhàn)大數(shù)據(jù)(Hadoop+Spark+Flink)——從平臺(tái)構(gòu)建到交互式數(shù)據(jù)分析(離線/實(shí)時(shí))》詳細(xì)介紹了大數(shù)據(jù)工程師在實(shí)際工作中應(yīng)該熟練掌握的大數(shù)據(jù)技術(shù)。全書共8章,分別是大數(shù)據(jù)技術(shù)概述、搭建IDEA開發(fā)環(huán)境及Linux虛擬機(jī)、基于Hadoop構(gòu)建大數(shù)據(jù)平臺(tái)、基于HBase和Kafka構(gòu)建海量數(shù)據(jù)存儲(chǔ)與交換系統(tǒng)、用戶行為離線分析—構(gòu)建日志采集和分析平臺(tái)、基于Spark的用戶行為實(shí)時(shí)分析、基于Flink的用戶行為實(shí)時(shí)分析、用戶行為數(shù)據(jù)可視化。本書以一個(gè)完整的大數(shù)據(jù)項(xiàng)目為主線,涵蓋Hadoop、Spark、Flink等主流大數(shù)據(jù)技術(shù),按照大數(shù)據(jù)工程師的項(xiàng)目開發(fā)流程,理論與實(shí)踐結(jié)合,逐步推進(jìn),使讀者在學(xué)習(xí)大數(shù)據(jù)核心技術(shù)的同時(shí),也能掌握開發(fā)大數(shù)據(jù)項(xiàng)目的完整流程,從而獲得大數(shù)據(jù)項(xiàng)目開發(fā)經(jīng)驗(yàn)?!秾?shí)戰(zhàn)大數(shù)據(jù)(Hadoop+Spark+Flink)——從平臺(tái)構(gòu)建到交互式數(shù)據(jù)分析(離線/實(shí)時(shí))》既可以作為大數(shù)據(jù)工程師的必備開發(fā)手冊(cè),也可以作為高校大數(shù)據(jù)及相關(guān)專業(yè)的教材或?qū)嶒?yàn)手冊(cè)。
作者簡(jiǎn)介
楊俊,大數(shù)據(jù)架構(gòu)師。大數(shù)據(jù)技術(shù)達(dá)人, Hadoop源碼級(jí)技術(shù)專家,擅長(zhǎng)Hadoop、Spark、Flink等主流大數(shù)據(jù)生態(tài)技術(shù)。具有近10年大數(shù)據(jù)開發(fā)經(jīng)驗(yàn),參與過10余個(gè)重量級(jí)大數(shù)據(jù)項(xiàng)目。曾任廣電數(shù)據(jù)咨詢公司大數(shù)據(jù)高級(jí)架構(gòu)師,負(fù)責(zé)大數(shù)據(jù)平臺(tái)架構(gòu)設(shè)計(jì)與實(shí)施,并構(gòu)建企業(yè)級(jí)數(shù)據(jù)倉庫。暢銷書《Hadoop大數(shù)據(jù)技術(shù)基礎(chǔ)與應(yīng)用》作者。51CTO知名培訓(xùn)講師,擁有20余萬粉絲,具有豐富的大數(shù)據(jù)技術(shù)培訓(xùn)經(jīng)驗(yàn),為數(shù)十家企業(yè)、院校開展過大數(shù)據(jù)技術(shù)課程培訓(xùn)。
前言/序言
前言大數(shù)據(jù)技術(shù)已經(jīng)被應(yīng)用到各行各業(yè),涉及人們生活的方方面面。大數(shù)據(jù)技術(shù)大大提高了數(shù)據(jù)存儲(chǔ)和計(jì)算能力,從而為企業(yè)快速?zèng)Q策提供了數(shù)據(jù)支撐,能夠助力企業(yè)改進(jìn)業(yè)務(wù)流程、控制成本、提高產(chǎn)品質(zhì)量,應(yīng)用大數(shù)據(jù)技術(shù)為企業(yè)核心競(jìng)爭(zhēng)力的提升打下了堅(jiān)實(shí)的基礎(chǔ)。大數(shù)據(jù)技術(shù)在企業(yè)項(xiàng)目開發(fā)中主要涉及數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)計(jì)算三個(gè)方面:數(shù)據(jù)采集是利用采集技術(shù)將各種數(shù)據(jù)源、不同格式的數(shù)據(jù)快速采集到大數(shù)據(jù)平臺(tái)。數(shù)據(jù)存儲(chǔ)是將采集過來的數(shù)據(jù),按照不同應(yīng)用場(chǎng)景,使用不同技術(shù)進(jìn)行存儲(chǔ),為數(shù)據(jù)計(jì)算做準(zhǔn)備。數(shù)據(jù)計(jì)算可以根據(jù)數(shù)據(jù)的時(shí)效性,對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行離線計(jì)算和實(shí)時(shí)計(jì)算,最終的計(jì)算結(jié)果可以為企業(yè)決策提供數(shù)據(jù)支撐。數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)計(jì)算這三個(gè)方面是大數(shù)據(jù)工程師的必備技能。本書的主要特色是以一個(gè)完整的大數(shù)據(jù)項(xiàng)目為主線,涵蓋Hadoop、Spark、Flink等主流大數(shù)據(jù)技術(shù),按照大數(shù)據(jù)工程師的項(xiàng)目開發(fā)流程,理論與實(shí)踐結(jié)合,逐步推進(jìn),使讀者在學(xué)習(xí)大數(shù)據(jù)核心技術(shù)的同時(shí),也能掌握開發(fā)大數(shù)據(jù)項(xiàng)目的完整流程,從而獲得大數(shù)據(jù)項(xiàng)目開發(fā)經(jīng)驗(yàn)。本書共有8章。第 1 章是大數(shù)據(jù)技術(shù)概述,主要講解了什么是大數(shù)據(jù)、大數(shù)據(jù)平臺(tái)架構(gòu)、大數(shù)據(jù)工程師的技能樹以及大數(shù)據(jù)項(xiàng)目的需求分析與設(shè)計(jì),讓讀者對(duì)整個(gè)大數(shù)據(jù)平臺(tái)架構(gòu)以及需要掌握的大數(shù)據(jù)技能有一個(gè)整體的了解。第2章主要講解了如何搭建IDEA開發(fā)環(huán)境和Linux虛擬機(jī),為大數(shù)據(jù)項(xiàng)目的開發(fā)打好環(huán)境基礎(chǔ)。第3章是基于Hadoop構(gòu)建大數(shù)據(jù)平臺(tái),介紹了Zookeeper基礎(chǔ)理論及分布式集群構(gòu)建、HDFS基礎(chǔ)理論及分布式集群的構(gòu)建、YARN基礎(chǔ)理論及分布式集群的構(gòu)建以及MapReduce分布式計(jì)算框架,讓讀者掌握Hadoop集群構(gòu)建的同時(shí)也能了解Hadoop集群運(yùn)行的原理。第4章詳細(xì)講解了