散文網(wǎng) » 生活 »日常 » 實(shí)戰(zhàn)大數(shù)據(jù)（Hadoop+Spark+Flink）從平臺(tái)構(gòu)建到交互式數(shù)據(jù)分析（離線/實(shí)時(shí)）

實(shí)戰(zhàn)大數(shù)據(jù)（Hadoop+Spark+Flink）從平臺(tái)構(gòu)建到交互式數(shù)據(jù)分析（離線/實(shí)時(shí)）

2023-07-18 00:57 作者:取個(gè)名字吧一個(gè)就好 0人讀過 | 我要投稿

鏈接：https://pan.baidu.com/s/1yAcI2s0BsQ65zEB9__rObg?pwd=19dm?

提取碼：19dm

《實(shí)戰(zhàn)大數(shù)據(jù)（Hadoop+Spark+Flink）——從平臺(tái)構(gòu)建到交互式數(shù)據(jù)分析（離線/實(shí)時(shí)）》詳細(xì)介紹了大數(shù)據(jù)工程師在實(shí)際工作中應(yīng)該熟練掌握的大數(shù)據(jù)技術(shù)。全書共8章，分別是大數(shù)據(jù)技術(shù)概述、搭建IDEA開發(fā)環(huán)境及Linux虛擬機(jī)、基于Hadoop構(gòu)建大數(shù)據(jù)平臺(tái)、基于HBase和Kafka構(gòu)建海量數(shù)據(jù)存儲(chǔ)與交換系統(tǒng)、用戶行為離線分析—構(gòu)建日志采集和分析平臺(tái)、基于Spark的用戶行為實(shí)時(shí)分析、基于Flink的用戶行為實(shí)時(shí)分析、用戶行為數(shù)據(jù)可視化。本書以一個(gè)完整的大數(shù)據(jù)項(xiàng)目為主線，涵蓋Hadoop、Spark、Flink等主流大數(shù)據(jù)技術(shù)，按照大數(shù)據(jù)工程師的項(xiàng)目開發(fā)流程，理論與實(shí)踐結(jié)合，逐步推進(jìn)，使讀者在學(xué)習(xí)大數(shù)據(jù)核心技術(shù)的同時(shí)，也能掌握開發(fā)大數(shù)據(jù)項(xiàng)目的完整流程，從而獲得大數(shù)據(jù)項(xiàng)目開發(fā)經(jīng)驗(yàn)?！秾?shí)戰(zhàn)大數(shù)據(jù)（Hadoop+Spark+Flink）——從平臺(tái)構(gòu)建到交互式數(shù)據(jù)分析（離線/實(shí)時(shí)）》既可以作為大數(shù)據(jù)工程師的必備開發(fā)手冊(cè)，也可以作為高校大數(shù)據(jù)及相關(guān)專業(yè)的教材或?qū)嶒?yàn)手冊(cè)。

作者簡(jiǎn)介

楊俊，大數(shù)據(jù)架構(gòu)師。大數(shù)據(jù)技術(shù)達(dá)人， Hadoop源碼級(jí)技術(shù)專家，擅長(zhǎng)Hadoop、Spark、Flink等主流大數(shù)據(jù)生態(tài)技術(shù)。具有近10年大數(shù)據(jù)開發(fā)經(jīng)驗(yàn)，參與過10余個(gè)重量級(jí)大數(shù)據(jù)項(xiàng)目。曾任廣電數(shù)據(jù)咨詢公司大數(shù)據(jù)高級(jí)架構(gòu)師，負(fù)責(zé)大數(shù)據(jù)平臺(tái)架構(gòu)設(shè)計(jì)與實(shí)施，并構(gòu)建企業(yè)級(jí)數(shù)據(jù)倉庫。暢銷書《Hadoop大數(shù)據(jù)技術(shù)基礎(chǔ)與應(yīng)用》作者。51CTO知名培訓(xùn)講師，擁有20余萬粉絲，具有豐富的大數(shù)據(jù)技術(shù)培訓(xùn)經(jīng)驗(yàn)，為數(shù)十家企業(yè)、院校開展過大數(shù)據(jù)技術(shù)課程培訓(xùn)。

前言/序言

前言大數(shù)據(jù)技術(shù)已經(jīng)被應(yīng)用到各行各業(yè)，涉及人們生活的方方面面。大數(shù)據(jù)技術(shù)大大提高了數(shù)據(jù)存儲(chǔ)和計(jì)算能力，從而為企業(yè)快速?zèng)Q策提供了數(shù)據(jù)支撐，能夠助力企業(yè)改進(jìn)業(yè)務(wù)流程、控制成本、提高產(chǎn)品質(zhì)量，應(yīng)用大數(shù)據(jù)技術(shù)為企業(yè)核心競(jìng)爭(zhēng)力的提升打下了堅(jiān)實(shí)的基礎(chǔ)。大數(shù)據(jù)技術(shù)在企業(yè)項(xiàng)目開發(fā)中主要涉及數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)計(jì)算三個(gè)方面：數(shù)據(jù)采集是利用采集技術(shù)將各種數(shù)據(jù)源、不同格式的數(shù)據(jù)快速采集到大數(shù)據(jù)平臺(tái)。數(shù)據(jù)存儲(chǔ)是將采集過來的數(shù)據(jù)，按照不同應(yīng)用場(chǎng)景，使用不同技術(shù)進(jìn)行存儲(chǔ)，為數(shù)據(jù)計(jì)算做準(zhǔn)備。數(shù)據(jù)計(jì)算可以根據(jù)數(shù)據(jù)的時(shí)效性，對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行離線計(jì)算和實(shí)時(shí)計(jì)算，最終的計(jì)算結(jié)果可以為企業(yè)決策提供數(shù)據(jù)支撐。數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)計(jì)算這三個(gè)方面是大數(shù)據(jù)工程師的必備技能。本書的主要特色是以一個(gè)完整的大數(shù)據(jù)項(xiàng)目為主線，涵蓋Hadoop、Spark、Flink等主流大數(shù)據(jù)技術(shù)，按照大數(shù)據(jù)工程師的項(xiàng)目開發(fā)流程，理論與實(shí)踐結(jié)合，逐步推進(jìn)，使讀者在學(xué)習(xí)大數(shù)據(jù)核心技術(shù)的同時(shí)，也能掌握開發(fā)大數(shù)據(jù)項(xiàng)目的完整流程，從而獲得大數(shù)據(jù)項(xiàng)目開發(fā)經(jīng)驗(yàn)。本書共有8章。第 1 章是大數(shù)據(jù)技術(shù)概述，主要講解了什么是大數(shù)據(jù)、大數(shù)據(jù)平臺(tái)架構(gòu)、大數(shù)據(jù)工程師的技能樹以及大數(shù)據(jù)項(xiàng)目的需求分析與設(shè)計(jì)，讓讀者對(duì)整個(gè)大數(shù)據(jù)平臺(tái)架構(gòu)以及需要掌握的大數(shù)據(jù)技能有一個(gè)整體的了解。第2章主要講解了如何搭建IDEA開發(fā)環(huán)境和Linux虛擬機(jī)，為大數(shù)據(jù)項(xiàng)目的開發(fā)打好環(huán)境基礎(chǔ)。第3章是基于Hadoop構(gòu)建大數(shù)據(jù)平臺(tái)，介紹了Zookeeper基礎(chǔ)理論及分布式集群構(gòu)建、HDFS基礎(chǔ)理論及分布式集群的構(gòu)建、YARN基礎(chǔ)理論及分布式集群的構(gòu)建以及MapReduce分布式計(jì)算框架，讓讀者掌握Hadoop集群構(gòu)建的同時(shí)也能了解Hadoop集群運(yùn)行的原理。第4章詳細(xì)講解了

標(biāo)簽：