數(shù)據(jù)倉(cāng)庫(kù)工具Hive


【Hive簡(jiǎn)介】
Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,用來(lái)進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)化、加載,這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)的機(jī)制。hive數(shù)據(jù)倉(cāng)庫(kù)工具能將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,并提供SQL查詢功能,能將SQL語(yǔ)句轉(zhuǎn)變成MapReduce任務(wù)來(lái)執(zhí)行。
Hive的優(yōu)點(diǎn)是學(xué)習(xí)成本低,可以通過(guò)類似SQL語(yǔ)句實(shí)現(xiàn)快速M(fèi)apReduce統(tǒng)計(jì),使MapReduce變得更加簡(jiǎn)單,而不必開(kāi)發(fā)專門的MapReduce應(yīng)用程序。hive是十分適合數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析和Windows注冊(cè)表文件。
?
【Hive設(shè)計(jì)特征】
Hive是一種底層封裝了Hadoop的數(shù)據(jù)倉(cāng)庫(kù)處理工具,使用類SQL的hiveQL語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)查詢,所有hive的數(shù)據(jù)都存儲(chǔ)在Hadoop兼容的文件系統(tǒng)(例如,Amazon S3、HDFS)中。hive在加載數(shù)據(jù)過(guò)程中不會(huì)對(duì)數(shù)據(jù)進(jìn)行任何的修改,只是將數(shù)據(jù)移動(dòng)到HDFS中hive設(shè)定的目錄下,因此,hive不支持對(duì)數(shù)據(jù)的改寫(xiě)和添加,所有的數(shù)據(jù)都是在加載的時(shí)候確定的。
Hive的設(shè)計(jì)特點(diǎn)如下:
1.?? 支持創(chuàng)建索引,優(yōu)化數(shù)據(jù)查詢。
2.?? 不同的存儲(chǔ)類型,例如,純文本文件、HBase 中的文件。
3.?? 將元數(shù)據(jù)保存在關(guān)系數(shù)據(jù)庫(kù)中,大大減少了在查詢過(guò)程中執(zhí)行語(yǔ)義檢查的時(shí)間。
4.?? 可以直接使用存儲(chǔ)在Hadoop 文件系統(tǒng)中的數(shù)據(jù)。
5.?? 內(nèi)置大量用戶函數(shù)UDF 來(lái)操作時(shí)間、字符串和其他的數(shù)據(jù)挖掘工具,支持用戶擴(kuò)展UDF 函數(shù)來(lái)完成內(nèi)置函數(shù)無(wú)法實(shí)現(xiàn)的操作。
6.?? 類SQL 的查詢方式,將SQL 查詢轉(zhuǎn)換為MapReduce 的job 在Hadoop集群上執(zhí)行。
?
【系統(tǒng)學(xué)習(xí)并掌握Hive】
尚硅谷Hive教程
https://www.bilibili.com/video/BV1W4411B7cN
課程詳情:
Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,將繁瑣的MapReduce程序變成了簡(jiǎn)單方便的SQL語(yǔ)句實(shí)現(xiàn),深受廣大軟件開(kāi)發(fā)工程師喜愛(ài)。Hive同時(shí)也是進(jìn)入互聯(lián)網(wǎng)行業(yè)的大數(shù)據(jù)開(kāi)發(fā)工程師所需技術(shù)之一。
在本課程中,你將學(xué)習(xí)到,Hive架構(gòu)原理、安裝配置、hiveserver2、數(shù)據(jù)類型、數(shù)據(jù)定義、數(shù)據(jù)操作、查詢、自定義UDF函數(shù)、窗口函數(shù)、壓縮和存儲(chǔ)、企業(yè)級(jí)調(diào)優(yōu)、以及結(jié)合谷粒影音項(xiàng)目需求,把整個(gè)Hive的核心知識(shí)點(diǎn)貫穿起來(lái)。
更新:課件升級(jí)、添加自定義UDTF函數(shù)、企業(yè)常用函數(shù)以及更多企業(yè)面試真題詳細(xì)講解
