散文網(wǎng) » 科技 »學習 » 面試題百日百刷-HBase和Hive的區(qū)別是什么

面試題百日百刷-HBase和Hive的區(qū)別是什么

2023-04-03 12:48 作者:zjlala96 0人讀過 | 我要投稿

鎖屏面試題百日百刷，每個工作日堅持更新面試題。鎖屏面試題app、小程序現(xiàn)已上線，官網(wǎng)地址：https://www.demosoftware.cn。已收錄了每日更新的面試題的所有內容，還包含特色的解鎖屏幕復習面試題、每日編程題目郵件推送等功能。讓你在面試中先人一步!接下來的是今日的面試題：

1.HBase的特點是什么？

1）大：一個表可以有數(shù)十億行，上百萬列；

2）無模式：每行都有一個可排序的主鍵和任意多的列，列可以根據(jù)需要動態(tài)的增加，同一張表中不同的行可以有截然不同的列；

3）面向列：面向列（族）的存儲和權限控制，列（族）獨立檢索；

4）稀疏：空（null）列并不占用存儲空間，表可以設計的非常稀疏；

5）數(shù)據(jù)多版本：每個單元中的數(shù)據(jù)可以有多個版本，默認情況下版本號自動分配，是單元格插入時的時間戳；

6）數(shù)據(jù)類型單一：Hbase中的數(shù)據(jù)都是字符串，沒有類型。

2.HBase和Hive的區(qū)別？

①?兩者是什么？

Apache Hive是一個構建在Hadoop基礎設施之上的數(shù)據(jù)倉庫。通過Hive可以使用HQL語言查詢存放在HDFS上的數(shù)據(jù)。HQL是一種類SQL語言，這種語言最終被轉化為Map/Reduce.?雖然Hive提供了SQL查詢功能，但是Hive不能夠進行交互查詢--因為它只能夠在Haoop上批量的執(zhí)行Hadoop。

Apache HBase是一種Key/Value系統(tǒng)，它運行在HDFS之上。和Hive不一樣，Hbase的能夠在它的數(shù)據(jù)庫上實時運行，而不是運行MapReduce任務。Hive被分區(qū)為表格，表格又被進一步分割為列簇。列簇必須使用schema定義，列簇將某一類型列集合起來（列不要求schema定義）。例如，“message”列簇可能包含：“to”, ”from” “date”,“subject”,?和”body”.?每一個?key/value對在Hbase中被定義為一個cell，每一個key由row-key，列簇、列和時間戳。

在Hbase中，行是key/value映射的集合，這個映射通過row-key來唯一標識。Hbase利用Hadoop的基礎設施，可以利用通用的設備進行水平的擴展。

②?兩者的特點

Hive幫助熟悉SQL的人運行MapReduce任務。因為它是JDBC兼容的，同時，它也能夠和現(xiàn)存的SQL工具整合在一起。運行Hive查詢會花費很長時間，因為它會默認遍歷表中所有的數(shù)據(jù)。雖然有這樣的缺點，一次遍歷的數(shù)據(jù)量可以通過Hive的分區(qū)機制來控制。分區(qū)允許在數(shù)據(jù)集上運行過濾查詢，這些數(shù)據(jù)集存儲在不同的文件夾內，查詢的時候只遍歷指定文件夾（分區(qū)）中的數(shù)據(jù)。這種機制可以用來，例如，只處理在某一個時間范圍內的文件，只要

這些文件名中包括了時間格式。

HBase通過存儲key/value來工作。它支持四種主要的操作：增加或者更新行，查看一個范圍內的cell，獲取指定的行，刪除指定的行、列或者是列的版本。版本信息用來獲取歷史數(shù)據(jù)（每一行的歷史數(shù)據(jù)可以被刪除，然后通過Hbase compactions就可以釋放出空間）。雖然HBase包括表格，但是schema僅僅被表格和列簇所要求，列不需要schema。Hbase的表格包括增加/計數(shù)功能。

③?限制

Hive目前不支持更新操作。另外，由于hive在hadoop上運行批量操作，它需要花費很長的時間，通常是幾分鐘到幾個小時才可以獲取到查詢的結果。Hive必須提供預先定義好的schema將文件和目錄映射到列，并且Hive與ACID不兼容。

HBase查詢是通過特定的語言來編寫的，這種語言需要重新學習。類SQL的功能可以通過Apache Phonenix實現(xiàn)，但這是以必須提供schema為代價的。另外，Hbase也并不是兼容所有的ACID特性，雖然它支持某些特性。最后但不是最重要的--為了運行Hbase，Zookeeper是必須的，zookeeper是一個用來進行分布式協(xié)調的服務，這些服務包括配置服務，維護元信息和命名空間服務。

④?應用場景

Hive適合用來對一段時間內的數(shù)據(jù)進行分析查詢，例如，用來計算趨勢或者網(wǎng)站的日志。Hive不應該用來進行實時的查詢。因為它需要很長時間才可以返回結果。

Hbase非常適合用來進行大數(shù)據(jù)的實時查詢。Facebook用Hbase進行消息和實時的分析。它也可以用來統(tǒng)計Facebook的連接數(shù)。

⑤?總結

Hive和Hbase是兩種基于Hadoop的不同技術--Hive是一種類SQL的引擎，并且運行MapReduce任務，Hbase是一種在Hadoop之上的NoSQL?的Key/vale數(shù)據(jù)庫。當然，這兩種工具是可以同時使用的。就像用Google來搜索，用FaceBook進行社交一樣，Hive可以用來進行統(tǒng)計查詢，HBase可以用來進行實時查詢，數(shù)據(jù)也可以從Hive寫到Hbase，設置再從Hbase寫回Hive。

3.HBase適用于怎樣的情景？

① 半結構化或非結構化數(shù)據(jù)

對于數(shù)據(jù)結構字段不夠確定或雜亂無章很難按一個概念去進行抽取的數(shù)據(jù)適合用HBase。以上面的例子為例，當業(yè)務發(fā)展需要存儲author的email，phone，address信息時RDBMS需要停機維護，而HBase支持動態(tài)增加。

② 記錄非常稀疏

RDBMS的行有多少列是固定的，為null的列浪費了存儲空間。而如上文提到的，HBase為null的Column不會被存儲，這樣既節(jié)省了空間又提高了讀性能。

③ 多版本數(shù)據(jù)

如上文提到的根據(jù)Row key和Column key定位到的Value可以有任意數(shù)量的版本值，因此對于需要存儲變動歷史記錄的數(shù)據(jù)，用HBase就非常方便了。比如上例中的author的Address是會變動的，業(yè)務上一般只需要最新的值，但有時可能需要查詢到歷史值。

④ 超大數(shù)據(jù)量

當數(shù)據(jù)量越來越大，RDBMS數(shù)據(jù)庫撐不住了，就出現(xiàn)了讀寫分離策略，通過一個Master專門負責寫操作，多個Slave負責讀操作，服務器成本倍增。隨著壓力增加，Master撐不住了，這時就要分庫了，把關聯(lián)不大的數(shù)據(jù)分開部署，一些join查詢不能用了，需要借助中間層。隨著數(shù)據(jù)量的進一步增加，一個表的記錄越來越大，查詢就變得很慢，于是又得搞分表，比如按ID取模分成多個表以減少單個表的記錄數(shù)。經(jīng)歷過這些事的人都知道過程是多么的折騰。采用HBase就簡單了，只需要加機器即可，HBase會自動水平切分擴展，跟Hadoop的無縫集成保障了其數(shù)據(jù)可靠性（HDFS）和海量數(shù)據(jù)分析的高性能（MapReduce）。

標簽：

面試題百日百刷-HBase和Hive的區(qū)別是什么的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

面試題百日百刷-HBase和Hive的區(qū)別是什么

面試題百日百刷-HBase和Hive的區(qū)別是什么的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

面試題百日百刷-HBase和Hive的區(qū)別是什么

本文作者的其他文章

面試題百日百刷-HBase和Hive的區(qū)別是什么的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

面試題百日百刷-HBase和Hive的區(qū)別是什么的評論 (共條)