散文網(wǎng) » 科技 »學(xué)習(xí) » 10個大數(shù)據(jù)面試入門級問題

10個大數(shù)據(jù)面試入門級問題

2020-12-31 14:54 作者:編程大戰(zhàn) 0人讀過 | 我要投稿

大數(shù)據(jù)時代才剛剛開始。隨著越來越多的公司傾向于大數(shù)據(jù)運營，人才需求達(dá)到歷史最高水平。這對你意味著什么？如果您想在任何大數(shù)據(jù)崗位上工作，它只能轉(zhuǎn)化為更好的機(jī)會。您可以選擇成為數(shù)據(jù)分析師，數(shù)據(jù)科學(xué)家，數(shù)據(jù)庫管理員，大數(shù)據(jù)工程師，Hadoop大數(shù)據(jù)工程師等。

為了使您的職業(yè)生涯更具優(yōu)勢，您應(yīng)該為大數(shù)據(jù)面試做好充分準(zhǔn)備。在我們開始之前，重要的是要理解面試是一個你和面試官只是相互理解的地方。因此，您不必隱瞞任何事情，只要誠實并誠實地回答問題。如果您感到困惑或需要更多信息，請隨時向面試官提問。始終誠實地對待您的回復(fù)，并在需要時提出問題。

無論何時進(jìn)行大數(shù)據(jù)采訪，采訪者都可能會詢問一些基本問題。無論您是大數(shù)據(jù)領(lǐng)域的新手還是經(jīng)驗豐富，都需要基礎(chǔ)知識。因此，讓我們來介紹一些常見的基本大數(shù)據(jù)面試問題以及破解大數(shù)據(jù)面試的答案。

1.您對“大數(shù)據(jù)”一詞有何了解？

答：大數(shù)據(jù)是與復(fù)雜和大型數(shù)據(jù)集相關(guān)的術(shù)語。關(guān)系數(shù)據(jù)庫無法處理大數(shù)據(jù)，這就是使用特殊工具和方法對大量數(shù)據(jù)執(zhí)行操作的原因。大數(shù)據(jù)使公司能夠更好地了解其業(yè)務(wù)，并幫助他們從定期收集的非結(jié)構(gòu)化和原始數(shù)據(jù)中獲取有意義的信息。大數(shù)據(jù)還允許公司采取數(shù)據(jù)支持的更好的業(yè)務(wù)決策。

2.大數(shù)據(jù)的五個V是什么？

答：大數(shù)據(jù)的五個V如下：

Volume -Volume表示體積大，即以高速率增長的數(shù)據(jù)量，即以PB為單位的數(shù)據(jù)量
Velocity -Velocity是數(shù)據(jù)增長的速度。社交媒體在數(shù)據(jù)增長速度方面發(fā)揮著重要作用。
Variety -Variety是指不同的數(shù)據(jù)類型，即各種數(shù)據(jù)格式，如文本，音頻，視頻等。
Veracity -Veracity是指可用數(shù)據(jù)的不確定性。由于大量數(shù)據(jù)帶來不完整性和不一致性，因此產(chǎn)生了準(zhǔn)確性。
Value -價值是指將數(shù)據(jù)轉(zhuǎn)化為價值。通過將訪問的大數(shù)據(jù)轉(zhuǎn)換為價值，企業(yè)可以創(chuàng)造收入。

注意：這是大數(shù)據(jù)訪談中提出的基本和重要問題之一。如果您看到面試官有興趣了解更多信息，您可以選擇詳細(xì)解釋五個V. 但是，如果您被問及“大數(shù)據(jù)”這一術(shù)語，甚至可以提及這些名稱。

3.告訴我們大數(shù)據(jù)和Hadoop如何相互關(guān)聯(lián)。

答：大數(shù)據(jù)和Hadoop幾乎是同義詞。隨著大數(shù)據(jù)的興起，專門從事大數(shù)據(jù)操作的Hadoop框架也開始流行起來。專業(yè)人員可以使用該框架來分析大數(shù)據(jù)并幫助企業(yè)做出決策。

注意：這個問題通常在大數(shù)據(jù)訪談中提出。可以進(jìn)一步去回答這個問題，并試圖解釋的Hadoop的主要組成部分。

4.大數(shù)據(jù)分析如何有助于增加業(yè)務(wù)收入？

答：大數(shù)據(jù)分析對企業(yè)來說非常重要。它可以幫助企業(yè)將自己與眾不同并增加收入。通過預(yù)測分析，大數(shù)據(jù)分析為企業(yè)提供定制的建議和建議。此外，大數(shù)據(jù)分析使企業(yè)能夠根據(jù)客戶需求和偏好推出新產(chǎn)品。這些因素使企業(yè)獲得更多收入，因此公司正在使用大數(shù)據(jù)分析。通過實施大數(shù)據(jù)分析，公司可能會收入大幅增加5-20％的收入。一些使用大數(shù)據(jù)分析來增加收入的受歡迎公司是 - 沃爾瑪，LinkedIn，F(xiàn)acebook，Twitter，美國銀行等。

5.解釋部署大數(shù)據(jù)解決方案時應(yīng)遵循的步驟。

答：以下是部署大數(shù)據(jù)解決方案所遵循的三個步驟

Ⅰ、數(shù)據(jù)攝取

部署大數(shù)據(jù)解決方案的第一步是數(shù)據(jù)提取，即從各種來源提取數(shù)據(jù)。數(shù)據(jù)源可以是像Salesforce這樣的CRM，像SAP這樣的企業(yè)資源規(guī)劃系統(tǒng)，像MySQL這樣的RDBMS或任何其他日志文件，文檔，社交媒體源等。數(shù)據(jù)可以通過批處理作業(yè)或?qū)崟r流來提取。然后將提取的數(shù)據(jù)存儲在HDFS中。

II、數(shù)據(jù)存儲

在數(shù)據(jù)攝取之后，下一步是存儲提取的數(shù)據(jù)。數(shù)據(jù)存儲在HDFS或NoSQL數(shù)據(jù)庫（即HBase）中。HDFS存儲適用于順序訪問，而HBase適用于隨機(jī)讀/寫訪問。

III、數(shù)據(jù)處理

部署大數(shù)據(jù)解決方案的最后一步是數(shù)據(jù)處理。數(shù)據(jù)通過Spark，MapReduce，Pig等處理框架之一進(jìn)行處理。

6.定義HDFS和YARN的相應(yīng)組件

答： HDFS的兩個主要組成部分：

NameNode - 這是用于處理HDFS內(nèi)數(shù)據(jù)塊的元數(shù)據(jù)信息的主節(jié)點
DataNode / Slave節(jié)點 - 這是作為從節(jié)點存儲數(shù)據(jù)的節(jié)點，供NameNode處理和使用

除了提供客戶端請求之外，NameNode還執(zhí)行以下兩個角色之一：

CheckpointNode - 它在與NameNode不同的主機(jī)上運行
BackupNode-它是一個只讀的NameNode，它包含不包括塊位置的文件系統(tǒng)元數(shù)據(jù)信息

YARN的兩個主要組成部分：

ResourceManager-該組件接收處理請求，并根據(jù)處理需要相應(yīng)地分配給各個NodeManager。
NodeManager-它在每個單個數(shù)據(jù)節(jié)點上執(zhí)行任務(wù)

7.為什么Hadoop可用于大數(shù)據(jù)分析？

答：由于數(shù)據(jù)分析已成為業(yè)務(wù)的關(guān)鍵參數(shù)之一，因此，企業(yè)正在處理大量結(jié)構(gòu)化，非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。在Hadoop主要支持其功能的情況下，分析非結(jié)構(gòu)化數(shù)據(jù)非常困難

存儲
處理
數(shù)據(jù)采集

此外，Hadoop是開源的，可在商用硬件上運行。因此，它是企業(yè)的成本效益解決方案。

8.什么是fsck？

答： fsck代表文件系統(tǒng)檢查。它是HDFS使用的命令。此命令用于檢查不一致性以及文件中是否存在任何問題。例如，如果文件有任何丟失的塊，則通過此命令通知HDFS。

9. NAS（網(wǎng)絡(luò)附加存儲）和HDFS之間的主要區(qū)別是什么？

答： NAS（網(wǎng)絡(luò)附加存儲）和HDFS之間的主要區(qū)別 -

HDFS在一組計算機(jī)上運行，而NAS在單個計算機(jī)上運行。因此，數(shù)據(jù)冗余是HDFS中的常見問題。相反，復(fù)制協(xié)議在NAS的情況下是不同的。因此，數(shù)據(jù)冗余的可能性要小得多。
在HDFS的情況下，數(shù)據(jù)作為數(shù)據(jù)塊存儲在本地驅(qū)動器中。在NAS的情況下，它存儲在專用硬件中。

10.格式化NameNode的命令是什么？

答： $ hdfs namenode -format。

標(biāo)簽：