還不知道數(shù)據(jù)類崗位的相關(guān)技能和職責(zé)嗎?滌生大數(shù)據(jù)告訴你(一)
很多同學(xué)在求職中對數(shù)據(jù)類崗位傻傻分不清楚,投遞簡歷的時候胡亂投遞,本篇文章給大家講講數(shù)倉開發(fā),etl開發(fā),數(shù)據(jù)開發(fā),數(shù)據(jù)治理工程師,BI工程師以及數(shù)據(jù)運維工程師這些數(shù)據(jù)類崗位的工作職責(zé)以及和數(shù)倉開發(fā)的區(qū)別。同時為了大家更加深入地了解各崗位的區(qū)別,也給大家講解了一下這些崗位在日常工作當(dāng)中的一些工作交集。
1.數(shù)倉開發(fā)工程師??
工作職責(zé)
數(shù)倉工程師是負(fù)責(zé)構(gòu)建和維護(hù)數(shù)據(jù)倉庫的專業(yè)人員。數(shù)據(jù)倉庫是一個集成、一致且易于查詢的數(shù)據(jù)存儲,用于支持企業(yè)的業(yè)務(wù)分析和決策。數(shù)倉工程師的主要任務(wù)包括以下幾個方面:
1. 數(shù)據(jù)整合和轉(zhuǎn)換:數(shù)倉工程師負(fù)責(zé)從不同的數(shù)據(jù)源中提取數(shù)據(jù),并將其整合到數(shù)據(jù)倉庫中。他們需要處理數(shù)據(jù)的清洗、轉(zhuǎn)換和加載,確保數(shù)據(jù)的一致性和準(zhǔn)確性。?中提取數(shù)據(jù),并將其整合到數(shù)據(jù)倉庫中。
2. 數(shù)據(jù)建模和設(shè)計:數(shù)倉工程師需要設(shè)計和構(gòu)建數(shù)據(jù)倉庫的數(shù)據(jù)模型。他們使用維度建模技術(shù),將業(yè)務(wù)數(shù)據(jù)組織成維度和事實表的結(jié)構(gòu),以支持靈活的查詢和分析。
3. 數(shù)據(jù)質(zhì)量和性能優(yōu)化:數(shù)倉工程師需要監(jiān)控和維護(hù)數(shù)據(jù)倉庫的數(shù)據(jù)質(zhì)量,并進(jìn)行性能優(yōu)化。他們會定期檢查數(shù)據(jù)質(zhì)量,處理數(shù)據(jù)異常和沖突,并對查詢性能進(jìn)行優(yōu)化,以確保用戶能夠快速訪問和分析數(shù)據(jù)。
4. 數(shù)據(jù)安全和權(quán)限管理:數(shù)倉工程師需要確保數(shù)據(jù)倉庫的安全性和合規(guī)性。他們會實施訪問控制和權(quán)限管理,確保只有授權(quán)的用戶可以訪問敏感數(shù)據(jù)。
5. 數(shù)據(jù)倉庫的維護(hù)和升級:數(shù)倉工程師負(fù)責(zé)數(shù)據(jù)倉庫的日常維護(hù)和升級。他們會監(jiān)控數(shù)據(jù)倉庫的運行狀態(tài),處理故障和問題,并在需要時進(jìn)行升級和優(yōu)化。
6. 數(shù)據(jù)類需求的承接開發(fā):例如數(shù)據(jù)可視化和報表開發(fā),通過將業(yè)務(wù)方的報表需求業(yè)務(wù)口徑化后,梳理出指標(biāo)計算口徑,并完成對應(yīng)模型的設(shè)計和開發(fā),最后使用數(shù)據(jù)可視化工具,如Tableau、Power BI等,設(shè)計和開發(fā)直觀清晰的數(shù)據(jù)可視化報表,幫助業(yè)務(wù)團(tuán)隊理解和利用數(shù)據(jù)。你需要將數(shù)據(jù)轉(zhuǎn)化為可視化的形式,并提供易于理解和操作的報表和圖表。?
總之,數(shù)倉工程師在數(shù)據(jù)領(lǐng)域中扮演著至關(guān)重要的角色,他們通過構(gòu)建和維護(hù)數(shù)據(jù)倉庫,為企業(yè)提供準(zhǔn)確、一致和易于分析的數(shù)據(jù),支持業(yè)務(wù)分析和決策。數(shù)倉工程師是整個數(shù)據(jù)倉庫的第一負(fù)責(zé)人,除了偏向模型設(shè)計和開發(fā)的工作屬性外,還需要負(fù)責(zé)整個數(shù)倉的任務(wù)運維保障和優(yōu)化工作,當(dāng)然還會作為數(shù)據(jù)治理的主力軍參與數(shù)據(jù)治理體系建設(shè)中。
技能要求
對數(shù)倉工程師的崗位技能要求一般如下:
1. 數(shù)據(jù)庫技術(shù):熟悉關(guān)系型數(shù)據(jù)庫(如MySQL、Oracle)和非關(guān)系型數(shù)據(jù)庫(如MongoDB、Redis)的設(shè)計和優(yōu)化,具備良好的SQL編程能力。
2. 大數(shù)據(jù)技術(shù):熟悉Hadoop生態(tài)系統(tǒng)(如HDFS、MapReduce、Hive、Azkaban,datax,sqoop等)、Spark、Kafka,hbase,es等大數(shù)據(jù)處理和分析工具,能夠進(jìn)行大規(guī)模數(shù)據(jù)的存儲、處理和分析。
3. 數(shù)據(jù)建模和ETL工具:具備數(shù)據(jù)建模和數(shù)據(jù)倉庫設(shè)計的能力,熟悉常用的ETL工具的使用和配置。
4. 編程語言:熟練掌握至少一種編程語言,如Java、Python、Scala等,能夠進(jìn)行數(shù)據(jù)處理和分析的編程開發(fā)。
5. 數(shù)據(jù)質(zhì)量和數(shù)據(jù)治理:了解數(shù)據(jù)質(zhì)量管理和數(shù)據(jù)治理的概念和方法,能夠評估和監(jiān)控數(shù)據(jù)質(zhì)量,并制定相應(yīng)的數(shù)據(jù)治理規(guī)范和流程。
6. 數(shù)據(jù)可視化工具:熟悉數(shù)據(jù)可視化工具(如Tableau、Power BI、QlikView)的使用,能夠設(shè)計和開發(fā)直觀清晰的數(shù)據(jù)可視化報表。
此外,數(shù)倉開發(fā)的技術(shù)要求還可能根據(jù)具體業(yè)務(wù)需求和技術(shù)棧有所不同,例如對機(jī)器學(xué)習(xí)和人工智能的應(yīng)用,對實時數(shù)據(jù)處理和流式計算的需求等。因此,具體的技術(shù)要求可能會因公司而異。

2.ETL工程師??
工作職責(zé)
ETL工程師(Extract, Transform, Load)負(fù)責(zé)數(shù)據(jù)的抽取、轉(zhuǎn)換和加載工作。他們的日常工作職責(zé)和內(nèi)容主要包括以下幾個方面:
1. 數(shù)據(jù)抽?。篍TL工程師負(fù)責(zé)從各種數(shù)據(jù)源中抽取數(shù)據(jù),包括數(shù)據(jù)庫、日志文件、API接口等。他們需要編寫抽取程序或使用ETL工具,將數(shù)據(jù)從源系統(tǒng)中提取出來。
2. 數(shù)據(jù)轉(zhuǎn)換:抽取到的數(shù)據(jù)通常需要進(jìn)行清洗、轉(zhuǎn)換和整合,以滿足業(yè)務(wù)需求和數(shù)據(jù)倉庫的要求。ETL工程師需要編寫轉(zhuǎn)換邏輯,對數(shù)據(jù)進(jìn)行清洗、格式化、計算和合并等操作,使得數(shù)據(jù)能夠被正確地加載到目標(biāo)系統(tǒng)中。
3. 數(shù)據(jù)加載:ETL工程師需要將經(jīng)過轉(zhuǎn)換的數(shù)據(jù)加載到目標(biāo)系統(tǒng)中,通常是數(shù)據(jù)倉庫或數(shù)據(jù)湖。他們需要編寫加載程序或使用ETL工具,將數(shù)據(jù)按照預(yù)定的格式和結(jié)構(gòu)加載到目標(biāo)系統(tǒng)中,確保數(shù)據(jù)的完整性和一致性。
4. ETL流程調(diào)度和監(jiān)控:ETL工程師需要設(shè)計和維護(hù)ETL流程的調(diào)度和監(jiān)控機(jī)制,確保數(shù)據(jù)的及時抽取、轉(zhuǎn)換和加載。他們需要配置定時任務(wù)或使用調(diào)度工具,監(jiān)控ETL流程的運行狀態(tài),及時發(fā)現(xiàn)和解決異常情況。
5. 故障排除和性能優(yōu)化:在ETL過程中,可能會出現(xiàn)各種故障和性能問題。ETL工程師需要具備故障排除和性能優(yōu)化的能力,能夠分析和解決ETL過程中的問題,提高數(shù)據(jù)處理的效率和質(zhì)量。
6. 與數(shù)據(jù)團(tuán)隊的協(xié)作:ETL工程師通常需要與數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家、數(shù)倉工程師和業(yè)務(wù)團(tuán)隊等密切合作。他們需要理解業(yè)務(wù)需求,協(xié)調(diào)數(shù)據(jù)的抽取、轉(zhuǎn)換和加載工作,確保數(shù)據(jù)的準(zhǔn)確性和可用性。
總之,ETL工程師在公司中負(fù)責(zé)數(shù)據(jù)的抽取、轉(zhuǎn)換和加載工作,確保數(shù)據(jù)的準(zhǔn)確性、完整性和一致性。他們與數(shù)據(jù)團(tuán)隊合作,提供高效、可靠的數(shù)據(jù)支持,滿足業(yè)務(wù)的需求。
與數(shù)倉工程師的區(qū)別和工作交集
在日常工作中,ETL工程師和數(shù)據(jù)倉庫(數(shù)倉)工程師有一些工作交集和區(qū)別。例如:
1.ETL工程師主要負(fù)責(zé)數(shù)據(jù)抽取、轉(zhuǎn)換和加載的過程。他們專注于將數(shù)據(jù)從不同的源提取出來,并進(jìn)行清洗、轉(zhuǎn)換和整合,最后將數(shù)據(jù)加載到目標(biāo)系統(tǒng)中。ETL工程師更加關(guān)注數(shù)據(jù)流程和數(shù)據(jù)處理的技術(shù)實現(xiàn),同時etl工程師對業(yè)務(wù)db數(shù)據(jù)更加了解,對業(yè)務(wù)了解一般,更多精力放在如何利用大數(shù)據(jù)相關(guān)技術(shù)組件同步業(yè)務(wù)db的數(shù)據(jù),并完成數(shù)據(jù)清洗工走。在數(shù)倉建設(shè)過程中,etl工程師主要負(fù)責(zé)數(shù)據(jù)的同步和清洗,更多偏重ods層的開發(fā)工作,數(shù)據(jù)同步到ods后,剩余的工作交接給數(shù)倉工程師做后續(xù)分層的模型設(shè)計和開發(fā)工作。
2.數(shù)據(jù)倉庫工程師主要負(fù)責(zé)構(gòu)建和管理數(shù)據(jù)倉庫。數(shù)據(jù)倉庫是一個集成的、面向主題的、可查詢的數(shù)據(jù)存儲,用于支持企業(yè)的決策分析。數(shù)據(jù)倉庫工程師需要設(shè)計和建立數(shù)據(jù)倉庫的架構(gòu),包括數(shù)據(jù)模型、表結(jié)構(gòu)、索引等。他們還需要優(yōu)化數(shù)據(jù)倉庫的性能,確保數(shù)據(jù)的一致性和可用性。數(shù)倉工程是更加偏dw層的建設(shè),利用etl工程師接入的數(shù)據(jù)做后續(xù)dw層的模型和開發(fā)工作,同時,模型設(shè)計、數(shù)據(jù)資產(chǎn)沉淀以及數(shù)倉體系化建設(shè)是數(shù)倉工程師的核心能力。
總的來說,ETL工程師和數(shù)據(jù)倉庫工程師在職責(zé)和關(guān)注點上有所不同。ETL工程師更加專注于數(shù)據(jù)處理和轉(zhuǎn)換的技術(shù)實現(xiàn),而數(shù)據(jù)倉庫工程師則更加關(guān)注數(shù)據(jù)倉庫的設(shè)計、構(gòu)建和管理。相比較etl工程師,數(shù)倉工程師多更加貼近業(yè)務(wù),然而,在一些組織中,這兩個角色的職責(zé)可能會有一定的重疊,具體的區(qū)別可能會因組織而異。

3.數(shù)據(jù)開發(fā)工程師??
崗位要求
數(shù)據(jù)開發(fā)工程師在不同公司定位不一樣,有些公司雖然將數(shù)倉拆分成數(shù)倉和集市,一般數(shù)倉的技術(shù)團(tuán)隊我們稱之為數(shù)倉開發(fā)工程師,集市或者應(yīng)用層的建設(shè)團(tuán)隊稱之為數(shù)據(jù)開發(fā)工程師。而有的公司,比如規(guī)模相對較小的公司,所有的數(shù)據(jù)開發(fā)工作都由一個數(shù)據(jù)開發(fā)團(tuán)隊負(fù)責(zé),所以統(tǒng)稱為數(shù)據(jù)開發(fā)工程師。一般我們對數(shù)據(jù)開發(fā)工程師的崗位工作要求是:
1. 數(shù)據(jù)采集和清洗:負(fù)責(zé)從各種數(shù)據(jù)源中采集數(shù)據(jù),并進(jìn)行清洗和預(yù)處理,確保數(shù)據(jù)的準(zhǔn)確性和完整性。這可能涉及到數(shù)據(jù)抓取、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換等工作。
2. 數(shù)據(jù)存儲和管理:設(shè)計和維護(hù)數(shù)據(jù)存儲系統(tǒng),包括數(shù)據(jù)倉庫和數(shù)據(jù)湖,確保數(shù)據(jù)的安全性和可靠性。你需要選擇適當(dāng)?shù)臄?shù)據(jù)庫和存儲技術(shù),并進(jìn)行數(shù)據(jù)的備份和恢復(fù)。
3. 數(shù)據(jù)處理和分析:使用大數(shù)據(jù)處理和分析工具,如Hadoop、Spark等,對大規(guī)模數(shù)據(jù)進(jìn)行處理和分析,提取有價值的信息和洞察。你需要編寫和優(yōu)化數(shù)據(jù)處理和分析的算法和代碼。
4. 數(shù)據(jù)模型和架構(gòu)設(shè)計:負(fù)責(zé)設(shè)計和優(yōu)化數(shù)據(jù)模型和架構(gòu),確保數(shù)據(jù)的高效訪問和查詢性能。你需要了解數(shù)據(jù)庫設(shè)計原則和最佳實踐,并進(jìn)行數(shù)據(jù)模型的規(guī)劃和調(diào)優(yōu)。
5. 數(shù)據(jù)質(zhì)量和數(shù)據(jù)治理:評估和監(jiān)控數(shù)據(jù)質(zhì)量,制定數(shù)據(jù)治理規(guī)范和流程,確保數(shù)據(jù)的準(zhǔn)確性和一致性。你需要制定數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)和檢查規(guī)則,并進(jìn)行數(shù)據(jù)質(zhì)量的監(jiān)控和改進(jìn)。
6. 數(shù)據(jù)可視化和報表開發(fā):使用數(shù)據(jù)可視化工具,如Tableau、Power BI等,設(shè)計和開發(fā)直觀清晰的數(shù)據(jù)可視化報表,幫助業(yè)務(wù)團(tuán)隊理解和利用數(shù)據(jù)。你需要將數(shù)據(jù)轉(zhuǎn)化為可視化的形式,并提供易于理解和操作的報表和圖表。
總體而言,作為大數(shù)據(jù)部門的數(shù)據(jù)工程師,你需要具備扎實的編程和數(shù)據(jù)處理能力,熟悉大數(shù)據(jù)技術(shù)和工具,掌握數(shù)倉建模理論,具備數(shù)據(jù)建模和數(shù)據(jù)質(zhì)量管理的能力,并能夠與團(tuán)隊緊密合作,為業(yè)務(wù)團(tuán)隊提供高質(zhì)量的數(shù)據(jù)支持和解決方案。
與數(shù)倉工程師的區(qū)別和工作交集
這些工作職責(zé)和崗位要求可能會根據(jù)具體的組織和項目需求有所不同,但以上是數(shù)據(jù)開發(fā)工程師常見的工作職責(zé)和崗位要求。
數(shù)據(jù)工程師和數(shù)倉工程師在數(shù)據(jù)領(lǐng)域中扮演不同的角色,有一些區(qū)別。以下是它們之間的主要區(qū)別:
1.對于統(tǒng)稱為數(shù)據(jù)工程師的團(tuán)隊,崗位職責(zé)沒有過多區(qū)分,都是基于已有的大數(shù)據(jù)相關(guān)平臺完成端到端的開發(fā)工作,例如從ods數(shù)據(jù),dwd,dws,ads等建設(shè)都是由數(shù)據(jù)開發(fā)團(tuán)隊負(fù)責(zé)。數(shù)據(jù)工程師更多的是面向應(yīng)用開發(fā)建設(shè),以支撐業(yè)務(wù)需求為第一要素,對模型設(shè)計不如數(shù)倉工程師要求高。
2.對于大部分公司或者團(tuán)隊都會將這兩種角色做區(qū)分,數(shù)倉工程師主要負(fù)責(zé)dw層設(shè)計和開發(fā),負(fù)責(zé)構(gòu)建數(shù)據(jù)倉庫,將不同來源的數(shù)據(jù)整合到一個統(tǒng)一的數(shù)據(jù)存儲中,構(gòu)建統(tǒng)一化模型,沉淀公司資產(chǎn),同時支持業(yè)務(wù)分析和決策,當(dāng)然,部分公司數(shù)倉開發(fā)工程師也需要參與到應(yīng)用層建設(shè)中。對區(qū)分的公司,一般是由etl工程師將業(yè)務(wù)db的數(shù)據(jù)接入到ods層后,數(shù)倉開發(fā)工程師利用ods的表自下而上設(shè)計數(shù)倉模型,以支撐各業(yè)務(wù)集市應(yīng)用需求,而數(shù)據(jù)開發(fā)工程師基于數(shù)倉開發(fā)工程師設(shè)計開發(fā)的模型面向應(yīng)用開發(fā)實現(xiàn)業(yè)務(wù)的需求,如報表等應(yīng)用??梢灾苯右脭?shù)倉的dws匯總模型,當(dāng)然也可以在ads基于數(shù)倉開發(fā)工程師設(shè)計開發(fā)的dim,dwd模型加工需求需要的模型。
對于etl工程師也好,數(shù)倉工程師還是數(shù)據(jù)開發(fā)工程師也好,都是同一個目的支撐公司數(shù)據(jù)類應(yīng)用的需求,為業(yè)務(wù)團(tuán)隊提供高質(zhì)量的數(shù)據(jù)支持和解決方案。

下一篇文章中會從數(shù)據(jù)治理工程師,BI工程師以及數(shù)據(jù)運維工程師這幾個工作崗位的職責(zé)和技能跟大家聊聊。
?滌生大數(shù)據(jù)往期精彩推薦
1.數(shù)倉建模本質(zhì)到底是什么?為什么維度建能模脫穎而出?
2.企業(yè)數(shù)倉DQC數(shù)據(jù)質(zhì)量管理實踐篇
3.企業(yè)數(shù)據(jù)治理實戰(zhàn)總結(jié)--數(shù)倉面試必備
4.OneData理論案例實戰(zhàn)—企業(yè)級數(shù)倉業(yè)務(wù)過程
5.中大廠數(shù)倉模型規(guī)范與度量指標(biāo)有哪些?
6.大廠數(shù)倉專家實戰(zhàn)分享:企業(yè)級埋點管理與應(yīng)用
7.手把手教你搭建用戶畫像系統(tǒng)(入門篇上)
8.手把手教你搭建用戶畫像系統(tǒng)(入門篇下)
9.SQL優(yōu)化之診斷篇:快速定位生產(chǎn)性能問題實踐
10.SQL之優(yōu)化篇:一文搞懂如何優(yōu)化線上任務(wù)性能,增效降本!