火爆全球的Data Science,好在哪里?
手機(jī)電腦屏幕前的你是否遇到過(guò)這樣的情況:前腳剛在談?wù)摶蛘咚阉鞯膬?nèi)容,下一秒就會(huì)出現(xiàn)在你的電腦網(wǎng)頁(yè)廣告或手機(jī)APP相關(guān)產(chǎn)品推薦;又或者你在某寶上點(diǎn)進(jìn)了某件商品的詳情頁(yè),隔天你的推薦列表就變成了相關(guān)產(chǎn)品的專場(chǎng)。
若經(jīng)歷過(guò)以上場(chǎng)景,那你一定對(duì)“大數(shù)據(jù)”這個(gè)詞不會(huì)感到陌生。事實(shí)上,數(shù)據(jù)無(wú)處不在,人類社會(huì)的數(shù)據(jù)量一直處于快速增長(zhǎng)中,尤其在互聯(lián)網(wǎng)高度發(fā)達(dá)的今天。
于是,有越來(lái)越多的人開始投身于研究、分析數(shù)據(jù),并把數(shù)據(jù)作為重要的行事參考依據(jù)。Data Science 就在這樣的時(shí)代背景下逐步成為火熱的專業(yè)。
什么是 Data Science?
從廣義上來(lái)說(shuō),和數(shù)據(jù)相關(guān)的科學(xué)研究都是數(shù)據(jù)科學(xué)(Data Science,簡(jiǎn)稱DS);具體點(diǎn)來(lái)說(shuō)的話,Data Science 是指通過(guò)挖掘數(shù)據(jù)、處理數(shù)據(jù)、分析數(shù)據(jù),從而得到有用信息的技術(shù)和研究,再將這些信息應(yīng)用到不同領(lǐng)域的各個(gè)方面。
該學(xué)科結(jié)合了諸多領(lǐng)域中的理論和技術(shù),包括應(yīng)用數(shù)學(xué)、統(tǒng)計(jì)、模式識(shí)別、機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化、數(shù)據(jù)倉(cāng)庫(kù)以及高性能計(jì)算等,通過(guò)運(yùn)用各種相關(guān)的數(shù)據(jù)來(lái)幫助非專業(yè)人士理解問(wèn)題。
Data Science 都學(xué)些什么?
總的來(lái)說(shuō),Data Science 的學(xué)習(xí)主要分為以下三個(gè)模塊:
數(shù)據(jù)模型
數(shù)據(jù)處理
數(shù)據(jù)可視化
顯而易見的是,這些相關(guān)的知識(shí)都和計(jì)算機(jī)、統(tǒng)計(jì)及數(shù)學(xué)有著密切的聯(lián)系。下面給大家一張圖,或許可以更直觀地感受到 Data Science 和其他學(xué)科之間的關(guān)系:

作為一門跨領(lǐng)域?qū)W科,Data Science 專業(yè)的學(xué)生一般會(huì)學(xué)習(xí)包括數(shù)據(jù)分析、計(jì)算機(jī)編程、預(yù)測(cè)建模、統(tǒng)計(jì)學(xué)、概率論、微積分等課程。
那么學(xué)習(xí)這個(gè)專業(yè),能從事哪方面的工作?就業(yè)前景又如何?去哪個(gè)國(guó)家學(xué)習(xí)比較好?申請(qǐng)難不難?
Data Science 專業(yè)畢業(yè)后做什么?
1.就業(yè)市場(chǎng)現(xiàn)狀
隨著互聯(lián)網(wǎng)的快速發(fā)展,幾乎每個(gè)行業(yè)都需要懂得處理數(shù)據(jù)的專業(yè)人士,這也導(dǎo)致就業(yè)市場(chǎng)對(duì)于數(shù)據(jù)科學(xué)這個(gè)職位的需求激增,并成為了目前最具價(jià)值的職業(yè)領(lǐng)域之一。
根據(jù) Glassdoor 《 2022 美國(guó) Top 50 最佳工種》排名顯示,數(shù)據(jù)科學(xué)家以年薪中位數(shù) $120,000(約76萬(wàn)人民幣)位列美國(guó)最佳職業(yè)榜單的第三位,是美國(guó)最受歡迎的工作之一。

根據(jù)Glassdoor和美國(guó)勞工統(tǒng)計(jì)局給出的數(shù)據(jù),美國(guó)將為數(shù)據(jù)科學(xué)家和類似的高級(jí)分析職位創(chuàng)造超過(guò) 61,799 個(gè)新工作崗位;到 2026 年,數(shù)據(jù)科學(xué)家的就業(yè)人數(shù)預(yù)計(jì)將增加 20%。
2.數(shù)據(jù)科學(xué)的工作內(nèi)容
數(shù)據(jù)科學(xué)的主要工作可以歸納分為四個(gè)部分:
歸納問(wèn)題
準(zhǔn)備探索數(shù)據(jù)
模型訓(xùn)練檢驗(yàn)調(diào)整
報(bào)告和產(chǎn)品
1)歸納問(wèn)題
客戶給公司的任務(wù),或者上級(jí)給分析師的任務(wù),不是一個(gè)具體的任務(wù)(用xx模型來(lái)做xx數(shù)據(jù)) ,而是一個(gè)具體的商業(yè)問(wèn)題。
比如,上個(gè)季度為什么盈利下降了?這就需要有專業(yè)知識(shí)幫助我們找到方向。
2)準(zhǔn)備探索數(shù)據(jù)
歸納問(wèn)題結(jié)束之后,會(huì)產(chǎn)生很多假設(shè),這就需要尋找數(shù)據(jù)驗(yàn)證假設(shè)。
尋找數(shù)據(jù)一般是竭盡所能,比如收入不好與市場(chǎng)推廣有關(guān),就會(huì)去尋找廣告商的數(shù)據(jù);尋找數(shù)據(jù)以后,要檢查數(shù)據(jù)質(zhì)量是否有異動(dòng)、缺失等等。
通常,數(shù)據(jù)質(zhì)量能夠決定模型的準(zhǔn)確率,所以花在“清洗整理”數(shù)據(jù)上的時(shí)間要占到總時(shí)間的60%甚至更多,有時(shí)候也需要跟客戶進(jìn)行交流。檢查完質(zhì)量以后,再做一些探索性分析。
3)模型訓(xùn)練檢驗(yàn)調(diào)整
先確定模型基本類型(回歸、聚類等),選取比較合適的模型進(jìn)行搭建,用test對(duì)模型進(jìn)行檢驗(yàn)。檢驗(yàn)的同時(shí),再去尋找模型最優(yōu)的參數(shù)配置對(duì)模型進(jìn)行預(yù)測(cè)。如果預(yù)測(cè)結(jié)果很好的話,建模過(guò)程就結(jié)束了。
4)報(bào)告和產(chǎn)品
如果你在咨詢公司工作,模型做完以后都會(huì)和客戶進(jìn)行交流,看是否符合實(shí)際情況;在科技公司中,模型往往會(huì)發(fā)展成一個(gè)產(chǎn)品,放在公司平臺(tái)上進(jìn)行測(cè)試使用,最后進(jìn)行正式發(fā)布。
總的來(lái)說(shuō),Data Science是多領(lǐng)域的結(jié)合,尤其是跟具體各行各業(yè)相結(jié)合的時(shí)候,除了具備專業(yè)知識(shí)和技能,以及實(shí)際運(yùn)用知識(shí)的能力外,還需要對(duì)特定甚至多個(gè)相關(guān)行業(yè)領(lǐng)域有深入的了解。

3.有哪些職位與Data Science相匹配?
互聯(lián)網(wǎng)時(shí)代,各行各業(yè)都在利用大數(shù)據(jù)來(lái)解決問(wèn)題,所以各企業(yè)都有與數(shù)據(jù)科學(xué)相關(guān)的職位設(shè)置。
與 Data Science 相關(guān)的職位可能有很多種叫法,不同公司根據(jù)不同的背景,主要有以下一些常見的職位頭銜(title):
1)數(shù)據(jù)科學(xué)家 Data Scientist
數(shù)據(jù)科學(xué)家應(yīng)具有商業(yè)頭腦和分析技能,以及挖掘、清理和呈現(xiàn)數(shù)據(jù)的能力。該職位主要職責(zé)為獲取、管理和分析大量非結(jié)構(gòu)化數(shù)據(jù),并提出相關(guān)設(shè)計(jì)解決方案。然后將結(jié)果綜合并傳達(dá)給關(guān)鍵利益相關(guān)者,以推動(dòng)企業(yè)的戰(zhàn)略決策。
2)數(shù)據(jù)分析師 Data Analyst
數(shù)據(jù)分析師是數(shù)據(jù)科學(xué)家和商業(yè)分析師之間的橋梁。該職位主要從事數(shù)據(jù)處理工作,運(yùn)用算法來(lái)解決和分析問(wèn)題,推動(dòng)數(shù)據(jù)解決方案的不斷更新,估計(jì)投資回報(bào)比,為產(chǎn)品方向提建議。
3)數(shù)據(jù)工程師 Data Engineer
數(shù)據(jù)工程師管理大量快速變化的數(shù)據(jù)。他們專注于數(shù)據(jù)管道和基礎(chǔ)設(shè)施的開發(fā)、部署、管理和優(yōu)化,以便將數(shù)據(jù)轉(zhuǎn)換傳輸給數(shù)據(jù)科學(xué)家進(jìn)行查詢。
4)數(shù)據(jù)挖掘工程師 Data Mining Engineer
數(shù)據(jù)挖掘工程師不僅會(huì)檢查他們自己的業(yè)務(wù)數(shù)據(jù),還會(huì)檢查從第三方收集的信息,數(shù)據(jù)挖掘工程師將創(chuàng)建復(fù)雜的算法來(lái)進(jìn)一步分析數(shù)據(jù)。
5)數(shù)據(jù)架構(gòu)師 Data Architect
數(shù)據(jù)架構(gòu)師與用戶、系統(tǒng)設(shè)計(jì)人員、以及開發(fā)人員密切合作,創(chuàng)建用于集中、集成、維護(hù)和保護(hù)數(shù)據(jù)源的數(shù)據(jù)管理系統(tǒng)。
6)風(fēng)控師 Risk Manager
風(fēng)控師是提前識(shí)別風(fēng)險(xiǎn)并采取預(yù)防措施降低或減輕風(fēng)險(xiǎn)的職位,較多出現(xiàn)在金融相關(guān)行業(yè)。該職位與數(shù)據(jù)科學(xué)緊密相連,風(fēng)控師需使用數(shù)據(jù)處理工具/知識(shí),有效地提供風(fēng)險(xiǎn)分析報(bào)告,幫助企業(yè)擺脫損失。
去哪個(gè)國(guó)家留學(xué)比較好?
在回答這個(gè)問(wèn)題前,我們先來(lái)看一下EduRank 對(duì)各國(guó)各大學(xué) Data Science 專業(yè)的排名。

從以上榜單中我們可以看到,美國(guó)院校包攬了前十。并且在Top35的名單中,絕大部分院校為美國(guó)大學(xué),其次是英國(guó),但在學(xué)校數(shù)量上還是和美國(guó)相差甚遠(yuǎn)。
不止該榜單如此,美國(guó)數(shù)據(jù)科學(xué)人才測(cè)評(píng)專業(yè)機(jī)構(gòu) Correlation One 發(fā)布的白皮書中,就有全球院校Data Science 的專業(yè)排名,其中美國(guó)院校表現(xiàn)依然出挑。

下面我們主要來(lái)了解一下美國(guó)的 Data Science 專業(yè)。
1.美國(guó)大學(xué)DS專業(yè)都有哪些課程項(xiàng)目?
不管是教育質(zhì)量,還是就業(yè)發(fā)展,美國(guó)都是學(xué)習(xí) Data Science 專業(yè)的首選。近年來(lái),美國(guó)開設(shè)數(shù)據(jù)科學(xué)專業(yè)的學(xué)校數(shù)量快速增加,不少院校都把它列入為STEM專業(yè),可見美國(guó)對(duì)于數(shù)據(jù)科學(xué)專業(yè)的重視程度。
以下是各大院校該專業(yè)普遍會(huì)涉及的一些具體課程,主要包括:
大數(shù)據(jù) Big Data
機(jī)器學(xué)習(xí) Machine Learning
數(shù)據(jù)可視化 Data Visualization
數(shù)據(jù)探索與分析 Data Exploration & Analysis
概率與統(tǒng)計(jì) Probability & Statistics
數(shù)據(jù)庫(kù)系統(tǒng) Database Systems
數(shù)據(jù)結(jié)構(gòu)和算法 Data Structures & Algorithms
數(shù)據(jù)挖掘 Data Mining
每個(gè)學(xué)校具體涉及的課程會(huì)有所不同,但是主要都圍繞數(shù)據(jù)科學(xué)的五個(gè)不同階段:
捕獲(數(shù)據(jù)采集、數(shù)據(jù)輸入、信號(hào)接收、數(shù)據(jù)提取);
維護(hù) (數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)清洗、數(shù)據(jù)分期、數(shù)據(jù)處理、數(shù)據(jù)架構(gòu));
過(guò)程 (數(shù)據(jù)挖掘、聚類/分類、數(shù)據(jù)建模、數(shù)據(jù)匯總);
分析 (探索性/確認(rèn)性、預(yù)測(cè)性分析、回歸、文本挖掘、定性分析);
溝通 (數(shù)據(jù)報(bào)告、數(shù)據(jù)可視化、商業(yè)智能、決策制定)。

在美國(guó),大部分 Data Science 的相關(guān)項(xiàng)目一般開設(shè)在計(jì)算機(jī)學(xué)院、文理學(xué)院、工程學(xué)院下,也有少數(shù)設(shè)置于商學(xué)院。下面為大家推薦美國(guó)幾所排名不錯(cuò)的院校以及碩士項(xiàng)目吧~
2.推薦院校及項(xiàng)目
1)斯坦福大學(xué) Stanford University
項(xiàng)目名稱:Master of Science in Statistics - Data Science track
所屬學(xué)院:School of Humanities and Sciences - The Department of Statistics
項(xiàng)目長(zhǎng)度:1-2年
2)哈佛大學(xué) ?Harvard University
項(xiàng)目名稱:Master of Science?in?Data Science
所屬學(xué)院:Harvard John A. Paulson School of Engineering and APPlied Sciences
項(xiàng)目長(zhǎng)度:1-2年
3)華盛頓大學(xué) University of Washington
項(xiàng)目名稱:Master of Science in Data Science
所屬學(xué)院:College of Arts & Sciences,Natural Sciences Division - Department of Statistics
項(xiàng)目長(zhǎng)度:1.5年
4)密歇根大學(xué)安娜堡分校 University of Michigan,Ann Arbor
項(xiàng)目名稱:Master of Science in Data Science
所屬學(xué)院:College of Literature,Science,and the Arts
項(xiàng)目長(zhǎng)度:1年
5)卡內(nèi)基梅隆大學(xué) Carnegie Mellon University
項(xiàng)目名稱:Master of Computational Data Science
所屬學(xué)院:School of Computer Science
項(xiàng)目長(zhǎng)度:16個(gè)月
6)加州大學(xué)伯克利分校 University of California,Berkeley
項(xiàng)目名稱:Master of Engineering - Data Science and Systems
所屬學(xué)院:?College of Engineering - Department of Electrical Engineering And Computer Science
項(xiàng)目長(zhǎng)度:1年
7)康奈爾大學(xué) Cornell University
項(xiàng)目名稱:Master of Professional Studies in APPlied Statistics?
所屬學(xué)院:College of Computing and Information Science
項(xiàng)目長(zhǎng)度:1年
8)南加州大學(xué) University of South California
項(xiàng)目名稱:Master of Science in Computer Science (Data Science)?
所屬學(xué)院:USC Viterbi School of Engineering
項(xiàng)目長(zhǎng)度:1-2年
9)賓夕法尼亞大學(xué) University of Pennsylvania
項(xiàng)目名稱:Master of Science in Engineering in Data Science
所屬學(xué)院:School of Engineering and APPlied Science
項(xiàng)目長(zhǎng)度:1.5-2年
10)哥倫比亞大學(xué) Columbia University
項(xiàng)目名稱:Master of Science in Data Science
所屬學(xué)院:Data Science Institute
項(xiàng)目長(zhǎng)度:1.5年
當(dāng)然,選擇哪個(gè)國(guó)家就讀要考慮的因素有很多,比如學(xué)校排名及認(rèn)可度、專業(yè)排名、個(gè)人競(jìng)爭(zhēng)力、就業(yè)發(fā)展、文化氛圍等等。
總的來(lái)說(shuō),美國(guó)數(shù)據(jù)科學(xué)專業(yè)院校更多,且專業(yè)排名會(huì)相對(duì)更高,國(guó)內(nèi)認(rèn)可度也高、就業(yè)市場(chǎng)也會(huì)更廣。
申請(qǐng)?jiān)搶I(yè)的一般要求
1.需要什么樣的學(xué)術(shù)背景?
不論是國(guó)內(nèi)還是美國(guó)本土,本科就開設(shè)Data Science這個(gè)專業(yè)的學(xué)校并不是特別多,所以大家不要一看自己專業(yè)名字和數(shù)據(jù)科學(xué)不搭邊就覺(jué)得是轉(zhuǎn)專業(yè)申請(qǐng)。?
首先,學(xué)CS的同學(xué)顯然是可以申請(qǐng)的,因?yàn)榇蠖鄶?shù)數(shù)據(jù)工作都是通過(guò)編程和數(shù)據(jù)庫(kù)的相關(guān)手段進(jìn)行的;
學(xué)統(tǒng)計(jì)或者應(yīng)用數(shù)學(xué),且有一定編程基礎(chǔ)的同學(xué)也可以申請(qǐng);
商科出身,尤其是量化背景較強(qiáng)的商科專業(yè),比如金融工程,但又希望能選擇一個(gè)STEM專業(yè)的小伙伴,那DS顯然也是個(gè)非常好的選擇。
所以說(shuō),如果你有比較強(qiáng)的編程背景,又有比較好的數(shù)理基礎(chǔ)那你就很有競(jìng)爭(zhēng)力;而純商科背景的小伙伴則可以選擇Data Science(DS)和 Business Analytics(BA)混申吧,后者更偏商科更加Match一些。
2.GPA
美國(guó)大部分排名較好的院校,GPA的最低要求都在3.0以上。所以,如果你要申請(qǐng)好的院校需要早點(diǎn)準(zhǔn)備提高自己的GPA。
3.語(yǔ)言成績(jī)
在美國(guó),Data Science 專業(yè)排名稍好的學(xué)校語(yǔ)言成績(jī)一般為:雅思6.5-7.5;托福88-100。排名前十的院校一般要求雅思7.5,托福100。
4.GRE/GMAT
美國(guó)大部分院校會(huì)要求學(xué)生提供GRE/GMAT成績(jī),不過(guò)因?yàn)橐咔樵颍芏鄬W(xué)校取消了GRE/GMAT的強(qiáng)制提交要求。


好啦,以上就是關(guān)于數(shù)據(jù)科學(xué)專業(yè)的全部?jī)?nèi)容,如果你還有其他疑問(wèn),可以在評(píng)論區(qū)告訴我們哦!