技能提升!推薦14個優(yōu)質(zhì)數(shù)據(jù)科學(xué)項目
程序員必備寶藏庫:http://github.com/Jackpopc/CS-Books-Store
現(xiàn)代社會,數(shù)據(jù)量在急劇的增加,生活處處都充滿著數(shù)據(jù),購物、交通、就醫(yī)....
因此,無論你是從事金融、互聯(lián)網(wǎng)、人事、財務(wù)等不同的工作崗位,都會和經(jīng)常和各種數(shù)據(jù)打交道。
通過數(shù)據(jù),能夠挖掘出更深、更有價值的信息,而不是浮于表面。
本文就來給大家介紹14個非常值得關(guān)注的數(shù)據(jù)科學(xué)項目,它們主要可以分為如下3類:
可視化項目
探索性數(shù)據(jù)分析(EDA)項目
預(yù)測建模
下面,就開始本文的介紹。
可視化項目
在上述列出的3類項目中,或許最為簡單的就是數(shù)據(jù)可視化項目。
以Python為例,目前有很多知名、好用的數(shù)據(jù)可視化工具包,通過這些工具包可以很容易實現(xiàn)數(shù)據(jù)的可視化。
以下是三個有趣的數(shù)據(jù)集,可以用于練習(xí)你的數(shù)據(jù)可視化能力。
冠狀病毒可視化
難度:容易
數(shù)據(jù)集鏈接[1]

了解如何使用Plotly構(gòu)建動態(tài)可視化,以展示冠狀病毒如何像上述之一那樣在全球范圍內(nèi)傳播!Plotly是一個了不起的庫,它使數(shù)據(jù)可視化變得動態(tài),有吸引力且簡單。
澳大利亞野火可視化
難度:容易
數(shù)據(jù)集鏈接[2]

2019-2020年的叢林大火季節(jié),也稱為黑色夏天,由2019年6月開始的幾場極端野火組成。
據(jù)維基百科稱,大火燒毀了約1,860萬公頃,燒毀了5,900多座建筑物。
這是一個有趣的項目, 利用Plotly或Matplotlib利用數(shù)據(jù)可視化技能來顯示野火的規(guī)模和地理影響。
地表溫度可視化
難度:容易-中等
數(shù)據(jù)集鏈接[3]

是否對地標溫度的變化有所了解?
創(chuàng)建一些數(shù)據(jù)可視化效果,以顯示地球表面溫度如何隨時間變化。
探索性數(shù)據(jù)分析(EDA)項目
探索性數(shù)據(jù)分析(EDA),也稱為數(shù)據(jù)探索,是數(shù)據(jù)分析過程中的一個步驟,其中使用了多種技術(shù)來更好地理解所使用的數(shù)據(jù)集。
紐約Airbnb數(shù)據(jù)探索
難度:中等
數(shù)據(jù)集鏈接[4]

自2008年以來,旅客和房東已使用Airbnb擴大旅行可能性,并提出更多個性化的體驗的方式。
該數(shù)據(jù)集包含有關(guān)2019年在紐約上市的信息以及其地理信息,價格,評論數(shù)量等。
你可以嘗試回答的一些問題如下:
哪些主機最忙,為什么?
哪些區(qū)域的流量超過其他區(qū)域,為什么會這樣?
價格,評論數(shù)和給定列表的預(yù)訂天數(shù)之間是否存在任何關(guān)系?
與員工流失、績效表現(xiàn)關(guān)系最重因素
難度:容易
數(shù)據(jù)集鏈接[5]

IBM創(chuàng)建了一個綜合數(shù)據(jù)集,可以使用它來了解各種因素如何影響員工的流失和滿意度。
其中一些變量包括教育程度,工作投入,績效評估和工作與生活的平衡。
探索此數(shù)據(jù)集,查看是否有任何確實影響員工滿意度的重要變量。
更進一步,看看是否可以將變量從最重要到最不重要進行排名。
世界大學(xué)排名
難度:容易
數(shù)據(jù)集鏈接[6]

你認為哪個國家擁有世界上最好的大學(xué)嗎?
成為“最佳”大學(xué)的意味著什么?
該數(shù)據(jù)集包含三個全球大學(xué)排名, 使用此數(shù)據(jù),查看是否可以回答以下問題:
有哪些國家的頂尖大學(xué)?
決定一個人的世界排名的主要因素是什么?
酒精與學(xué)校
難度:容易
數(shù)據(jù)集鏈接[7]

飲酒會影響學(xué)生的成績嗎?
這項數(shù)據(jù)是通過對中學(xué)數(shù)學(xué)和葡萄牙語課程的學(xué)生進行的一項調(diào)查獲得的。
它包含幾個變量,例如酒精消耗,家庭人數(shù),參與課外活動。
利用這一點,探索學(xué)校成績與各種因素之間的關(guān)系。
Pokemon數(shù)據(jù)探索
難度:容易
數(shù)據(jù)集鏈接[8]

這是一個數(shù)據(jù)集,其中包含Pokemon游戲中有關(guān)所有七代人的所有802 Pokemon的信息。
你可以嘗試回答以下幾個問題!
哪一代人的口袋妖怪最強?哪個最弱?
哪種神奇寶貝最強?哪種最弱?
是否有可能建立一個分類器來識別傳奇的神奇寶貝?
身體特征與力量狀態(tài)(進攻,防守,速度等)之間是否有關(guān)聯(lián)?
探索預(yù)期壽命相關(guān)的因素
難度:容易
數(shù)據(jù)集鏈接[9]
世衛(wèi)組織創(chuàng)建了一段時間內(nèi)所有國家健康狀況的數(shù)據(jù)集,其中包括預(yù)期壽命,成人死亡率等方面的統(tǒng)計數(shù)據(jù)。
使用此數(shù)據(jù)集,探索各種變量之間的關(guān)系。
對預(yù)期壽命的最大影響是什么?
創(chuàng)建該數(shù)據(jù)集是為了回答以下問題:
最初選擇的各種預(yù)測因素是否會真正影響預(yù)期壽命?實際影響預(yù)期壽命的預(yù)測變量是什么?
預(yù)期壽命值低于(<65)的國家是否應(yīng)該增加其醫(yī)療保健支出以改善其平均壽命?
嬰兒和成人死亡率如何影響預(yù)期壽命?
預(yù)期壽命與飲食習(xí)慣,生活方式,運動,吸煙,飲酒等有正相關(guān)還是負相關(guān)?
學(xué)校教育對人類壽命有何影響?
預(yù)期壽命與飲酒有正面還是負面的關(guān)系?
人口稠密的國家會不會有較低的預(yù)期壽命?
免疫覆蓋率對預(yù)期壽命有何影響?
預(yù)測建模
如果說數(shù)據(jù)可視化和數(shù)據(jù)探索是對現(xiàn)有積累的數(shù)據(jù)進行分析和挖掘,那么預(yù)測建模就是通過當(dāng)下數(shù)據(jù),去預(yù)測未來的趨勢,它在很多領(lǐng)域有著廣泛的應(yīng)用。
能源消耗的時間序列預(yù)測
難度:中等-困難
數(shù)據(jù)集鏈接鏈接[10]

該數(shù)據(jù)集由PJM網(wǎng)站上的功耗數(shù)據(jù)組成,PJM是美國的區(qū)域傳輸組織。
使用此數(shù)據(jù)集,查看是否可以構(gòu)建時間序列模型來預(yù)測能耗。
除此之外,請嘗試一下,是否可以找到一天中各個小時的趨勢,假日用電量以及長期趨勢!
貸款預(yù)測
難度:容易
數(shù)據(jù)集鏈接[11]

該數(shù)據(jù)集來自analytics Vidhya,包含615行和13列有關(guān)已批準和尚未批準的過去貸款的信息。
嘗試,是否可以創(chuàng)建一個模型來預(yù)測貸款是否會獲得批準。
二手車價格估算
難度:中等
數(shù)據(jù)集鏈接[12]

Craigslist是全球待售二手車的最大集合。
該數(shù)據(jù)集由Craigslist的抓取數(shù)據(jù)組成,每隔幾個月更新一次。
使用此數(shù)據(jù)集,查看是否可以創(chuàng)建一個數(shù)據(jù)集來預(yù)測汽車列表是高價還是低價。
檢測信用卡欺詐
難度:中等-困難
數(shù)據(jù)集鏈接[13]

該數(shù)據(jù)集顯示了兩天內(nèi)發(fā)生的交易,其中284,807筆交易中有492筆欺詐。
數(shù)據(jù)集高度不平衡,陽性類別(欺詐)占所有交易的0.172%。
學(xué)習(xí)如何使用不平衡的數(shù)據(jù)集并建立信用卡欺詐檢測模型。
皮膚癌圖像檢測
難度:困難
數(shù)據(jù)集鏈接[14]

擁有超過10,000張圖像,看看你是否可以構(gòu)建神經(jīng)網(wǎng)絡(luò)來檢測皮膚癌。
這是本文介紹14個項目中最困難的項目,需要廣泛的神經(jīng)網(wǎng)絡(luò)和圖像識別知識。
參考資料
[1] 鏈接: https://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset
[2] 鏈接: https://www.kaggle.com/carlosparadis/fires-from-space-australia-and-new-zeland
[3] 鏈接: https://www.kaggle.com/berkeleyearth/climate-change-earth-surface-temperature-data/kernels
[4] 鏈接: https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data
[5] 鏈接: https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset
[6] 鏈接: https://www.kaggle.com/mylesoneill/world-university-rankings
[7] 鏈接: https://www.kaggle.com/uciml/student-alcohol-consumption
[8] 鏈接: https://www.kaggle.com/rounakbanik/pokemon
[9] 鏈接: https://www.kaggle.com/kumarajarshi/life-expectancy-who
[10] 鏈接: https://www.kaggle.com/robikscube/hourly-energy-consumption
[11] 鏈接: https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/
[12] 鏈接: https://www.kaggle.com/austinreese/craigslist-carstrucks-data
[13] 鏈接: https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets
[14] 鏈接: https://www.kaggle.com/kmader/skin-cancer-mnist-ham10000