最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

技能提升!推薦14個優(yōu)質(zhì)數(shù)據(jù)科學(xué)項目

2021-05-09 11:11 作者:DevWeekly  | 我要投稿

程序員必備寶藏庫:http://github.com/Jackpopc/CS-Books-Store

現(xiàn)代社會,數(shù)據(jù)量在急劇的增加,生活處處都充滿著數(shù)據(jù),購物、交通、就醫(yī)....

因此,無論你是從事金融、互聯(lián)網(wǎng)、人事、財務(wù)等不同的工作崗位,都會和經(jīng)常和各種數(shù)據(jù)打交道。

通過數(shù)據(jù),能夠挖掘出更深、更有價值的信息,而不是浮于表面。

本文就來給大家介紹14個非常值得關(guān)注的數(shù)據(jù)科學(xué)項目,它們主要可以分為如下3類:

  • 可視化項目

  • 探索性數(shù)據(jù)分析(EDA)項目

  • 預(yù)測建模

下面,就開始本文的介紹。

可視化項目

在上述列出的3類項目中,或許最為簡單的就是數(shù)據(jù)可視化項目。

以Python為例,目前有很多知名、好用的數(shù)據(jù)可視化工具包,通過這些工具包可以很容易實現(xiàn)數(shù)據(jù)的可視化。

以下是三個有趣的數(shù)據(jù)集,可以用于練習(xí)你的數(shù)據(jù)可視化能力。

冠狀病毒可視化

難度:容易

數(shù)據(jù)集鏈接[1]

了解如何使用Plotly構(gòu)建動態(tài)可視化,以展示冠狀病毒如何像上述之一那樣在全球范圍內(nèi)傳播!Plotly是一個了不起的庫,它使數(shù)據(jù)可視化變得動態(tài),有吸引力且簡單。

澳大利亞野火可視化

難度:容易

數(shù)據(jù)集鏈接[2]

2019-2020年的叢林大火季節(jié),也稱為黑色夏天,由2019年6月開始的幾場極端野火組成。

據(jù)維基百科稱,大火燒毀了約1,860萬公頃,燒毀了5,900多座建筑物。

這是一個有趣的項目, 利用Plotly或Matplotlib利用數(shù)據(jù)可視化技能來顯示野火的規(guī)模和地理影響。

地表溫度可視化

難度:容易-中等

數(shù)據(jù)集鏈接[3]

是否對地標溫度的變化有所了解?

創(chuàng)建一些數(shù)據(jù)可視化效果,以顯示地球表面溫度如何隨時間變化。

探索性數(shù)據(jù)分析(EDA)項目

探索性數(shù)據(jù)分析(EDA),也稱為數(shù)據(jù)探索,是數(shù)據(jù)分析過程中的一個步驟,其中使用了多種技術(shù)來更好地理解所使用的數(shù)據(jù)集。

紐約Airbnb數(shù)據(jù)探索

難度:中等

數(shù)據(jù)集鏈接[4]

自2008年以來,旅客和房東已使用Airbnb擴大旅行可能性,并提出更多個性化的體驗的方式。

該數(shù)據(jù)集包含有關(guān)2019年在紐約上市的信息以及其地理信息,價格,評論數(shù)量等。

你可以嘗試回答的一些問題如下:

  • 哪些主機最忙,為什么?

  • 哪些區(qū)域的流量超過其他區(qū)域,為什么會這樣?

  • 價格,評論數(shù)和給定列表的預(yù)訂天數(shù)之間是否存在任何關(guān)系?

與員工流失、績效表現(xiàn)關(guān)系最重因素

難度:容易

數(shù)據(jù)集鏈接[5]

IBM創(chuàng)建了一個綜合數(shù)據(jù)集,可以使用它來了解各種因素如何影響員工的流失和滿意度。

其中一些變量包括教育程度,工作投入,績效評估和工作與生活的平衡。

探索此數(shù)據(jù)集,查看是否有任何確實影響員工滿意度的重要變量。

更進一步,看看是否可以將變量從最重要到最不重要進行排名。

世界大學(xué)排名

難度:容易

數(shù)據(jù)集鏈接[6]

你認為哪個國家擁有世界上最好的大學(xué)嗎?

成為“最佳”大學(xué)的意味著什么?

該數(shù)據(jù)集包含三個全球大學(xué)排名, 使用此數(shù)據(jù),查看是否可以回答以下問題:

  • 有哪些國家的頂尖大學(xué)?

  • 決定一個人的世界排名的主要因素是什么?

酒精與學(xué)校

難度:容易

數(shù)據(jù)集鏈接[7]

飲酒會影響學(xué)生的成績嗎?

這項數(shù)據(jù)是通過對中學(xué)數(shù)學(xué)和葡萄牙語課程的學(xué)生進行的一項調(diào)查獲得的。

它包含幾個變量,例如酒精消耗,家庭人數(shù),參與課外活動。

利用這一點,探索學(xué)校成績與各種因素之間的關(guān)系。

Pokemon數(shù)據(jù)探索

難度:容易

數(shù)據(jù)集鏈接[8]

這是一個數(shù)據(jù)集,其中包含Pokemon游戲中有關(guān)所有七代人的所有802 Pokemon的信息。

你可以嘗試回答以下幾個問題!

  • 哪一代人的口袋妖怪最強?哪個最弱?

  • 哪種神奇寶貝最強?哪種最弱?

  • 是否有可能建立一個分類器來識別傳奇的神奇寶貝?

  • 身體特征與力量狀態(tài)(進攻,防守,速度等)之間是否有關(guān)聯(lián)?

探索預(yù)期壽命相關(guān)的因素

難度:容易

數(shù)據(jù)集鏈接[9]

世衛(wèi)組織創(chuàng)建了一段時間內(nèi)所有國家健康狀況的數(shù)據(jù)集,其中包括預(yù)期壽命,成人死亡率等方面的統(tǒng)計數(shù)據(jù)。

使用此數(shù)據(jù)集,探索各種變量之間的關(guān)系。

對預(yù)期壽命的最大影響是什么?

創(chuàng)建該數(shù)據(jù)集是為了回答以下問題:

  • 最初選擇的各種預(yù)測因素是否會真正影響預(yù)期壽命?實際影響預(yù)期壽命的預(yù)測變量是什么?

  • 預(yù)期壽命值低于(<65)的國家是否應(yīng)該增加其醫(yī)療保健支出以改善其平均壽命?

  • 嬰兒和成人死亡率如何影響預(yù)期壽命?

  • 預(yù)期壽命與飲食習(xí)慣,生活方式,運動,吸煙,飲酒等有正相關(guān)還是負相關(guān)?

  • 學(xué)校教育對人類壽命有何影響?

  • 預(yù)期壽命與飲酒有正面還是負面的關(guān)系?

  • 人口稠密的國家會不會有較低的預(yù)期壽命?

  • 免疫覆蓋率對預(yù)期壽命有何影響?

預(yù)測建模

如果說數(shù)據(jù)可視化和數(shù)據(jù)探索是對現(xiàn)有積累的數(shù)據(jù)進行分析和挖掘,那么預(yù)測建模就是通過當(dāng)下數(shù)據(jù),去預(yù)測未來的趨勢,它在很多領(lǐng)域有著廣泛的應(yīng)用。

能源消耗的時間序列預(yù)測

難度:中等-困難

數(shù)據(jù)集鏈接鏈接[10]

該數(shù)據(jù)集由PJM網(wǎng)站上的功耗數(shù)據(jù)組成,PJM是美國的區(qū)域傳輸組織。

使用此數(shù)據(jù)集,查看是否可以構(gòu)建時間序列模型來預(yù)測能耗。

除此之外,請嘗試一下,是否可以找到一天中各個小時的趨勢,假日用電量以及長期趨勢!

貸款預(yù)測

難度:容易

數(shù)據(jù)集鏈接[11]

該數(shù)據(jù)集來自analytics Vidhya,包含615行和13列有關(guān)已批準和尚未批準的過去貸款的信息。

嘗試,是否可以創(chuàng)建一個模型來預(yù)測貸款是否會獲得批準。

二手車價格估算

難度:中等

數(shù)據(jù)集鏈接[12]

Craigslist是全球待售二手車的最大集合。

該數(shù)據(jù)集由Craigslist的抓取數(shù)據(jù)組成,每隔幾個月更新一次。

使用此數(shù)據(jù)集,查看是否可以創(chuàng)建一個數(shù)據(jù)集來預(yù)測汽車列表是高價還是低價。

檢測信用卡欺詐

難度:中等-困難

數(shù)據(jù)集鏈接[13]

該數(shù)據(jù)集顯示了兩天內(nèi)發(fā)生的交易,其中284,807筆交易中有492筆欺詐。

數(shù)據(jù)集高度不平衡,陽性類別(欺詐)占所有交易的0.172%。

學(xué)習(xí)如何使用不平衡的數(shù)據(jù)集并建立信用卡欺詐檢測模型。

皮膚癌圖像檢測

難度:困難

數(shù)據(jù)集鏈接[14]

擁有超過10,000張圖像,看看你是否可以構(gòu)建神經(jīng)網(wǎng)絡(luò)來檢測皮膚癌。

這是本文介紹14個項目中最困難的項目,需要廣泛的神經(jīng)網(wǎng)絡(luò)和圖像識別知識。

參考資料

[1] 鏈接: https://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset

[2] 鏈接: https://www.kaggle.com/carlosparadis/fires-from-space-australia-and-new-zeland

[3] 鏈接: https://www.kaggle.com/berkeleyearth/climate-change-earth-surface-temperature-data/kernels

[4] 鏈接: https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data

[5] 鏈接: https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset

[6] 鏈接: https://www.kaggle.com/mylesoneill/world-university-rankings

[7] 鏈接: https://www.kaggle.com/uciml/student-alcohol-consumption

[8] 鏈接: https://www.kaggle.com/rounakbanik/pokemon

[9] 鏈接: https://www.kaggle.com/kumarajarshi/life-expectancy-who

[10] 鏈接: https://www.kaggle.com/robikscube/hourly-energy-consumption

[11] 鏈接: https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/

[12] 鏈接: https://www.kaggle.com/austinreese/craigslist-carstrucks-data

[13] 鏈接: https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets

[14] 鏈接: https://www.kaggle.com/kmader/skin-cancer-mnist-ham10000


技能提升!推薦14個優(yōu)質(zhì)數(shù)據(jù)科學(xué)項目的評論 (共 條)

分享到微博請遵守國家法律
遵义县| 新源县| 江华| 蒲江县| 龙山县| 扬中市| 安宁市| 平舆县| 江都市| 萍乡市| 白河县| 齐齐哈尔市| 湖口县| 湾仔区| 安义县| 济源市| 双峰县| 永春县| 玉林市| 奉化市| 乾安县| 深水埗区| 衢州市| 陈巴尔虎旗| 乐清市| 攀枝花市| 新邵县| 图们市| 精河县| 芮城县| 聂荣县| 亚东县| 山阳县| 通许县| 新建县| 菏泽市| 达尔| 漳州市| 永平县| 阿拉善右旗| 东安县|