簡單數(shù)據(jù)處理與可視化
2023-04-19 09:29 作者:不要學(xué)經(jīng)管 | 我要投稿
終于把輔修畢業(yè)論文的事兒解決的差不多了,已經(jīng)很久沒有記錄東西了,正好昨天幫別人做了個(gè)簡單的Python作業(yè),就拿出來寫寫。

首先,導(dǎo)入相關(guān)庫,并讀入文件,觀察數(shù)據(jù)形式:

可以發(fā)現(xiàn),前兩行我們不需要,所以drop掉,并且將index變回默認(rèn)狀態(tài):

已經(jīng)變成我們想要的dataframe形式了,首先就開始第一題,遇到分類問題,不需要想,大概率是用groupby,由于數(shù)據(jù)還是str類型,首先需要轉(zhuǎn)換為整型類型:
結(jié)果如下:

可以發(fā)現(xiàn)2022年的AI詞頻數(shù)為0,按道理這是異常值,但題目中沒特別注明,不知道他們老師有沒有要求剔除,就不剔除了,這也不是本題的重心。
第二問也很簡單,使用seaborn繪制多變量兩兩間散點(diǎn)圖明顯比matplotlib方便許多。

第三問,觀察一開始的dataframe,可以發(fā)現(xiàn)行業(yè)代碼后有數(shù)字,這并不是我們需要的,首先需要提取行業(yè)代碼中的第一個(gè)字母:

任務(wù)完成
標(biāo)簽: