簡單數(shù)據(jù)處理與可視化

2023-04-19 09:29 作者:不要學(xué)經(jīng)管 0人讀過 | 我要投稿

終于把輔修畢業(yè)論文的事兒解決的差不多了，已經(jīng)很久沒有記錄東西了，正好昨天幫別人做了個(gè)簡單的Python作業(yè)，就拿出來寫寫。

首先，導(dǎo)入相關(guān)庫，并讀入文件，觀察數(shù)據(jù)形式：

可以發(fā)現(xiàn)，前兩行我們不需要，所以drop掉，并且將index變回默認(rèn)狀態(tài)：

已經(jīng)變成我們想要的dataframe形式了，首先就開始第一題，遇到分類問題，不需要想，大概率是用groupby,由于數(shù)據(jù)還是str類型，首先需要轉(zhuǎn)換為整型類型：

結(jié)果如下：

可以發(fā)現(xiàn)2022年的AI詞頻數(shù)為0，按道理這是異常值，但題目中沒特別注明，不知道他們老師有沒有要求剔除，就不剔除了，這也不是本題的重心。

第二問也很簡單，使用seaborn繪制多變量兩兩間散點(diǎn)圖明顯比matplotlib方便許多。

第三問，觀察一開始的dataframe,可以發(fā)現(xiàn)行業(yè)代碼后有數(shù)字，這并不是我們需要的，首先需要提取行業(yè)代碼中的第一個(gè)字母：

任務(wù)完成

標(biāo)簽：

簡單數(shù)據(jù)處理與可視化的評論 (共條)