手機站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 科技 »學習 » 數(shù)據(jù)分析從零開始實戰(zhàn) | 基礎篇（一）

數(shù)據(jù)分析從零開始實戰(zhàn) | 基礎篇（一）

2020-01-20 15:56 作者:愛數(shù)據(jù)分析社區(qū) 0人讀過 | 我要投稿

一、知識點概要

1.創(chuàng)建一個虛擬python運行環(huán)境，專門用于本系列學習；
2.數(shù)據(jù)分析常用模塊pandas安裝
3.利用pandas模塊讀寫CSV格式文件

二、開始動手動腦

1.創(chuàng)建虛擬環(huán)境

我平時比較喜歡Pycharm，所以本系列打算完全用Pycharm做，Pycharm安裝可以直接到官網(wǎng)上下載，使用社區(qū)版即可。
（1）好的正式開始，打開Pycharm，點擊File->New Project,基本配置說明見下圖。
特別說明：python里面項目路徑里不要出現(xiàn)中文，同時項目名稱也不要出現(xiàn)中文，名稱盡量能夠概括項目內(nèi)容。

（2）創(chuàng)建成功后，我們會在對應目錄下面發(fā)現(xiàn)多了項目文件和虛擬環(huán)境文件。

2.數(shù)據(jù)分析常用模塊Pandas安裝

（1）零基礎教程，首先教大家怎么進入虛擬環(huán)境：進入到目錄I:\pyCoding\Frame\Data_analysis\Scripts(我的虛擬環(huán)境目錄)，按住shift+鼠標右鍵，打開powershell或者cmd(如果是powershell就先輸入cmd)，再輸入activate，進入虛擬環(huán)境，你會發(fā)現(xiàn)在路徑前面多了一個括號里面是你的虛擬環(huán)境名稱，表示你進入了虛擬環(huán)境。具體看下面：

不知道大家有沒有覺得很麻煩，我是覺得特別麻煩，每次進入虛擬環(huán)境都要先到指定文件路徑，然后再輸入指令，不符合程序員的風格?。‘斎挥泻唵畏椒?，具體操作看我之前寫的一篇文章里有詳細介紹，點擊這里查看，怎么快速進入虛擬環(huán)境。

（2）安裝pandas模塊
使用快捷方式進入虛擬環(huán)境后，直接pip指令安裝

安裝結果：

安裝過程

安裝過程大概1分鐘左右，完成后會顯示

很明顯看出，這個過程不僅安裝了pandas包，還安裝了numpy，pytz，six，python-dateutil這些附加包，后面我們也會用上。

3.利用pandas模塊讀寫CSV格式文件

（1）數(shù)據(jù)文件下載

本系列按書上來的數(shù)據(jù)都是這里面的，《數(shù)據(jù)分析實戰(zhàn)》書中源代碼也在這個代碼倉庫中，當然后面我自己也會建一個代碼倉庫，記錄自己的學習過程，大家可以先從這里下載好數(shù)據(jù)文件。

不會從github下載文件的，可以關注微信公眾號：簡說Python,在微信公眾號后臺回復：數(shù)據(jù)分析實戰(zhàn)。（我已經(jīng)下載整理好了，上傳到了百度云盤供大家下載）

（2）pandas基本介紹

pandas為Python編程語言提供高性能，是基于NumPy 的一種易于使用的數(shù)據(jù)結構和數(shù)據(jù)分析工具,pandas為我們提供了高性能的高級數(shù)據(jù)結構（比如：DataFrame）和高效地操作大型數(shù)據(jù)集所需的工具，同時提供了大量能使我們快速便捷地處理數(shù)據(jù)的函數(shù)和方法。

(3)利用pandas讀取CSV文件

讀取代碼：

運行結果：

函數(shù)解析：
read_csv(filepath_or_buffer,sep,header,names,skiprows,na_values,encoding,nrows)
按指定格式讀取csv文件。
常見參數(shù)解析：
1. filepath_or_buffer:字符串，表示文件路徑；

2. sep: 字符串，指定分割符，默認是’,’;

3. header:數(shù)值，指定第幾行作為列名(忽略注解行)，如果沒有指定列名，默認header=0; 如果指定了列名header=None;

4. names: 列表，指定列名，如果文件中不包含header的行，應該顯性表示header=None。

5. skiprows：列表，需要忽略的行數(shù)（從0開始），設置的行數(shù)將不會進行讀取。

6. na_values：列表，設置需要將值替換成NAN的值，pandas默認NAN為缺省，可以用來處理一些缺省、錯誤的數(shù)值。

7. encoding：字符串，用于unicode的文本編碼格式。例如，"utf-8"或"gbk"等文本的編碼格式。

8. nrows：需要讀取的行數(shù)。

(4)利用pandas寫入CSV文件

寫入代碼：

運行結果：

函數(shù)解析：

to_csv(path_or_buf,sep,na_rep,columns,header,index)

1. path_or_buf：字符串，文件名、文件具體、相對路徑、文件流等；

2. sep：字符串，文件分割符號；

3. na_rep：字符串，將NaN轉換為特定值；

4. columns：列表，選擇部分列寫入；

5. header：None,寫入時忽略列名；

6. index：False則選擇不寫入索引,默認為True。

end.

作者:老表的第一個一百萬.

掃描下方二維碼報名參加課程

標簽：