數(shù)據(jù)分析從零開始實戰(zhàn) | 基礎篇(一)

一、知識點概要
1.創(chuàng)建一個虛擬python運行環(huán)境,專門用于本系列學習;
2.數(shù)據(jù)分析常用模塊pandas安裝
3.利用pandas模塊讀寫CSV格式文件
二、開始動手動腦
1.創(chuàng)建虛擬環(huán)境
我平時比較喜歡Pycharm,所以本系列打算完全用Pycharm做,Pycharm安裝可以直接到官網(wǎng)上下載,使用社區(qū)版即可。
(1)好的正式開始,打開Pycharm,點擊File->New Project,基本配置說明見下圖。
特別說明:python里面項目路徑里不要出現(xiàn)中文,同時項目名稱也不要出現(xiàn)中文,名稱盡量能夠概括項目內(nèi)容。

(2)創(chuàng)建成功后,我們會在對應目錄下面發(fā)現(xiàn)多了項目文件和虛擬環(huán)境文件。
2.數(shù)據(jù)分析常用模塊Pandas安裝
(1)零基礎教程,首先教大家怎么進入虛擬環(huán)境:進入到目錄I:\pyCoding\Frame\Data_analysis\Scripts(我的虛擬環(huán)境目錄),按住shift+鼠標右鍵,打開powershell或者cmd(如果是powershell就先輸入cmd),再輸入activate,進入虛擬環(huán)境,你會發(fā)現(xiàn)在路徑前面多了一個括號里面是你的虛擬環(huán)境名稱,表示你進入了虛擬環(huán)境。具體看下面:

不知道大家有沒有覺得很麻煩,我是覺得特別麻煩,每次進入虛擬環(huán)境都要先到指定文件路徑,然后再輸入指令,不符合程序員的風格?。‘斎挥泻唵畏椒?,具體操作看我之前寫的一篇文章里有詳細介紹,點擊這里查看,怎么快速進入虛擬環(huán)境。
(2)安裝pandas模塊
使用快捷方式進入虛擬環(huán)境后,直接pip
指令安裝

安裝結果:

安裝過程
安裝過程大概1分鐘左右,完成后會顯示

很明顯看出,這個過程不僅安裝了pandas包,還安裝了numpy,pytz,six,python-dateutil這些附加包,后面我們也會用上。
3.利用pandas模塊讀寫CSV格式文件
(1)數(shù)據(jù)文件下載
本系列按書上來的數(shù)據(jù)都是這里面的,《數(shù)據(jù)分析實戰(zhàn)》書中源代碼也在這個代碼倉庫中,當然后面我自己也會建一個代碼倉庫,記錄自己的學習過程,大家可以先從這里下載好數(shù)據(jù)文件。
不會從github下載文件的,可以關注微信公眾號:簡說Python,在微信公眾號后臺回復:數(shù)據(jù)分析實戰(zhàn)。(我已經(jīng)下載整理好了,上傳到了百度云盤供大家下載)
(2)pandas基本介紹
pandas
為Python編程語言提供高性能,是基于NumPy 的一種易于使用的數(shù)據(jù)結構和數(shù)據(jù)分析工具,pandas
為我們提供了高性能的高級數(shù)據(jù)結構(比如:DataFrame)和高效地操作大型數(shù)據(jù)集所需的工具,同時提供了大量能使我們快速便捷地處理數(shù)據(jù)的函數(shù)和方法。
(3)利用pandas讀取CSV文件
讀取代碼:

運行結果:

函數(shù)解析:
read_csv(filepath_or_buffer,sep,header,names,skiprows,na_values,encoding,nrows)
按指定格式讀取csv文件。
常見參數(shù)解析:
1. filepath_or_buffer:字符串,表示文件路徑;
2. sep: 字符串,指定分割符,默認是’,’;
3. header:數(shù)值, 指定第幾行作為列名(忽略注解行),如果沒有指定列名,默認header=0; 如果指定了列名header=None;
4. names: 列表,指定列名,如果文件中不包含header的行,應該顯性表示header=None。
5. skiprows:列表,需要忽略的行數(shù)(從0開始),設置的行數(shù)將不會進行讀取。
6. na_values:列表,設置需要將值替換成NAN的值,pandas默認NAN為缺省,可以用來處理一些缺省、錯誤的數(shù)值。
7. encoding:字符串,用于unicode的文本編碼格式。例如,"utf-8"或"gbk"等文本的編碼格式。
8. nrows:需要讀取的行數(shù)。
(4)利用pandas寫入CSV文件
寫入代碼:

運行結果:

函數(shù)解析:
to_csv(path_or_buf,sep,na_rep,columns,header,index)
1. path_or_buf:字符串,文件名、文件具體、相對路徑、文件流等;
2. sep:字符串,文件分割符號;
3. na_rep:字符串,將NaN轉換為特定值;
4. columns:列表,選擇部分列寫入;
5. header:None,寫入時忽略列名;
6. index:False則選擇不寫入索引,默認為True。
end.
作者:老表的第一個一百萬.

掃描下方二維碼報名參加課程
