數據分析從零開始實戰(zhàn) | 基礎篇(二)

上節(jié)補充
CSV
逗號分隔值(Comma-Separated Values,CSV,有時也稱為字符分隔值,因為分隔字符也可以不是逗號),其文件以純文本形式存儲表格數據(數字和文本)。
TSV
TSV 是Tab-separated values的縮寫,即制表符分隔值。
Python的csv模塊準確的講應該叫做dsv模塊,因為它實際上是支持范式的分隔符分隔值文件(DSV,delimiter-separated values)的。
? ?delimiter參數值默認為半角逗號,即默認將被處理文件視為CSV。
? ?當delimiter='\t'
時,被處理文件就是TSV。
零 寫在前面
上一篇文章中帶大家了解了數據分析基礎,配置好了數據分析的基本環(huán)境,以及利用pandas
模塊讀寫csv文件,在本文開頭,我也補充了csv與tsv的基本介紹與區(qū)別,意在更好的讓大家理解相關知識點,本文將帶大家繼續(xù)學習文件讀取。
一 基本知識概要
1.利用pandas讀寫tsv文件
2.利用pandas讀寫json文件
二 開始動手動腦
1.利用pandas讀寫tsv文件
在文章開頭我已經說明了csv與tsv的差別,相信部分看過第一篇文章的讀者應該知道怎么處理tsv文件了。
csv與tsv只是內容的分隔符不一樣,前者是,
,后者是\t
,python讀取這兩類文件都使用csv
模塊,也可以直接利用pandas
,這里我們講利用pandas讀取方式,使用的函數read_csv()
與to_csv()
在上一篇 文章中有詳細介紹,這里我直接上案例代碼。
(1) 讀取tsv文件代碼

運行結果

(2) 寫tsv文件代碼

運行結果

(3)號外加餐
利用csv模塊也可以直接讀取csv和tsv文件
csv.reader(csvfile, dialect='excel', **fmtparams)
csv.writer(csvfile, dialect='excel', **fmtparams)

2.利用pandas讀寫json文件
(1)利用pandas讀取json文件

運行結果

函數解析
read_json(path_or_buf,orient,encoding,numpy)
常見參數解析:
path_or_buf:字符串,表示文件路徑;
orient:指示預期的JSON字符串格式。可以to_json()使用相應的方向值生成兼容的JSON字符串。一組可能的方向是:

encoding:字符串,默認為'utf-8';
numpy:布爾值,默認為False,直接解碼為numpy數組。僅支持數字數據,但支持非數字列和索引標簽。另請注意,如果numpy = True,則每個術語的JSON順序必須相同。
(2)利用pandas寫入json文件

運行結果

函數解析
to_json(path_or_buf,orient,encoding,index)
前三個參數和read_json()里的一樣
index:False則選擇不寫入索引,默認為True。
end.
作者:老表

掃描下方二維碼報名參加課程
