《利用Python進行數(shù)據(jù)分析·第2版》第14章 數(shù)據(jù)分析案例

本書正文的最后一章,我們來看一些真實世界的數(shù)據(jù)集。對于每個數(shù)據(jù)集,我們會用之前介紹的方法,從原始數(shù)據(jù)中提取有意義的內(nèi)容。展示的方法適用于其它數(shù)據(jù)集,也包括你的。本章包含了一些各種各樣的案例數(shù)據(jù)集,可以用來練習(xí)。
案例數(shù)據(jù)集可以在Github倉庫找到,見第一章。
14.1 來自Bitly的USA.gov數(shù)據(jù)
2011年,URL縮短服務(wù)Bitly跟美國政府網(wǎng)站USA.gov合作,提供了一份從生成.gov或.mil短鏈接的用戶那里收集來的匿名數(shù)據(jù)。在2011年,除實時數(shù)據(jù)之外,還可以下載文本文件形式的每小時快照。寫作此書時(2017年),這項服務(wù)已經(jīng)關(guān)閉,但我們保存一份數(shù)據(jù)用于本書的案例。
以每小時快照為例,文件中各行的格式為JSON(即JavaScript Object Notation,這是一種常用的Web數(shù)據(jù)格式)。例如,如果我們只讀取某個文件中的第一行,那么所看到的結(jié)果應(yīng)該是下面這樣:
In [5]: path = 'datasets/bitly_usagov/example.txt'
In [6]: open(path).readline()
Out[6]: '{ "a": "Mozilla\\/5.0 (Windows NT 6.1; WOW64) AppleWebKit\\/535.11
(KHTML, like Gecko) Chrome\\/17.0.963.78 Safari\\/535.11", "c": "US", "nk": 1,
"tz": "America\\/New_York", "gr": "MA", "g": "A6qOVH", "h": "wfLQtf", "l":
"orofrog", "al": "en-US,en;q=0.8", "hh": "1.usa.gov", "r":
"http:\\/\\/www.facebook.com\\/l\\/7AQEFzjSi\\/1.usa.gov\\/wfLQtf", "u":
"http:\\/\\/www.ncbi.nlm.nih.gov\\/pubmed\\/22415991", "t": 1331923247, "hc":
1331822918, "cy": "Danvers", "ll": [ 42.576698, -70.954903 ] }\n'
閱讀全文:http://t.cn/Rudc6hq