利用Python進(jìn)行數(shù)據(jù)分析(原書(shū)第2版)
鏈接:pan.baidu.com/s/1uGk3fzWVnL1GQ_XtsewRaw?pwd=4lla?
提取碼:4lla

閱讀本書(shū)可以獲得一份關(guān)于在Python下操作、處理、清洗、規(guī)整數(shù)據(jù)集的完整說(shuō)明。本書(shū)第二版針對(duì)Python 3.6進(jìn)行了更新,并增加實(shí)際案例向你展示如何高效地解決一系列數(shù)據(jù)分析問(wèn)題。你將在閱讀過(guò)程中學(xué)習(xí)到新版本的pandas、NumPy、IPython和Jupyter。
本書(shū)由Wes McKinney創(chuàng)作,他是Python pandas項(xiàng)目的創(chuàng)始人。本書(shū)是對(duì)Python數(shù)據(jù)科學(xué)工具的實(shí)操化、現(xiàn)代化的介紹,非常適合剛學(xué)Python的數(shù)據(jù)分析師或剛學(xué)數(shù)據(jù)科學(xué)以及科學(xué)計(jì)算的Python編程者。數(shù)據(jù)文件和相關(guān)的材料可以在GitHub上找到:
l 使用IPython shell和Jupyter notebook進(jìn)行探索性計(jì)算
l 學(xué)習(xí)NumPy(Numerical Python)的基礎(chǔ)和高級(jí)特性
l 入門(mén)pandas庫(kù)中的數(shù)據(jù)分析工具
l 使用靈活工具對(duì)數(shù)據(jù)進(jìn)行載入、清洗、變換、合并和重塑
l 使用matplotlib創(chuàng)建富含信息的可視化
l 將pandas的groupby功能應(yīng)用于對(duì)數(shù)據(jù)集的切片、分塊和匯總
l 分析并操作規(guī)則和不規(guī)則的時(shí)間序列數(shù)據(jù)
利用完整的、詳細(xì)的示例學(xué)習(xí)如何解決現(xiàn)實(shí)中數(shù)據(jù)分析問(wèn)題
內(nèi)容簡(jiǎn)介
本書(shū)由Python pandas項(xiàng)目創(chuàng)始人Wes McKinney親筆撰寫(xiě),詳細(xì)介紹利用Python進(jìn)行操作、處理、清洗和規(guī)整數(shù)據(jù)等方面的具體細(xì)節(jié)和基本要點(diǎn)。第2版針對(duì)Python 3.6進(jìn)行全面修訂和更新,涵蓋新版的pandas、NumPy、IPython和Jupyter,并增加大量實(shí)際案例,可以幫助你高效解決一系列數(shù)據(jù)分析問(wèn)題。
第2版中的主要更新包括:
?所有的代碼,包括把Python的教程更新到了Python 3.6版本(第1版中使用的是Python 2.7)
?更新了Python第三方發(fā)布版Anaconda和其他所需Python包的安裝指引
?更新pandas庫(kù)到2017年的新版
?新增一章,關(guān)于更多高級(jí)pandas工具和一些使用提示
?新增statsmodels和scikit-learn的簡(jiǎn)明使用介紹
作者簡(jiǎn)介
Wes McKinney 是流行的Python開(kāi)源數(shù)據(jù)分析庫(kù)pandas的創(chuàng)始人。他是一名活躍的演講者,也是Python數(shù)據(jù)社區(qū)和Apache軟件基金會(huì)的Python/C++開(kāi)源開(kāi)發(fā)者。目前他在紐約從事軟件架構(gòu)師工作
精彩書(shū)評(píng)
“本書(shū)已經(jīng)是Python數(shù)據(jù)生態(tài)中的一本經(jīng)典書(shū)籍,本次的新版本對(duì)Python 3.6到pandas新特性等關(guān)鍵領(lǐng)域都進(jìn)行了更新,增強(qiáng)了其獨(dú)特價(jià)值。通過(guò)解釋為什么以及如何使用Python數(shù)據(jù)工具,本書(shū)以新穎、創(chuàng)造性的方式幫助讀者高效地學(xué)習(xí)了這些工具。它是所有現(xiàn)代化數(shù)據(jù)密集型計(jì)算庫(kù)的重要組成部分“
——Fernando Perez,加州大學(xué)伯克利分校助理教授、IPython創(chuàng)始人、Jupyter項(xiàng)目聯(lián)合創(chuàng)始
目錄
前言1
第1章 準(zhǔn)備工作7
1.1 本書(shū)內(nèi)容7
1.1.1 什么類(lèi)型的數(shù)據(jù)7
1.2 為何利用Python進(jìn)行數(shù)據(jù)分析8
1.2.1 Python作為膠水8
1.2.2 解決“雙語(yǔ)言”難題8
1.2.3 為何不使用Python9
1.3 重要的Python庫(kù)9
1.3.1 NumPy9
1.3.2 pandas10
1.3.3 matplotlib11
1.3.4 IPython與Jupyter11
1.3.5 SciPy12
1.3.6 scikit-learn12
1.3.7 statsmodels13
1.4 安裝與設(shè)置13
1.4.1 Windows14
1.4.2 Apple(OS X和macOS)14
1.4.3 GNU/Linux14
1.4.4 安裝及更新Python包15
1.4.5 Python 2和Python 316
1.4.6 集成開(kāi)發(fā)環(huán)境和文本編輯器16
1.5 社區(qū)和會(huì)議17
1.6 快速瀏覽本書(shū)17
1.6.1 代碼示例18
1.6.2 示例數(shù)據(jù)18
1.6.3導(dǎo)入約定18
1.6.4術(shù)語(yǔ)19
第2章 Python語(yǔ)言基礎(chǔ)、IPython及Jupyter notebook20
2.1 Python解釋器21
2.2 IPython基礎(chǔ)22
2.2.1 運(yùn)行IPython命令行22
2.2.2 運(yùn)行 Jupyter notebook23
2.2.3 Tab補(bǔ)全25
2.2.4 內(nèi)省27
2.2.5 %run命令28
2.2.6 執(zhí)行剪貼板中的程序30
2.2.7 終端快捷鍵30
2.2.8 關(guān)于魔術(shù)命令31
2.2.9 matplotlib集成33
2.3 Python語(yǔ)言基礎(chǔ)34
2.3.1 語(yǔ)言語(yǔ)義34
2.3.2 標(biāo)量類(lèi)型42
2.3.3 控制流49
第3章 內(nèi)建數(shù)據(jù)結(jié)構(gòu)、函數(shù)及文件54
3.1 數(shù)據(jù)結(jié)構(gòu)和序列54
3.1.1 元組54
3.1.2 列表57
3.1.3 內(nèi)建序列函數(shù)61
3.1.4 字典64
3.1.5集合67
3.1.6 列表、集合和字典的推導(dǎo)式69
3.2 函數(shù)72
3.2.1 命名空間、作用域和本地函數(shù)72
3.2.2 返回多個(gè)值73
3.2.3 函數(shù)是對(duì)象74
3.2.4 匿名(Lambda)函數(shù)75
3.2.5 柯里化:部分參數(shù)應(yīng)用76
3.2.6 生成器77
3.2.7 錯(cuò)誤和異常處理79
3.3 文件與操作系統(tǒng)82
3.3.1 字節(jié)與Unicode文件85
3.4 本章小結(jié)86
第4章 NumPy基礎(chǔ):數(shù)組與向量化計(jì)算87
4.1 NumPy ndarray:多維數(shù)組對(duì)象89
4.1.1 生成ndarray90
4.1.2 ndarray的數(shù)據(jù)類(lèi)型92
4.1.3 NumPy數(shù)組算術(shù)94
4.1.4 基礎(chǔ)索引與切片95
4.1.5 布爾索引100
4.1.6 神奇索引103
4.1.7 數(shù)組轉(zhuǎn)置和換軸104
4.2 通用函數(shù):快速的逐元素?cái)?shù)組函數(shù)106
4.3 使用數(shù)組進(jìn)行面向數(shù)組編程109
4.3.1 將條件邏輯作為數(shù)組操作110
4.3.2 數(shù)學(xué)和統(tǒng)計(jì)方法111
4.3.3 布爾值數(shù)組的方法113
4.3.4 排序114
4.3.5 唯一值與其他集合邏輯115
4.4 使用數(shù)組進(jìn)行文件輸入和輸出115
4.5 線性代數(shù)116
4.6 偽隨機(jī)數(shù)生成118
4.7 示例:隨機(jī)漫步120
4.7.1 一次性模擬多次隨機(jī)漫步121
4.8 本章小結(jié)122
第5章 pandas入門(mén)123
5.1 pandas數(shù)據(jù)結(jié)構(gòu)介紹123
5.1.1 Series123
5.1.2 DataFrame128
5.1.3 索引對(duì)象134
5.2 基本功能135
......
查看全部↓
前言/序言
第2版新內(nèi)容
本書(shū)第1版出版于2012年,彼時(shí)基于Python的開(kāi)源數(shù)據(jù)分析庫(kù)(例如pandas)仍然是一個(gè)發(fā)展迅速的新事物。在本次更新、拓展的第2版中,我在一些章節(jié)內(nèi)進(jìn)行了修改,以解釋過(guò)去5年中發(fā)生的不兼容的變更、棄用和一些新特性。此外,我還添加了新內(nèi)容,用以介紹在2012年還不存在或者不成熟的工具。最后,我會(huì)避免把一些新興的或者不太可能走向成熟的開(kāi)源項(xiàng)目寫(xiě)入本書(shū)。我希望本版的讀者能夠發(fā)現(xiàn)本書(shū)內(nèi)容在2020年或者2021年仍然幾乎像在2017年一樣適用。