《利用Python進(jìn)行數(shù)據(jù)分析·第2版》第12章 pandas高級應(yīng)用

前面的章節(jié)關(guān)注于不同類型的數(shù)據(jù)規(guī)整流程和NumPy、pandas與其它庫的特點。隨著時間的發(fā)展,pandas發(fā)展出了更多適合高級用戶的功能。本章就要深入學(xué)習(xí)pandas的高級功能。
12.1 分類數(shù)據(jù)
這一節(jié)介紹的是pandas的分類類型。我會向你展示通過使用它,提高性能和內(nèi)存的使用率。我還會介紹一些在統(tǒng)計和機器學(xué)習(xí)中使用分類數(shù)據(jù)的工具。
背景和目的
表中的一列通常會有重復(fù)的包含不同值的小集合的情況。我們已經(jīng)學(xué)過了unique和value_counts,它們可以從數(shù)組提取出不同的值,并分別計算頻率:
In [10]: import numpy as np; import pandas as pd
In [11]: values = pd.Series(['apple', 'orange', 'apple',
....: 'apple'] * 2)
In [12]: values
Out[12]:
0 apple
1 orange
2 apple
3 apple
4 apple
5 orange
6 apple
7 apple
dtype: object
In [13]: pd.unique(values)
Out[13]: array(['apple', 'orange'], dtype=object)
In [14]: pd.value_counts(values)
Out[14]:
apple 6
orange 2
dtype: int64
許多數(shù)據(jù)系統(tǒng)(數(shù)據(jù)倉庫、統(tǒng)計計算或其它應(yīng)用)都發(fā)展出了特定的表征重復(fù)值的方法,以進(jìn)行高效的存儲和計算。在數(shù)據(jù)倉庫中,最好的方法是使用所謂的包含不同值得維表(Dimension Table),將主要的參數(shù)存儲為引用維表整數(shù)鍵:
閱讀全文:http://t.cn/RudtuUt
《利用Python進(jìn)行數(shù)據(jù)分析·第2版》第12章 pandas高級應(yīng)用的評論 (共 條)
