散文網(wǎng) » 科技 »學(xué)習(xí) » 《利用Python進(jìn)行數(shù)據(jù)分析·第2版》第12章 pandas高級應(yīng)用

《利用Python進(jìn)行數(shù)據(jù)分析·第2版》第12章 pandas高級應(yīng)用

2018-05-06 00:04 作者:絕不原創(chuàng)的飛龍 0人讀過 | 我要投稿

前面的章節(jié)關(guān)注于不同類型的數(shù)據(jù)規(guī)整流程和NumPy、pandas與其它庫的特點。隨著時間的發(fā)展，pandas發(fā)展出了更多適合高級用戶的功能。本章就要深入學(xué)習(xí)pandas的高級功能。

12.1 分類數(shù)據(jù)

這一節(jié)介紹的是pandas的分類類型。我會向你展示通過使用它，提高性能和內(nèi)存的使用率。我還會介紹一些在統(tǒng)計和機器學(xué)習(xí)中使用分類數(shù)據(jù)的工具。

背景和目的

表中的一列通常會有重復(fù)的包含不同值的小集合的情況。我們已經(jīng)學(xué)過了unique和value_counts，它們可以從數(shù)組提取出不同的值，并分別計算頻率：

In [10]: import numpy as np; import pandas as pd

In [11]: values = pd.Series(['apple', 'orange', 'apple',

....: 'apple'] * 2)

In [12]: values

Out[12]:

0 apple

1 orange

2 apple

3 apple

4 apple

5 orange

6 apple

7 apple

dtype: object

In [13]: pd.unique(values)

Out[13]: array(['apple', 'orange'], dtype=object)

In [14]: pd.value_counts(values)

Out[14]:

apple 6

orange 2

dtype: int64

許多數(shù)據(jù)系統(tǒng)（數(shù)據(jù)倉庫、統(tǒng)計計算或其它應(yīng)用）都發(fā)展出了特定的表征重復(fù)值的方法，以進(jìn)行高效的存儲和計算。在數(shù)據(jù)倉庫中，最好的方法是使用所謂的包含不同值得維表(Dimension Table)，將主要的參數(shù)存儲為引用維表整數(shù)鍵：

閱讀全文：http://t.cn/RudtuUt

標(biāo)簽：