《利用Python進行數(shù)據(jù)分析·第2版》第8章 數(shù)據(jù)規(guī)整:聚合、合并和重塑

在許多應(yīng)用中,數(shù)據(jù)可能分散在許多文件或數(shù)據(jù)庫中,存儲的形式也不利于分析。本章關(guān)注可以聚合、合并、重塑數(shù)據(jù)的方法。
首先,我會介紹pandas的層次化索引,它廣泛用于以上操作。然后,我深入介紹了一些特殊的數(shù)據(jù)操作。在第14章,你可以看到這些工具的多種應(yīng)用。
8.1 層次化索引
層次化索引(hierarchical indexing)是pandas的一項重要功能,它使你能在一個軸上擁有多個(兩個以上)索引級別。抽象點說,它使你能以低維度形式處理高維度數(shù)據(jù)。我們先來看一個簡單的例子:創(chuàng)建一個Series,并用一個由列表或數(shù)組組成的列表作為索引:
In [9]: data = pd.Series(np.random.randn(9),
...: index=[['a', 'a', 'a', 'b', 'b', 'c', 'c', 'd', 'd'],
...: [1, 2, 3, 1, 3, 1, 2, 2, 3]])
In [10]: data
Out[10]:
a 1 -0.204708
2 0.478943
3 -0.519439
b 1 -0.555730
3 1.965781
c 1 1.393406
2 0.092908
d 2 0.281746
3 0.769023
dtype: float64
看到的結(jié)果是經(jīng)過美化的帶有MultiIndex索引的Series的格式。索引之間的“間隔”表示“直接使用上面的標(biāo)簽”:
閱讀全文:http://t.cn/Ru3Cltv