散文網(wǎng) » 科技 »學(xué)習(xí) » 《利用Python進行數(shù)據(jù)分析·第2版》第8章數(shù)據(jù)規(guī)整：聚合、合并和重塑

《利用Python進行數(shù)據(jù)分析·第2版》第8章數(shù)據(jù)規(guī)整：聚合、合并和重塑

2018-05-05 00:16 作者:絕不原創(chuàng)的飛龍 0人讀過 | 我要投稿

在許多應(yīng)用中，數(shù)據(jù)可能分散在許多文件或數(shù)據(jù)庫中，存儲的形式也不利于分析。本章關(guān)注可以聚合、合并、重塑數(shù)據(jù)的方法。

首先，我會介紹pandas的層次化索引，它廣泛用于以上操作。然后，我深入介紹了一些特殊的數(shù)據(jù)操作。在第14章，你可以看到這些工具的多種應(yīng)用。

8.1 層次化索引

層次化索引（hierarchical indexing）是pandas的一項重要功能，它使你能在一個軸上擁有多個（兩個以上）索引級別。抽象點說，它使你能以低維度形式處理高維度數(shù)據(jù)。我們先來看一個簡單的例子：創(chuàng)建一個Series，并用一個由列表或數(shù)組組成的列表作為索引：

In [9]: data = pd.Series(np.random.randn(9),

...: index=[['a', 'a', 'a', 'b', 'b', 'c', 'c', 'd', 'd'],

...: [1, 2, 3, 1, 3, 1, 2, 2, 3]]) In [10]: data

Out[10]:

a 1 -0.204708

2 0.478943

3 -0.519439

b 1 -0.555730

3 1.965781

c 1 1.393406

2 0.092908

d 2 0.281746

3 0.769023

dtype: float64

看到的結(jié)果是經(jīng)過美化的帶有MultiIndex索引的Series的格式。索引之間的“間隔”表示“直接使用上面的標(biāo)簽”：

閱讀全文：http://t.cn/Ru3Cltv

標(biāo)簽：