pandas GroupBy實(shí)例:《財(cái)富》1000強(qiáng)公司、流行早餐谷物表
2023-07-31 12:59 作者:矢來(lái)美羽MIUYARAI | 我要投稿
《財(cái)富》1000強(qiáng)公司:fortune1000.csv
鏈接:https://pan.baidu.com/s/1dmb0Km-0OtMwgLI0sD3XCw?pwd=1234?
數(shù)據(jù)觀察:


1.?GroupBy對(duì)象的創(chuàng)建
21個(gè)sector分別是什么,每個(gè)sector有多少家公司?
舊方法:

提取"Retailing"的所有行:過(guò)濾

創(chuàng)建GroupBy的方法:

查看該GroupBy對(duì)象的size:(sector名對(duì)應(yīng)value數(shù)量)

查看每個(gè)sector中具體的數(shù)值:(得到一個(gè)字典)

2.?GroupBy的行提取
每組sector的第一行:first()
每組sector的最后一行:last()
每組sector的第(x+1)行:nth(x)
每組sector的前x行:head(x)
每組sector的后x行:tail(x)
指定sector組的所有行:get_group()

3.?GroupBy的聚合操作
聚合sector求和:.sum()


求均值:

最大/最小值:篩出每個(gè)領(lǐng)域利潤(rùn)的最高值(輸出Series)
不同列采用不同聚合類(lèi)型:.agg()

4.?GroupBy的自定義操作
例如nlargest是提取最大值的幾行:
使用apply()方法,則可以使用自定義操作。比如分組nlargest:篩出每個(gè)領(lǐng)域利潤(rùn)最高的公司,而不僅僅是最高值(對(duì)比前面的最大/最小值輸出Series,這邊輸出DataFrame)

5. 多級(jí)GroupBy
單級(jí):
多級(jí):

groupby為默認(rèn)索引:

聚合操作后,為MultiIndex多級(jí)索引:

標(biāo)簽: