《利用Python進行數(shù)據(jù)分析·第2版》第10章 數(shù)據(jù)聚合與分組運算

對數(shù)據(jù)集進行分組并對各組應(yīng)用一個函數(shù)(無論是聚合還是轉(zhuǎn)換),通常是數(shù)據(jù)分析工作中的重要環(huán)節(jié)。在將數(shù)據(jù)集加載、融合、準(zhǔn)備好之后,通常就是計算分組統(tǒng)計或生成透視表。pandas提供了一個靈活高效的gruopby功能,它使你能以一種自然的方式對數(shù)據(jù)集進行切片、切塊、摘要等操作。
關(guān)系型數(shù)據(jù)庫和SQL(Structured Query Language,結(jié)構(gòu)化查詢語言)能夠如此流行的原因之一就是其能夠方便地對數(shù)據(jù)進行連接、過濾、轉(zhuǎn)換和聚合。但是,像SQL這樣的查詢語言所能執(zhí)行的分組運算的種類很有限。在本章中你將會看到,由于Python和pandas強大的表達能力,我們可以執(zhí)行復(fù)雜得多的分組運算(利用任何可以接受pandas對象或NumPy數(shù)組的函數(shù))。在本章中,你將會學(xué)到:
使用一個或多個鍵(形式可以是函數(shù)、數(shù)組或DataFrame列名)分割pandas對象。
計算分組的概述統(tǒng)計,比如數(shù)量、平均值或標(biāo)準(zhǔn)差,或是用戶定義的函數(shù)。
應(yīng)用組內(nèi)轉(zhuǎn)換或其他運算,如規(guī)格化、線性回歸、排名或選取子集等。
計算透視表或交叉表。
執(zhí)行分位數(shù)分析以及其它統(tǒng)計分組分析。
筆記:對時間序列數(shù)據(jù)的聚合(groupby的特殊用法之一)也稱作重采樣(resampling),本書將在第11章中單獨對其進行講解。
閱讀全文:http://t.cn/Ru3C1ik