《利用Python進(jìn)行數(shù)據(jù)分析·第2版》第13章 Python建模庫(kù)介紹

本書(shū)中,我已經(jīng)介紹了Python數(shù)據(jù)分析的編程基礎(chǔ)。因?yàn)閿?shù)據(jù)分析師和科學(xué)家總是在數(shù)據(jù)規(guī)整和準(zhǔn)備上花費(fèi)大量時(shí)間,這本書(shū)的重點(diǎn)在于掌握這些功能。
開(kāi)發(fā)模型選用什么庫(kù)取決于應(yīng)用本身。許多統(tǒng)計(jì)問(wèn)題可以用簡(jiǎn)單方法解決,比如普通的最小二乘回歸,其它問(wèn)題可能需要復(fù)雜的機(jī)器學(xué)習(xí)方法。幸運(yùn)的是,Python已經(jīng)成為了運(yùn)用這些分析方法的語(yǔ)言之一,因此讀完此書(shū),你可以探索許多工具。
本章中,我會(huì)回顧一些pandas的特點(diǎn),在你膠著于pandas數(shù)據(jù)規(guī)整和模型擬合和評(píng)分時(shí),它們可能派上用場(chǎng)。然后我會(huì)簡(jiǎn)短介紹兩個(gè)流行的建模工具,statsmodels和scikit-learn。這二者每個(gè)都值得再寫(xiě)一本書(shū),我就不做全面的介紹,而是建議你學(xué)習(xí)兩個(gè)項(xiàng)目的線上文檔和其它基于Python的數(shù)據(jù)科學(xué)、統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的書(shū)籍。
13.1 pandas與模型代碼的接口
模型開(kāi)發(fā)的通常工作流是使用pandas進(jìn)行數(shù)據(jù)加載和清洗,然后切換到建模庫(kù)進(jìn)行建模。開(kāi)發(fā)模型的重要一環(huán)是機(jī)器學(xué)習(xí)中的“特征工程”。它可以描述從原始數(shù)據(jù)集中提取信息的任何數(shù)據(jù)轉(zhuǎn)換或分析,這些數(shù)據(jù)集可能在建模中有用。本書(shū)中學(xué)習(xí)的數(shù)據(jù)聚合和GroupBy工具常用于特征工程中。
優(yōu)秀的特征工程超出了本書(shū)的范圍,我會(huì)盡量直白地介紹一些用于數(shù)據(jù)操作和建模切換的方法。
閱讀全文:http://t.cn/Rudcqkx