Data Science in Python Data Prep EDA
學(xué)習(xí)|語言:英語|時長:180講(8小時41米)|大?。?.17 GB
了解如何使用Python和Pandas為數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)收集、清理、探索和分析數(shù)據(jù)
你將學(xué)到什么
在應(yīng)用機(jī)器學(xué)習(xí)算法之前,掌握Python數(shù)據(jù)科學(xué)的核心構(gòu)建塊
通過明確定義分析所需的目標(biāo)、技術(shù)和數(shù)據(jù)源,確定數(shù)據(jù)科學(xué)項(xiàng)目的范圍
使用Pandas導(dǎo)入和導(dǎo)出平面文件、Excel工作簿和SQL數(shù)據(jù)庫表
通過轉(zhuǎn)換數(shù)據(jù)類型、處理常見數(shù)據(jù)問題和創(chuàng)建新列進(jìn)行分析來清理數(shù)據(jù)
通過對數(shù)據(jù)進(jìn)行排序、篩選、分組和可視化來執(zhí)行探索性數(shù)據(jù)分析(EDA),以發(fā)現(xiàn)模式和見解
通過連接表、聚合行和應(yīng)用特征工程技術(shù)為機(jī)器學(xué)習(xí)模型準(zhǔn)備數(shù)據(jù)
描述
旨在幫助您掌握Python在數(shù)據(jù)科學(xué)中的核心構(gòu)建塊。首先介紹數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域,討論有監(jiān)督和無監(jiān)督學(xué)習(xí)之間的區(qū)別,以及回顧我們將在整個課程中使用的數(shù)據(jù)科學(xué)工作流程;
工作流的EDA步驟。您將學(xué)習(xí)如何確定數(shù)據(jù)科學(xué)項(xiàng)目的范圍,使用Pandas從多個來源收集數(shù)據(jù)并處理常見的數(shù)據(jù)清理問題,以及使用過濾、分組和可視化數(shù)據(jù)等技術(shù)進(jìn)行探索性數(shù)據(jù)分析。



最后但并非最不重要的是,您將通過連接多個表、調(diào)整行粒度以及設(shè)計(jì)有用的字段和功能來練習(xí)為機(jī)器學(xué)習(xí)模型準(zhǔn)備數(shù)據(jù)。
概述:數(shù)據(jù)科學(xué)簡介介紹數(shù)據(jù)科學(xué)領(lǐng)域,回顧基本技能,并介紹數(shù)據(jù)科學(xué)工作流程的每個階段界定項(xiàng)目范圍回顧數(shù)據(jù)科學(xué)項(xiàng)目的界定過程,包括集思廣益解決問題、選擇技術(shù)和設(shè)定明確目標(biāo)在Python中將DataRead平面文件收集到Pandas DataFrame中,并審查通用數(shù)據(jù)源&;格式,包括Excel電子表格和SQL數(shù)據(jù)庫清理數(shù)據(jù)識別和轉(zhuǎn)換數(shù)據(jù)類型,查找和修復(fù)常見的數(shù)據(jù)問題,如缺失值、重復(fù)值和異常值,并為分析創(chuàng)建新列探索性數(shù)據(jù)分析探索數(shù)據(jù)集,通過對數(shù)據(jù)進(jìn)行排序、篩選和分組來發(fā)現(xiàn)見解,然后使用散點(diǎn)圖等常見圖表類型將其可視化;探索和可視化數(shù)據(jù)來測試您的技能準(zhǔn)備建模通過創(chuàng)建數(shù)字、非空表和設(shè)計(jì)新功能來構(gòu)建數(shù)據(jù),以便為機(jī)器學(xué)習(xí)模型做好準(zhǔn)備;
鏈接:https://pan.baidu.com/s/1oqP9NE97WmguDBWAGN4QIw?
提取碼:1945?
--來自百度網(wǎng)盤超級會員V6的分享