pandas.DataFrame.sample隨機(jī)抽樣-四兩撥千斤
2021-03-20 09:51 作者:python風(fēng)控模型 | 我要投稿

在大數(shù)據(jù)時代,我們建模數(shù)據(jù)量可能達(dá)到千萬級甚至TB。大數(shù)據(jù)在給投資者介紹時很必要,容易得到融資。但對于數(shù)據(jù)科學(xué)家來說,有時候我們只需要數(shù)據(jù)集中的一部分,并不需要全部的數(shù)據(jù)。這個時候我們就要對數(shù)據(jù)集進(jìn)行隨機(jī)的抽樣。如果用全量數(shù)據(jù)建?;驍?shù)據(jù)分析,成本太高,需要高性能服務(wù)器存儲數(shù)據(jù)。這對中小公司來說不現(xiàn)實。
最經(jīng)典案例是二戰(zhàn)中德軍坦克問題。在第二次世界大戰(zhàn)期間,西方盟國不懈地努力確定德國的生產(chǎn)規(guī)模,并以兩種主要方式進(jìn)行處理:常規(guī)情報收集和統(tǒng)計估計。

英國人用統(tǒng)計學(xué)方法估計德國坦克數(shù)量和德國真實坦克數(shù)量非常接近,遠(yuǎn)比情報部門數(shù)據(jù)準(zhǔn)確。

python的pandas中自帶有抽樣的方法。這是相關(guān)官網(wǎng)文檔介紹:
pandas.DataFrame.sample - pandas 1.2.3 documentationpandas.pydata.org

輸入?yún)?shù)說明


歡迎各位學(xué)習(xí)更多數(shù)據(jù)分析知識(博主錄制)

標(biāo)簽: