散文網(wǎng) » 科技 »學(xué)習(xí) » pandas.DataFrame.sample隨機(jī)抽樣-四兩撥千斤

pandas.DataFrame.sample隨機(jī)抽樣-四兩撥千斤

2021-03-20 09:51 作者:python風(fēng)控模型 0人讀過 | 我要投稿

在大數(shù)據(jù)時代，我們建模數(shù)據(jù)量可能達(dá)到千萬級甚至TB。大數(shù)據(jù)在給投資者介紹時很必要，容易得到融資。但對于數(shù)據(jù)科學(xué)家來說，有時候我們只需要數(shù)據(jù)集中的一部分，并不需要全部的數(shù)據(jù)。這個時候我們就要對數(shù)據(jù)集進(jìn)行隨機(jī)的抽樣。如果用全量數(shù)據(jù)建?；驍?shù)據(jù)分析，成本太高，需要高性能服務(wù)器存儲數(shù)據(jù)。這對中小公司來說不現(xiàn)實。

最經(jīng)典案例是二戰(zhàn)中德軍坦克問題。在第二次世界大戰(zhàn)期間，西方盟國不懈地努力確定德國的生產(chǎn)規(guī)模，并以兩種主要方式進(jìn)行處理：常規(guī)情報收集和統(tǒng)計估計。