數(shù)據(jù)規(guī)約之簡(jiǎn)單隨機(jī)抽樣
????隨機(jī)抽樣,是統(tǒng)計(jì)學(xué)中常用的一種方法,它可以幫助我們從大量的數(shù)據(jù)中快速地構(gòu)建出一組數(shù)據(jù)分析模型。在 Pandas 中,如果想要對(duì)數(shù)據(jù)集進(jìn)行隨機(jī)抽樣,需要使用 sample() 函數(shù)。
知識(shí)點(diǎn):
Pandas中的sample()函數(shù)可以從數(shù)據(jù)集中隨機(jī)抽取行或列,可以用于數(shù)據(jù)集的隨機(jī)采樣、創(chuàng)建數(shù)據(jù)集的隨機(jī)子集、模型評(píng)估等場(chǎng)景。下面我們來(lái)詳細(xì)介紹一下sample()函數(shù)的用法。
sample() 函數(shù)的語(yǔ)法格式如下:
參數(shù)說(shuō)明:
n: 抽取的行數(shù)或列數(shù)。
frac: 抽取的行數(shù)或列數(shù)相對(duì)于數(shù)據(jù)集的比例,范圍在0到1之間。
replace: 是否允許重復(fù)抽取,默認(rèn)為False。
weights: 可以為每個(gè)行或列設(shè)置權(quán)重,以便更有可能抽取它們。
random_state: 隨機(jī)數(shù)種子,以確保每次抽樣結(jié)果的一致性。
案例如下:
在這個(gè)例子中,我們首先使用p字典構(gòu)造一個(gè)數(shù)據(jù)集。
然后,我們使用sample()函數(shù)從數(shù)據(jù)集中隨機(jī)抽取一些行或列,并將結(jié)果存儲(chǔ)在sample_df變量中。
在第一個(gè)例子中,我們抽取了2行數(shù)據(jù);
在第二個(gè)例子中,我們抽取了20%的行;
在第三個(gè)例子中,我們?cè)试S重復(fù)抽取;
在第四個(gè)例子中,我們?yōu)槊總€(gè)行設(shè)置了不同的權(quán)重;
在第五個(gè)例子中,我們?cè)O(shè)置了隨機(jī)數(shù)種子,以確保每次抽樣結(jié)果的一致性。
代碼如下:
輸出結(jié)果如下:

