散文網(wǎng) » 科技 »學(xué)習(xí) » 數(shù)據(jù)規(guī)約之簡(jiǎn)單隨機(jī)抽樣

數(shù)據(jù)規(guī)約之簡(jiǎn)單隨機(jī)抽樣

2023-05-29 13:13 作者:tevop2000 0人讀過(guò) | 我要投稿

????隨機(jī)抽樣，是統(tǒng)計(jì)學(xué)中常用的一種方法，它可以幫助我們從大量的數(shù)據(jù)中快速地構(gòu)建出一組數(shù)據(jù)分析模型。在 Pandas 中，如果想要對(duì)數(shù)據(jù)集進(jìn)行隨機(jī)抽樣，需要使用 sample() 函數(shù)。

知識(shí)點(diǎn)：

Pandas中的sample()函數(shù)可以從數(shù)據(jù)集中隨機(jī)抽取行或列，可以用于數(shù)據(jù)集的隨機(jī)采樣、創(chuàng)建數(shù)據(jù)集的隨機(jī)子集、模型評(píng)估等場(chǎng)景。下面我們來(lái)詳細(xì)介紹一下sample()函數(shù)的用法。

sample() 函數(shù)的語(yǔ)法格式如下：

參數(shù)說(shuō)明：

n: 抽取的行數(shù)或列數(shù)。

frac: 抽取的行數(shù)或列數(shù)相對(duì)于數(shù)據(jù)集的比例，范圍在0到1之間。

replace: 是否允許重復(fù)抽取，默認(rèn)為False。

weights: 可以為每個(gè)行或列設(shè)置權(quán)重，以便更有可能抽取它們。

random_state: 隨機(jī)數(shù)種子，以確保每次抽樣結(jié)果的一致性。

案例如下：

在這個(gè)例子中，我們首先使用p字典構(gòu)造一個(gè)數(shù)據(jù)集。

然后，我們使用sample()函數(shù)從數(shù)據(jù)集中隨機(jī)抽取一些行或列，并將結(jié)果存儲(chǔ)在sample_df變量中。

在第一個(gè)例子中，我們抽取了2行數(shù)據(jù)；
在第二個(gè)例子中，我們抽取了20%的行；
在第三個(gè)例子中，我們?cè)试S重復(fù)抽取；
在第四個(gè)例子中，我們?yōu)槊總€(gè)行設(shè)置了不同的權(quán)重；
在第五個(gè)例子中，我們?cè)O(shè)置了隨機(jī)數(shù)種子，以確保每次抽樣結(jié)果的一致性。

代碼如下：

輸出結(jié)果如下：