最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

數(shù)據(jù)規(guī)約之分層抽樣

2023-06-03 21:59 作者:tevop2000  | 我要投稿

????分層抽樣其實也是隨機抽取,但是分層抽樣會根據(jù)一些特征進行分組,然后從這些分組中單獨再隨機抽樣。在很多場景下,隨機抽樣是有問題的。比如說身高和體重在性別上的差異,在對它們進行抽樣時必須考慮性別因素。我們可以粗略地說:女性的身高符合165為中心的正態(tài)分布,體重符合50公斤為中心的正態(tài)分布,而男性身高則可能是175為中心的正態(tài)分布,體重是60公斤中心的正態(tài)分布。我們考慮到性別這個特征對數(shù)據(jù)分布有顯著影響,所以對數(shù)據(jù)抽樣就需要考慮將性別特征納入到分層抽樣的范圍中了。

知識點:????

?在Pandas的DataFrame中,有一個方法cut:https://pandas.pydata.org/docs/reference/api/pandas.cut.html#pandas.cut?就是專門負責這種處理的。

Pandas cut()函數(shù)用于將數(shù)組中的元素分離成不同的bins。cut函數(shù)主要用于對標量數(shù)據(jù)進行統(tǒng)計分析。

語法:

cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates=raise,)


參數(shù):

x:要分選的輸入數(shù)組。必須是一維的。

bins:定義了用于分割的bin邊緣。

right :?(bool, default True ) 指示bins是否包括最右邊的邊。如果right == True(默認),那么bins [1, 2, 3, 4] 表示(1,2], (2,3], (3,4)。

labels :?(array or bool, optional) 為返回的bin指定標簽。必須與返回的分選區(qū)長度相同。如果是假的,只返回分選區(qū)的整數(shù)指標。

retbins :?(bool, default False) 是否返回bins。當bins是以標量形式提供時很有用。


用pandas的cut方法,實例如下:

????bins給出連續(xù)的數(shù)組區(qū)間,落在區(qū)間內(nèi)的值被歸為一類,例如:bins=[1, 50, 100]意味:1-50是一個區(qū)間,50-100是一個區(qū)間,79會落在(50, 100]的區(qū)間上,9會落到(1, 50]的區(qū)間上。labels會針對每一個區(qū)間起一個別名,例如:labels=['Lows', 'Highs']意味:(1, 50]的區(qū)間將被稱為Lows,(50, 100]的區(qū)間將被稱為Highs。

運行結(jié)果:


數(shù)據(jù)規(guī)約之分層抽樣的評論 (共 條)

分享到微博請遵守國家法律
宁强县| 兴业县| 南宁市| 平陆县| 碌曲县| 临泽县| 遂昌县| 右玉县| 浪卡子县| 五指山市| 丹阳市| 凤台县| 花莲县| 德阳市| 浦江县| 博湖县| 栾川县| 富川| 沈丘县| 乌拉特中旗| 清水县| 乌鲁木齐县| 卢氏县| 尼勒克县| 南宁市| 宜良县| 蛟河市| 潞西市| 宁安市| 阳西县| 沧州市| 宁津县| 长寿区| 黄大仙区| 舒城县| 乐昌市| 洛浦县| 杭锦旗| 卢湾区| 罗田县| 潮安县|