最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

爾云間生信代碼|用R包實現(xiàn)SOMTE算法解決數(shù)據(jù)不平衡的問題

2022-07-27 16:56 作者:爾云間  | 我要投稿

科研有捷徑,輸入代碼,一鍵獲取科研成果!就是這么省事,來具體看下有多方便!

搜索http://985.so/a9kb查看全部代碼(目前共計50+持續(xù)新增中),也可以點擊右側(cè)【目錄】,可以看到更多有趣的代碼;真香提示:文末可以知道如何獲取代碼~?

在數(shù)據(jù)分析時,往往存在數(shù)據(jù)的不平衡性。比如我們有600多例良性腫瘤和1800例惡性腫瘤,很明顯陽性數(shù)據(jù)和陰性數(shù)據(jù)不等,這樣必然會使得分析結(jié)果產(chǎn)生偏倚。而SMOTE就是一種可以糾正這種不平衡數(shù)據(jù)偏倚的算法。

處理有不平衡數(shù)據(jù)的最簡單的方法是隨機復制,然而隨機復制往往會導致過度擬合,從而影響模型效果?,F(xiàn)在的做法一般有兩種:一是去除訓練數(shù)據(jù)集多數(shù)分類中的樣本數(shù),即欠抽樣;二是形成新的樣本從而平衡數(shù)據(jù),即過抽樣。而欠抽樣往往會導致樣本中一些隱含的信息丟失,所以過抽樣的算法應用地更為廣泛。

SMOTE(Synthetic minoritye over-sampling technique,SMOTE)是Chawla在2002年提出的過抽樣的算法,其核心思想是在一些位置相近的少數(shù)類樣本中插入新樣本來達到平衡樣本的目的,特點是算法是增加新的不存在的樣例,因此一定程度上避免了分類器過度擬合。

這里,主要介紹如何用R包實現(xiàn)SMOTE算法解決數(shù)據(jù)不平衡的問題:

1. 安裝載入DMwR

rm(list=ls())

install.packages(“DMwR”,dependencies=T)

library(DMwR)

2. 讀入數(shù)據(jù)

data=read.csv(“data.csv”,header=T)

3. SMOTE處理

在SMOTE算法中,會對多數(shù)樣本進行欠抽樣,少數(shù)樣本進行過抽樣。

newdata=SMOTE(formula,data,perc.over=,perc.under=)

formula:設定數(shù)據(jù)集中的自變量和分組變量

data:指定處理的數(shù)據(jù)集

perc.over,perc.under選項分別定義過抽樣和欠抽樣的次數(shù)。

4. 整理數(shù)據(jù)

使用table()查看陽性數(shù)據(jù)和陰性數(shù)據(jù)的比例。

table(“data$class”)

有興趣的讀者可嘗試以下代碼,可以看到樣本數(shù)目少的分組經(jīng)過SMOTE算法的處理,實現(xiàn)了樣例的增加。

以上就是小編的分享內(nèi)容,如果您苦于沒有思路不知道如何來入手生信分析,或者需要一些熱門生信手段的代碼,可以聯(lián)系小云~


爾云間生信代碼|用R包實現(xiàn)SOMTE算法解決數(shù)據(jù)不平衡的問題的評論 (共 條)

分享到微博請遵守國家法律
菏泽市| 含山县| 宝鸡市| 饶平县| 江油市| 海阳市| 元谋县| 遂平县| 石家庄市| 武夷山市| 泸溪县| 浑源县| 大新县| 桦甸市| 甘洛县| 滨海县| 彭泽县| 龙口市| 永年县| 静乐县| 佛冈县| 静海县| 额尔古纳市| 凭祥市| 乐昌市| 福海县| 亳州市| 阳西县| 将乐县| 安陆市| 荔波县| 拜城县| 望都县| 海盐县| 广平县| 开原市| 新沂市| 石林| 广宗县| 大石桥市| 长泰县|