最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

R語言組lasso改進(jìn)邏輯回歸變量選擇分析高血壓、易感因素、2型糖尿病和LDL可視化

2023-06-29 23:25 作者:拓端tecdat  | 我要投稿

全文鏈接:https://tecdat.cn/?p=33015

原文出處:拓端數(shù)據(jù)部落公眾號(hào)

本文用邏輯回歸和lasso算法醫(yī)學(xué)上的疾病的相關(guān)因素,幫助客戶確定哪種模型可用于某種疾病的相關(guān)因素分析。3個(gè)模型:Logistic模型、成組Lasso Logistic模型、由組Lasso選出協(xié)變量的Logistic模型,有3個(gè)易感因素、高血壓、2型糖尿病和LDL,得出誤差率和變量數(shù)目的圖。

為了比較不同調(diào)整參數(shù)篩選解釋變量的效果, 建立如下三個(gè)包含不同協(xié)變量的模型并通過十折交叉驗(yàn)證計(jì)算判斷誤差:

1)模型 I:包含所有待選協(xié)變量的 Logistic 模型;
2)模型 II:成組 Lasso Logistic 模型;
3)模型 III:僅包含由成組 Lasso 選出協(xié)變量的 Logistic 模型

查看數(shù)據(jù)變量

讀取數(shù)據(jù)

data=read.spss("test1_3.sav", to.data.frame=T)head(data)

1)模型I:包含所有待選協(xié)變量的Logistic模型;

包含所有待選協(xié)變量的Logistic模型是一種統(tǒng)計(jì)模型,用于預(yù)測(cè)二分類結(jié)果的概率。協(xié)變量是指與待預(yù)測(cè)結(jié)果相關(guān)的特征或變量。在這種模型中,使用了所有待選的協(xié)變量作為自變量,并基于這些自變量與待預(yù)測(cè)結(jié)果之間的關(guān)系,建立了一個(gè)數(shù)學(xué)模型。

具體而言,模型使用logistic函數(shù)(也稱為sigmoid函數(shù))來建立自變量和待預(yù)測(cè)結(jié)果之間的關(guān)系。logistic函數(shù)將自變量的線性組合映射到一個(gè)0到1之間的概率值,表示該樣本屬于某個(gè)特定類別的概率。

在構(gòu)建模型時(shí),需要確定每個(gè)協(xié)變量的系數(shù)(也稱為權(quán)重),以及和結(jié)果之間的關(guān)系。通常使用最大似然估計(jì)方法來確定這些系數(shù),以最大化模型對(duì)觀測(cè)數(shù)據(jù)的擬合度。

該模型的目標(biāo)是通過對(duì)待選協(xié)變量的使用,最大化對(duì)結(jié)果的預(yù)測(cè)準(zhǔn)確性和可解釋性。然而,選擇合適的協(xié)變量需要基于領(lǐng)域知識(shí)、統(tǒng)計(jì)分析和模型評(píng)估等綜合考慮。

需要注意的是,選擇所有待選協(xié)變量并不意味著所有的協(xié)變量都是對(duì)結(jié)果有幫助的,也可能存在一些多余或不相關(guān)的協(xié)變量。因此,在模型構(gòu)建過程中,還需要進(jìn)行變量篩選、特征工程和模型評(píng)估等步驟來確保選擇的協(xié)變量和模型的可靠性和精確性。

split <- sample(1:nrow(data),nrow(data)*(2/3)) ? ?data$HP=as.numeric(data$HP!=0)HP ~.,family=binomial(link='logit'

混淆矩陣

混淆矩陣是用于評(píng)估分類模型性能的一種表格形式。它是由預(yù)測(cè)結(jié)果和實(shí)際結(jié)果組成的二維矩陣,其中行表示實(shí)際類別,列表示預(yù)測(cè)類別。每個(gè)單元格的值代表了在特定類別下的樣本數(shù)量。

混淆矩陣的四個(gè)主要單元格包括:

  1. 真正例(True Positive, TP):預(yù)測(cè)為正例且實(shí)際也為正例的樣本數(shù)量。

  2. 假正例(False Positive, FP):預(yù)測(cè)為正例但實(shí)際為負(fù)例的樣本數(shù)量。

  3. 假反例(False Negative, FN):預(yù)測(cè)為負(fù)例但實(shí)際為正例的樣本數(shù)量。

  4. 真反例(True Negative, TN):預(yù)測(cè)為負(fù)例且實(shí)際也為負(fù)例的樣本數(shù)量。

通過混淆矩陣,我們可以計(jì)算出一些常用的分類模型評(píng)估指標(biāo),例如準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)和 F1 值等。這些指標(biāo)可以幫助我們了解模型在不同類別上的表現(xiàn),并判斷其分類能力的好壞。

res <- data.frame(real,predict =ifelse(predict>0.5,'good','bad')) ? ? ?table(res)

auc

AUC (Area Under the Curve) 是一種常用的評(píng)估二分類模型性能的指標(biāo)。它表示模型在不同閾值下的真陽性率(True Positive Rate,也稱為召回率)與假陽性率(False Positive Rate)之間的關(guān)系。

AUC的取值范圍在0到1之間,其中0.5表示模型的預(yù)測(cè)性能與隨機(jī)猜測(cè)相當(dāng),而1表示模型完美地預(yù)測(cè)了正例和負(fù)例。

AUC的計(jì)算方法是首先將模型的預(yù)測(cè)結(jié)果按照概率從高到低進(jìn)行排序,然后根據(jù)不同的閾值,計(jì)算出對(duì)應(yīng)的真陽性率和假陽性率。最后,通過對(duì)這些真陽性率和假陽性率的數(shù)值進(jìn)行積分,得到AUC的值。

AUC的優(yōu)點(diǎn)是不受分類閾值的影響,能夠全面評(píng)估模型的性能。它適用于不平衡數(shù)據(jù)集和多類別問題,并且對(duì)于數(shù)據(jù)集中存在噪聲和異常值的情況也比較魯棒。因此,AUC是評(píng)估和比較分類模型性能的重要指標(biāo)之一。

performance( prediction( predict, real ),? "auc" )@y.values[[1]]## [1] 0.7642045

2)模型II:組Lasso Logistic模型;

組Lasso Logistic模型是一種用于分類問題的機(jī)器學(xué)習(xí)模型。它結(jié)合了Lasso回歸和邏輯回歸的方法。Lasso回歸是一種用于特征選擇和正則化的線性回歸方法,它傾向于將參數(shù)稀疏化,即將一些參數(shù)設(shè)為零,從而獲得更簡單的模型。邏輯回歸則是一種常用的分類算法,適用于二分類或多分類問題。

組Lasso Logistic模型通過結(jié)合Lasso回歸和邏輯回歸的思想,旨在同時(shí)實(shí)現(xiàn)特征選擇和分類任務(wù)。它在建模過程中考慮了特征選擇的問題,從而可以處理高維數(shù)據(jù)集中的冗余特征,并且能夠在給定的特征集中選擇出對(duì)分類任務(wù)最有用的特征。通過對(duì)損失函數(shù)進(jìn)行優(yōu)化,模型可以找到最佳的參數(shù)設(shè)置,以最大程度地減小預(yù)測(cè)錯(cuò)誤,并增強(qiáng)模型的泛化能力。

組Lasso Logistic模型在許多實(shí)際應(yīng)用中都表現(xiàn)出很好的性能。它在生物信息學(xué)、文本分類、圖像識(shí)別和金融預(yù)測(cè)等領(lǐng)域都有廣泛的應(yīng)用。通過結(jié)合Lasso回歸的特征選擇能力和邏輯回歸的分類能力,組Lasso Logistic模型能夠提供更準(zhǔn)確和可解釋的分類結(jié)果。

##建立lasso模型 ?cv.lasso <- cv.ata_train$HP[1:nrow(xmat)] ) )

繪制誤差

coef(cv.lasso

根據(jù)lasso篩選出最優(yōu)的變量

Lasso(Least Absolute Shrinkage and Selection Operator)是一種用于變量選擇和模型建立的統(tǒng)計(jì)方法。它通過對(duì)目標(biāo)函數(shù)添加一個(gè)懲罰項(xiàng),將某些變量的系數(shù)縮減為零,從而實(shí)現(xiàn)變量篩選和模型簡化。

根據(jù)Lasso篩選出最優(yōu)的變量的過程可以概括為以下幾個(gè)步驟:

  1. 數(shù)據(jù)準(zhǔn)備:將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,用于模型的訓(xùn)練和評(píng)估。

  2. 模型建立:使用訓(xùn)練集數(shù)據(jù),通過Lasso算法建立回歸模型。Lasso算法通過最小化目標(biāo)函數(shù),其中包括了一個(gè)懲罰項(xiàng),該項(xiàng)是變量系數(shù)的絕對(duì)值之和與一個(gè)常數(shù)的乘積。這個(gè)常數(shù)稱為懲罰力度,用于控制變量收縮的程度。

  3. 變量篩選:根據(jù)Lasso算法的特點(diǎn),它會(huì)將一些變量的系數(shù)收縮為零,從而將這些變量排除在最優(yōu)模型之外。通過觀察Lasso算法得到的變量系數(shù),可以確定哪些變量被選中,即為最優(yōu)的變量。

  4. 模型評(píng)估:使用測(cè)試集數(shù)據(jù),對(duì)選中的最優(yōu)變量建立回歸模型進(jìn)行評(píng)估??梢允褂靡恍┰u(píng)估指標(biāo)(如均方誤差、決定系數(shù)等)來評(píng)估模型的性能。

總之,根據(jù)Lasso篩選出最優(yōu)的變量是通過使用Lasso算法建立回歸模型,并根據(jù)變量系數(shù)的收縮情況來確定哪些變量被選中,從而得到最優(yōu)的變量組合。這可以幫助簡化模型、提高預(yù)測(cè)準(zhǔn)確性,并揭示出對(duì)目標(biāo)變量具有顯著影響的變量。

#篩選變量 ?data_train=data_train[,c(variables=binomial(link='logit')

混淆矩陣

table(res)

lot( performance( prediction(

"auc" )@y.values[[1]]## [1] 0.75

3)模型III:僅包含由成組Lasso選出協(xié)變量的Logistic模型。

僅包含由成組Lasso選出協(xié)變量的Logistic模型是一種統(tǒng)計(jì)模型,用于預(yù)測(cè)二元分類問題。在此模型中,使用了Lasso方法來選擇協(xié)變量(也稱為特征或自變量),該方法可以幫助確定對(duì)目標(biāo)變量有最強(qiáng)預(yù)測(cè)能力的協(xié)變量。

Lasso方法是一種特征選擇和正則化技術(shù),它可以通過對(duì)模型中的系數(shù)進(jìn)行懲罰,將某些系數(shù)推向零,從而實(shí)現(xiàn)變量選擇的效果。這意味著,在僅包含由成組Lasso選出的協(xié)變量的Logistic模型中,只有少數(shù)對(duì)預(yù)測(cè)目標(biāo)有重要影響的協(xié)變量被保留下來,而其他對(duì)預(yù)測(cè)目標(biāo)沒有重要影響的協(xié)變量則被排除。

Logistic模型是一種廣泛應(yīng)用于分類問題的模型。它使用邏輯函數(shù)(也稱為sigmoid函數(shù))來將輸入特征映射到0和1之間的概率值,該概率值表示樣本屬于某個(gè)類別的可能性。在僅包含由成組Lasso選出的協(xié)變量的Logistic模型中,利用這些協(xié)變量的值來預(yù)測(cè)樣本的分類標(biāo)簽。

這種模型在實(shí)際應(yīng)用中具有一定的優(yōu)勢(shì),因?yàn)樗梢詼p少模型的復(fù)雜性和計(jì)算成本,同時(shí)提供準(zhǔn)確的預(yù)測(cè)能力。然而,需要注意的是,選擇哪些協(xié)變量是一個(gè)重要的決策,并且應(yīng)該考慮相關(guān)領(lǐng)域的專業(yè)知識(shí)和實(shí)際需求。

reg(X, y ,colnames(data)[-14], penalty

select(fit, "AIC")

最受歡迎的見解

1.R語言多元Logistic邏輯回歸 應(yīng)用案例

2.面板平滑轉(zhuǎn)移回歸(PSTR)分析案例實(shí)現(xiàn)

3.matlab中的偏最小二乘回歸(PLSR)和主成分回歸(PCR)

4.R語言泊松Poisson回歸模型分析案例

5.R語言回歸中的Hosmer-Lemeshow擬合優(yōu)度檢驗(yàn)

6.r語言中對(duì)LASSO回歸,Ridge嶺回歸和Elastic Net模型實(shí)現(xiàn)

7.在R語言中實(shí)現(xiàn)Logistic邏輯回歸

8.python用線性回歸預(yù)測(cè)股票價(jià)格

9.R語言如何在生存分析與Cox回歸中計(jì)算IDI,NRI指標(biāo)


R語言組lasso改進(jìn)邏輯回歸變量選擇分析高血壓、易感因素、2型糖尿病和LDL可視化的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
南安市| 定安县| 梧州市| 思茅市| 连州市| 郧西县| 旬阳县| 正镶白旗| 普洱| 如皋市| 巩留县| 永嘉县| 阳原县| 防城港市| 乌拉特后旗| 泰安市| 喜德县| 建阳市| 盱眙县| 东兴市| 新巴尔虎右旗| 乃东县| 大余县| 成武县| 永胜县| 桦甸市| 津市市| 化德县| 鹿泉市| 二连浩特市| 林西县| 永胜县| 行唐县| 诸城市| 潍坊市| 綦江县| 察哈| 丽水市| 日照市| 姚安县| 略阳县|