最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

數(shù)據(jù)分享|WEKA信貸違約預(yù)測(cè)報(bào)告:用決策樹(shù)、隨機(jī)森林、支持向量機(jī)SVM、樸素貝葉斯、邏

2023-05-17 23:44 作者:拓端tecdat  | 我要投稿

完整報(bào)告鏈接:http://tecdat.cn/?p=28579

作者:Nuo Liu

最近我們被客戶要求撰寫(xiě)關(guān)于WEKA的研究報(bào)告,包括一些圖形和統(tǒng)計(jì)輸出。

數(shù)據(jù)變得越來(lái)越重要,其核心應(yīng)用“預(yù)測(cè)”也成為互聯(lián)網(wǎng)行業(yè)以及產(chǎn)業(yè)變革的重要力量。近年來(lái)網(wǎng)絡(luò) P2P借貸發(fā)展形勢(shì)迅猛,一方面普通用戶可以更加靈活、便快捷地獲得中小額度的貸款,另一方面由于相當(dāng)多數(shù)量用戶出現(xiàn)違約問(wèn)題而給 P2P信貸平臺(tái)以及借貸雙方帶來(lái)諸多糾紛,因此根據(jù)用戶歷史款情況準(zhǔn)確預(yù)測(cè)潛在是否還會(huì)發(fā)生違約就非常有必要。

解決方案

任務(wù)/目標(biāo)

對(duì)于用戶貸款數(shù)據(jù)?(?查看文末了解數(shù)據(jù)免費(fèi)獲取方式?)?是否違約的預(yù)測(cè),結(jié)果解釋。

數(shù)據(jù)源準(zhǔn)備

刪除屬性

刪除數(shù)據(jù)集中與建立決策樹(shù)無(wú)關(guān)的屬性IDX、Listinginfo,此類(lèi)屬性作為用戶標(biāo)記/日期標(biāo)記作用,與借款人信貸違約明顯無(wú)關(guān)。

刪除數(shù)據(jù)集中distinct為1的屬性webloginfo_10、Education_info7、webloginfo_49,此類(lèi)屬性僅存在同一個(gè)數(shù)值,對(duì)分類(lèi)結(jié)果無(wú)影響。

webloginfo_10屬性描述,其他屬性類(lèi)似

缺失值處理

缺失值情況如下表,按缺失值比例由大到小排列

對(duì)于屬性webloginfo_3、webloginfo_1,由于缺失值比例過(guò)大,直接刪除兩屬性。操作步驟為預(yù)處理界面勾選兩屬性,點(diǎn)擊Remove。

對(duì)于屬性Userinfo_21、Userinfo_22、Userinfo_23、Education_info8、webloginfo_23-48、Userinfo_4,由于缺失值比例較小,不足1%。webloginfo_2、webloginfo_4、webloginfo_5、webloginfo_6缺失值比例為5%。因此直接刪除缺失值對(duì)應(yīng)instance,以刪除Userinfo_21中的缺失值為例,操作步驟如下:

刪除后,剩余19200條實(shí)例如下,數(shù)據(jù)集損失的實(shí)例數(shù)不足5%,認(rèn)為對(duì)后續(xù)決策樹(shù)建立沒(méi)有影響。

對(duì)于其他缺失值屬性,若為Numeric屬性,用平均值代替缺失值,若為Nominal屬性,用它的眾數(shù)來(lái)代替缺失值。選擇 weka中“ReplaceMissingValues"過(guò)濾器進(jìn)行實(shí)現(xiàn)

處理后檢查不存在缺失值,至此缺失值處理完成。

Numeric?屬性離散化處理

使用“NumerictoNominal”過(guò)濾器實(shí)現(xiàn)Numeric屬性的離散化,為方便處理使用MultiFilter對(duì)所有Numeric屬性進(jìn)行操作。

處理后如圖,所有Numeric屬性均已變?yōu)镹ominal屬性。

特征轉(zhuǎn)換

特征理解

該數(shù)據(jù)集數(shù)據(jù)來(lái)源于中國(guó)一家著名的P2P公司的借款記錄。數(shù)據(jù)集中包括借款人的ID、日期、借款人特征(地點(diǎn)、婚姻狀態(tài)等信息)、網(wǎng)絡(luò)行為、學(xué)歷以及第三方數(shù)據(jù)等全面信息。

Weblog Info_?:Info網(wǎng)絡(luò)行為字段描述使用網(wǎng)絡(luò)次數(shù)多少,:使用第三方數(shù)據(jù)時(shí)間N字段描述第三方數(shù)據(jù)時(shí)間長(zhǎng)短。觀察發(fā)現(xiàn)ThirdParty_ Info_PeriodN_?屬性數(shù)據(jù)不同維度上的特征的尺度不一致,需要進(jìn)行標(biāo)準(zhǔn)化處理

特征提升

按照第一次方法,對(duì)數(shù)據(jù)集進(jìn)行缺失值刪補(bǔ),步驟省略。

將ThirdParty字段屬性標(biāo)準(zhǔn)化,在預(yù)處理界面選用unsupervised. attribute. Standardize,標(biāo)準(zhǔn)化給定數(shù)據(jù)集中所有數(shù)值屬性的值到一個(gè)0均值和單位方差的正態(tài)分布。

特征選擇

原數(shù)據(jù)集包含屬性較多,為方便后續(xù)操作先對(duì)數(shù)據(jù)集進(jìn)行特征選擇處理。

刪除數(shù)據(jù)集中與建立決策樹(shù)無(wú)關(guān)的屬性IDX、Listinginfo,此類(lèi)屬性作為用戶標(biāo)記/日期標(biāo)記作用,與借款人信貸違約明顯無(wú)關(guān)。刪除數(shù)據(jù)集中distinct為1的屬性webloginfo_10、Education_info7、webloginfo_49,此類(lèi)屬性僅存在同一個(gè)數(shù)值,對(duì)分類(lèi)結(jié)果無(wú)影響。

在預(yù)處理界面選擇AttributeSelection過(guò)濾器,選擇CfsSubsetEval評(píng)估器,選擇BestFirst 搜索方法。最終得到除target之外的74個(gè)屬性。

特征降維

由于ThirdParty_ Info_PeriodN_為使用第三方數(shù)據(jù)時(shí)間N字段,描述不同階段使用時(shí)間長(zhǎng)短,WeblogInfo字段為使用網(wǎng)絡(luò)次數(shù)。根據(jù)意義判斷,同時(shí)包含同類(lèi)別不同階段數(shù)據(jù)不太合理,因此運(yùn)用主成分分析方法將ThirdParty_ Info_PeriodN_?屬性合并成為一個(gè)綜合指標(biāo),選擇排名第一的屬性命名為T(mén)hirdParty屬性,替換原數(shù)據(jù)集中所有ThirdParty_ Info_PeriodN_*變量。同理對(duì)WeblogInfo字段使用主成分分析方法進(jìn)行合并與替換。

以WeblogInfo降維為例,設(shè)置提取5個(gè)維度作為主成分,排序后得到第一條屬性的個(gè)體評(píng)價(jià)最高達(dá)到0.9388,保留第一條屬性,導(dǎo)出引入數(shù)據(jù)集,命名為WeblogInfo。ThirdParty字段同理。


特征構(gòu)造

經(jīng)過(guò)選擇后包含的屬性中,User2、4、6、7、18、19均為地點(diǎn)屬性,且包含300余條distinct,對(duì)決策樹(shù)造成干擾。而其中User6、7;User18、19分別為同一地點(diǎn)的省份與城市名稱,存在信息冗余,因此首先對(duì)這幾類(lèi)地點(diǎn)屬性進(jìn)行處理。

再抽樣與離散化

  • 對(duì)類(lèi)屬性target進(jìn)行離散化,過(guò)程省略

  • 第一次處理時(shí)并沒(méi)有對(duì)target之外的Numeric屬性進(jìn)行離散化處理,導(dǎo)致決策樹(shù)同一個(gè)屬性在多個(gè)節(jié)點(diǎn)出現(xiàn)。因此為降低樹(shù)深度,對(duì)其他Numeric屬性進(jìn)行離散化處理。首先觀察user16、Education1、Education5、Movement屬性為布爾變量。Socialwork7屬性只包含-1,0,1三個(gè)值,將以上屬性直接轉(zhuǎn)換為Nominal屬性。

其次對(duì)其他數(shù)值型屬性進(jìn)行離散化。在預(yù)處理界面選擇Discretize,根據(jù)第一次作業(yè)結(jié)果判斷,設(shè)置bins為3,分類(lèi)區(qū)間取小數(shù)點(diǎn)后兩位。

  • 再抽樣。target屬性中發(fā)現(xiàn)Lable為1(即存在違約風(fēng)險(xiǎn))的頻數(shù)較小。為防止進(jìn)行分類(lèi)建模時(shí)學(xué)習(xí)不到小類(lèi)特征,運(yùn)用SMOTE包增加小類(lèi)數(shù)量,加大小類(lèi)比例,以便后續(xù)機(jī)器學(xué)習(xí)。設(shè)置參數(shù)percentage為800%,實(shí)例數(shù)量擴(kuò)大為原來(lái)的8倍。為防止抽樣范圍過(guò)小造成數(shù)據(jù)與原數(shù)據(jù)比例失衡,設(shè)置nearestNeighbors為100.

運(yùn)行后如圖所示,實(shí)例數(shù)量增加到33320條。

至此預(yù)處理完畢,對(duì)訓(xùn)練集與測(cè)試集進(jìn)行同樣處理,為避免測(cè)試集與訓(xùn)練集不匹配問(wèn)題,用記事本打開(kāi)測(cè)試集.arff文件修改表頭至與訓(xùn)練集一致。

建模和模型優(yōu)化

隨機(jī)森林

Weka操作

打開(kāi)預(yù)處理后的訓(xùn)練集,在classifier模塊中選擇CVParameterSelection,并選擇RandomForest決策分類(lèi)樹(shù)算法,尋找最佳參數(shù)。

在經(jīng)過(guò)處理后的測(cè)試集上進(jìn)行測(cè)試,在more options中選擇cost sensitive,并將左下至右上對(duì)角線上數(shù)值均設(shè)為1。

運(yùn)行結(jié)果如下:

模型正確率為85.3684%,召回率為0.854,假陽(yáng)性數(shù)量較大。以借款金額每人1000,中介收費(fèi)率為0.3計(jì)算ROI,結(jié)果為450000。

將cost sensitive改變?yōu)橹挥凶笙聰?shù)值為1,進(jìn)行再次運(yùn)行,得出結(jié)果相同。

為了取得最優(yōu)ROI,使用最小化代價(jià)函數(shù)CostsensitiveClassifier,并將參數(shù)minimize expected cost設(shè)置為T(mén)rue,cost sensitive設(shè)置為只有左下角為1。

結(jié)果顯示為:

可以看出假陽(yáng)性數(shù)值明顯減少,但是模型正確率和召回率嚴(yán)重下降,且由于真陽(yáng)性也減少,ROI降低為172800。

因此隨機(jī)森林算法中,ROI最大為450000。

支持向量機(jī)SVM算法

算法原理

支持向量機(jī)(support vector machines, SVM)是一種二分類(lèi)模型,它的基本模型是定義在特征空間上的間隔最大的線性分類(lèi)器,基本想法是求解能夠正確劃分訓(xùn)練數(shù)據(jù)集并且?guī)缀伍g隔最大的分離超平面。它是針對(duì)線性可分情況進(jìn)行分析,對(duì)于線性不可分的情況,通過(guò)使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對(duì)樣本的非線性特征進(jìn)行線性分析成為可能。

Weka操作

在package manager中下載LibSVM包,并在classifier模塊中選擇最優(yōu)參數(shù)選擇CVParameterSelection,使用SVM分類(lèi)算法。

同時(shí)調(diào)整cost sensitive為左下至右上數(shù)值均為1,得出結(jié)果為:

模型正確率為79.7725%,召回率為0.798,混淆矩陣中假陽(yáng)性仍然很多,ROI數(shù)值為623100。修改cost sensitive為只有左下數(shù)值為1時(shí),結(jié)果相同。

使用最小化代價(jià)函數(shù)CostsensitiveClassifier,并將參數(shù)minimize expected cost設(shè)置為T(mén)rue,cost sensitive設(shè)置為左下至右上數(shù)值均為1時(shí),結(jié)果如下:

相比最優(yōu)參數(shù)選擇構(gòu)建的模型,正確率略下降為79.281%,召回率為0.793,ROI數(shù)值為616800,同樣小于最優(yōu)參數(shù)構(gòu)建模型。

因此SVM分類(lèi)算法最大ROI為623100。

將test和train兩個(gè)數(shù)據(jù)集中的target變量從數(shù)字型轉(zhuǎn)化為名義型

CART

原理:

C4.5中模型是用較為復(fù)雜的熵來(lái)度量,使用了相對(duì)較為復(fù)雜的多叉樹(shù),只能處理分類(lèi)不能處理回歸。對(duì)這些問(wèn)題,CART(Classification And Regression Tree)做了改進(jìn),可以處理分類(lèi),也可以處理回歸。

  1. CART分類(lèi)樹(shù)算法的最優(yōu)特征選擇方法

ID3中使用了信息增益選擇特征,增益大優(yōu)先選擇。C4.5中,采用信息增益比選擇特征,減少因特征值多導(dǎo)致信息增益大的問(wèn)題。CART分類(lèi)樹(shù)算法使用基尼系數(shù)來(lái)代替信息增益比,基尼系數(shù)代表了模型的不純度,基尼系數(shù)越小,不純度越低,特征越好。這和信息增益(比)相反。

假設(shè)K個(gè)類(lèi)別,第k個(gè)類(lèi)別的概率為pk,概率分布的基尼系數(shù)表達(dá)式:

如果是二分類(lèi)問(wèn)題,第一個(gè)樣本輸出概率為p,概率分布的基尼系數(shù)表達(dá)式為:

對(duì)于樣本D,個(gè)數(shù)為|D|,假設(shè)K個(gè)類(lèi)別,第k個(gè)類(lèi)別的數(shù)量為|Ck|,則樣本D的基尼系數(shù)表達(dá)式:

對(duì)于樣本D,個(gè)數(shù)為|D|,根據(jù)特征A的某個(gè)值a,把D分成|D1|和|D2|,則在特征A的條件下,樣本D的基尼系數(shù)表達(dá)式為:

比較基尼系數(shù)和熵模型的表達(dá)式,二次運(yùn)算比對(duì)數(shù)簡(jiǎn)單很多。尤其是二分類(lèi)問(wèn)題,更加簡(jiǎn)單。

和熵模型的度量方式比,基尼系數(shù)對(duì)應(yīng)的誤差有多大呢?對(duì)于二類(lèi)分類(lèi),基尼系數(shù)和熵之半的曲線如下:

基尼系數(shù)和熵之半的曲線非常接近,因此,基尼系數(shù)可以做為熵模型的一個(gè)近似替代。

CART分類(lèi)樹(shù)算法每次僅對(duì)某個(gè)特征的值進(jìn)行二分,而不是多分,這樣CART分類(lèi)樹(shù)算法建立起來(lái)的是二叉樹(shù),而不是多叉樹(shù)。

CART分類(lèi)樹(shù)算法具體流程

CART分類(lèi)樹(shù)建立算法流程,之所以加上建立,是因?yàn)镃ART分類(lèi)樹(shù)算法有剪枝算法流程。

算法輸入訓(xùn)練集D,基尼系數(shù)的閾值,樣本個(gè)數(shù)閾值。

輸出的是決策樹(shù)T。

算法從根節(jié)點(diǎn)開(kāi)始,用訓(xùn)練集遞歸建立CART分類(lèi)樹(shù)。

(1)對(duì)于當(dāng)前節(jié)點(diǎn)的數(shù)據(jù)集為D,如果樣本個(gè)數(shù)小于閾值或沒(méi)有特征,則返回決策子樹(shù),當(dāng)前節(jié)點(diǎn)停止遞歸。

(2)計(jì)算樣本集D的基尼系數(shù),如果基尼系數(shù)小于閾值,則返回決策樹(shù)子樹(shù),當(dāng)前節(jié)點(diǎn)停止遞歸。

(3)計(jì)算當(dāng)前節(jié)點(diǎn)現(xiàn)有的各個(gè)特征的各個(gè)特征值對(duì)數(shù)據(jù)集D的基尼系數(shù),對(duì)于離散值和連續(xù)值的處理方法和基尼系數(shù)的計(jì)算見(jiàn)第二節(jié)。缺失值的處理方法和C4.5算法里描述的相同。

(4)在計(jì)算出來(lái)的各個(gè)特征的各個(gè)特征值對(duì)數(shù)據(jù)集D的基尼系數(shù)中,選擇基尼系數(shù)最小的特征A和對(duì)應(yīng)的特征值a。根據(jù)這個(gè)最優(yōu)特征和最優(yōu)特征值,把數(shù)據(jù)集劃分成兩部分D1和D2,同時(shí)建立當(dāng)前節(jié)點(diǎn)的左右節(jié)點(diǎn),做節(jié)點(diǎn)的數(shù)據(jù)集D為D1,右節(jié)點(diǎn)的數(shù)據(jù)集D為D2。

(5)對(duì)左右的子節(jié)點(diǎn)遞歸的調(diào)用1-4步,生成決策樹(shù)。

對(duì)生成的決策樹(shù)做預(yù)測(cè)的時(shí)候,假如測(cè)試集里的樣本A落到了某個(gè)葉子節(jié)點(diǎn),而節(jié)點(diǎn)里有多個(gè)訓(xùn)練樣本。則對(duì)于A的類(lèi)別預(yù)測(cè)采用的是這個(gè)葉子節(jié)點(diǎn)里概率最大的類(lèi)別。

CART算法缺點(diǎn):

(1) 無(wú)論ID3,C4.5,CART都是選擇一個(gè)最優(yōu)的特征做分類(lèi)決策,但大多數(shù),分類(lèi)決策不是由某一個(gè)特征決定,而是一組特征。這樣得到的決策樹(shù)更加準(zhǔn)確,這種決策樹(shù)叫多變量決策樹(shù)(multi-variate decision tree)。在選擇最優(yōu)特征的時(shí),多變量決策樹(shù)不是選擇某一個(gè)最優(yōu)特征,而是選擇一個(gè)最優(yōu)的特征線性組合做決策。代表算法OC1。

(2) 樣本一點(diǎn)點(diǎn)改動(dòng),樹(shù)結(jié)構(gòu)劇烈改變。這個(gè)通過(guò)集成學(xué)習(xí)里面的隨機(jī)森林之類(lèi)的方法解決。

Weka操作

運(yùn)行結(jié)果如下:

模型正確率為84.3148%,識(shí)別率=召回率=0.843,F(xiàn)-Measure=0.835。

以借款金額每人1000,中介收費(fèi)率為0.3計(jì)算ROI,結(jié)果為294100。

將useprune改為False,即不剪枝,運(yùn)行結(jié)果如下:

模型正確率為83.2124%,識(shí)別率=召回率=0.832,F(xiàn)-Measure=0.826。

以借款金額每人1000,中介收費(fèi)率為0.3計(jì)算ROI,結(jié)果為327900。

對(duì)比剪枝結(jié)果,發(fā)現(xiàn)各項(xiàng)指標(biāo)剪枝優(yōu)于不剪枝,而不剪枝的ROI大于剪枝的模型。

調(diào)整矩陣:

輸出結(jié)果中,混淆矩陣相同。

為了取得最優(yōu)ROI,使用最小化代價(jià)函數(shù)CostsensitiveClassifier,并將參數(shù)minimize expected cost設(shè)置為T(mén)rue,cost sensitive設(shè)置為只有左下角為1。simpleCART選擇不剪枝。

輸出結(jié)果如下:

模型正確率和召回率嚴(yán)重下降,ROI降低為209100。

因此simpleCART算法中,ROI最大為327900。

Naivebayes?樸素貝葉斯

樸素貝葉斯算法

樸素貝葉斯算法(Naive Bayesian algorithm) 是應(yīng)用最為廣泛的分類(lèi)算法之一。

樸素貝葉斯方法是在貝葉斯算法的基礎(chǔ)上進(jìn)行了相應(yīng)的簡(jiǎn)化,即假定給定目標(biāo)值時(shí)屬性之間相互條件獨(dú)立。也就是說(shuō)沒(méi)有哪個(gè)屬性變量對(duì)于決策結(jié)果來(lái)說(shuō)占有著較大的比重,也沒(méi)有哪個(gè)屬性變量對(duì)于決策結(jié)果占有著較小的比重。雖然這個(gè)簡(jiǎn)化方式在一定程度上降低了貝葉斯分類(lèi)算法的分類(lèi)效果,但是在實(shí)際的應(yīng)用場(chǎng)景中,極大地簡(jiǎn)化了貝葉斯方法的復(fù)雜性。

優(yōu)缺點(diǎn):

優(yōu)點(diǎn)

樸素貝葉斯算法假設(shè)了數(shù)據(jù)集屬性之間是相互獨(dú)立的,因此算法的邏輯性十分簡(jiǎn)單,并且算法較為穩(wěn)定,當(dāng)數(shù)據(jù)呈現(xiàn)不同的特點(diǎn)時(shí),樸素貝葉斯的分類(lèi)性能不會(huì)有太大的差異。換句話說(shuō)就是樸素貝葉斯算法的健壯性比較好,對(duì)于不同類(lèi)型的數(shù)據(jù)集不會(huì)呈現(xiàn)出太大的差異性。當(dāng)數(shù)據(jù)集屬性之間的關(guān)系相對(duì)比較獨(dú)立時(shí),樸素貝葉斯分類(lèi)算法會(huì)有較好的效果。

缺點(diǎn)

屬性獨(dú)立性的條件同時(shí)也是樸素貝葉斯分類(lèi)器的不足之處。數(shù)據(jù)集屬性的獨(dú)立性在很多情況下是很難滿足的,因?yàn)閿?shù)據(jù)集的屬性之間往往都存在著相互關(guān)聯(lián),如果在分類(lèi)過(guò)程中出現(xiàn)這種問(wèn)題,會(huì)導(dǎo)致分類(lèi)的效果大大降低。

Weka操作過(guò)程

打開(kāi)預(yù)處理后的訓(xùn)練集,在classifier模塊中選擇CVParameterSelection,并選擇simpleCART決策分類(lèi)樹(shù)算法,尋找最佳參數(shù)。

模型的正確率僅52.6863%,識(shí)別率=召回率=0.527,F(xiàn)-Measure=0.467,模型各項(xiàng)指標(biāo)很差,而且模型不穩(wěn)定。

以借款金額每人1000,中介收費(fèi)率為0.3計(jì)算ROI,結(jié)果為317400。

輸出結(jié)果如下:

模型正確率和召回率嚴(yán)重下降,ROI降低為0。

因此naivebayes算法中,ROI最大為317400。

而觀測(cè)各項(xiàng)指標(biāo)結(jié)果,以及bayes適用范圍可以判斷,該數(shù)據(jù)集不適合使用bayes算法。

ID3

weka操作

相同步驟,target名義變量設(shè)置,cost sensitive 設(shè)置,將假陽(yáng)性錯(cuò)誤的代價(jià)敏感度提高,選擇ID3算法,結(jié)果如下,Recall 為75.2%,ROI 為1550000。

J48算法

J48流程

(1)使用經(jīng)過(guò)預(yù)處理的數(shù)據(jù)集,使用 CVParameterSelection 中的classifier中的Tree-J48并調(diào)整和尋找最佳參數(shù),在test option中選擇 Supplied test set 并上傳預(yù)處理完成的測(cè)試集:

在經(jīng)過(guò)處理后的測(cè)試集上進(jìn)行測(cè)試,在more options中選擇cost sensitive,并將左下至右上對(duì)角線上數(shù)值均設(shè)為1。

模型正確率為78.2026%,召回率為0.782。此時(shí)以借款金額每人1000,中介收費(fèi)率為0.3計(jì)算ROI,結(jié)果為-621800。

為了取得最優(yōu)ROI,使用最小化代價(jià)函數(shù)CostsensitiveClassifier,并將參數(shù)minimize expected cost設(shè)置為T(mén)rue,cost sensitive設(shè)置為只有左下角為1。

模型正確率和召回率略微下降, ROI降低為-628800.

因此J48算法中,當(dāng)使用目前的參數(shù)時(shí)ROI最大為-621800。

Simple logistic

Simple logistic 流程

使用經(jīng)過(guò)預(yù)處理的數(shù)據(jù)集,使用 CVParameterSelection 中的classifier中的Functions-SimpleLogistic并調(diào)整參數(shù),在test option中選擇 Supplied test set 并上傳預(yù)處理完成的測(cè)試集:

正確率為61.1917%,召回率為0.612。此時(shí)以借款金額每人1000,中介收費(fèi)率為0.3計(jì)算ROI,結(jié)果為-1223700。

為了取得最優(yōu)ROI,使用最小化代價(jià)函數(shù)CostsensitiveClassifier,并將參數(shù)minimize expected cost設(shè)置為T(mén)rue,cost sensitive設(shè)置為只有左下角為1。

模型正確率和召回率并無(wú)波動(dòng)。因此Simple Logistic算法中,當(dāng)使用目前的參數(shù)時(shí)ROI最大為-1223700。

項(xiàng)目結(jié)果?

具體結(jié)果已經(jīng)在各個(gè)模型后展示,隨機(jī)森林和支持向量機(jī)算法預(yù)測(cè)應(yīng)用效果良好。

評(píng)估效果不能只看銷(xiāo)量,要綜合考慮,需要參考業(yè)務(wù)對(duì)接,預(yù)測(cè)精度,模型可解釋性,預(yù)測(cè)結(jié)果僅作為參考一個(gè)權(quán)重值,還需要專(zhuān)家意見(jiàn),按照一定的權(quán)重來(lái)計(jì)算。

關(guān)于作者

在此對(duì)Nuo Liu對(duì)本文所作的貢獻(xiàn)表示誠(chéng)摯感謝,她專(zhuān)長(zhǎng)深度學(xué)習(xí)、聚類(lèi)、分類(lèi)、回歸、社交網(wǎng)絡(luò)、關(guān)聯(lián)分析。

數(shù)據(jù)獲取

在公眾號(hào)后臺(tái)回復(fù)“信貸數(shù)****據(jù)”,可免費(fèi)獲取完整數(shù)據(jù)。

?

點(diǎn)擊文末?“閱讀原文”

獲取全文完整文檔、數(shù)據(jù)資料。

本文選自《數(shù)據(jù)分享|WEKA用決策樹(shù)、隨機(jī)森林、支持向量機(jī)SVM、樸素貝葉斯、邏輯回歸信貸違約預(yù)測(cè)報(bào)告》。

本文中的數(shù)據(jù)和完整報(bào)告WORD文檔分享到會(huì)員群,掃描下面二維碼即可加群!

點(diǎn)擊標(biāo)題查閱往期內(nèi)容

數(shù)據(jù)分享|Python信貸風(fēng)控模型:Adaboost,XGBoost,SGD, SVC,隨機(jī)森林, KNN預(yù)測(cè)信貸違約支付
Python進(jìn)行多輸出(多因變量)回歸:集成學(xué)習(xí)梯度提升決策樹(shù)GRADIENT BOOSTING,GBR回歸訓(xùn)練和預(yù)測(cè)可視化
Python對(duì)商店數(shù)據(jù)進(jìn)行l(wèi)stm和xgboost銷(xiāo)售量時(shí)間序列建模預(yù)測(cè)分析
PYTHON集成機(jī)器學(xué)習(xí):用ADABOOST、決策樹(shù)、邏輯回歸集成模型分類(lèi)和回歸和網(wǎng)格搜索超參數(shù)優(yōu)化
R語(yǔ)言集成模型:提升樹(shù)boosting、隨機(jī)森林、約束最小二乘法加權(quán)平均模型融合分析時(shí)間序列數(shù)據(jù)
Python對(duì)商店數(shù)據(jù)進(jìn)行l(wèi)stm和xgboost銷(xiāo)售量時(shí)間序列建模預(yù)測(cè)分析
R語(yǔ)言用主成分PCA、?邏輯回歸、決策樹(shù)、隨機(jī)森林分析心臟病數(shù)據(jù)并高維可視化
R語(yǔ)言基于樹(shù)的方法:決策樹(shù),隨機(jī)森林,Bagging,增強(qiáng)樹(shù)
R語(yǔ)言用邏輯回歸、決策樹(shù)和隨機(jī)森林對(duì)信貸數(shù)據(jù)集進(jìn)行分類(lèi)預(yù)測(cè)
spss modeler用決策樹(shù)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)ST的股票
R語(yǔ)言中使用線性模型、回歸決策樹(shù)自動(dòng)組合特征因子水平
R語(yǔ)言中自編基尼系數(shù)的CART回歸決策樹(shù)的實(shí)現(xiàn)
R語(yǔ)言用rle,svm和rpart決策樹(shù)進(jìn)行時(shí)間序列預(yù)測(cè)
python在Scikit-learn中用決策樹(shù)和隨機(jī)森林預(yù)測(cè)NBA獲勝者
python中使用scikit-learn和pandas決策樹(shù)進(jìn)行iris鳶尾花數(shù)據(jù)分類(lèi)建模和交叉驗(yàn)證
R語(yǔ)言里的非線性模型:多項(xiàng)式回歸、局部樣條、平滑樣條、 廣義相加模型GAM分析
R語(yǔ)言用標(biāo)準(zhǔn)最小二乘OLS,廣義相加模型GAM?,樣條函數(shù)進(jìn)行邏輯回歸LOGISTIC分類(lèi)
R語(yǔ)言ISLR工資數(shù)據(jù)進(jìn)行多項(xiàng)式回歸和樣條回歸分析
R語(yǔ)言中的多項(xiàng)式回歸、局部回歸、核平滑和平滑樣條回歸模型
R語(yǔ)言用泊松Poisson回歸、GAM樣條曲線模型預(yù)測(cè)騎自行車(chē)者的數(shù)量
R語(yǔ)言分位數(shù)回歸、GAM樣條曲線、指數(shù)平滑和SARIMA對(duì)電力負(fù)荷時(shí)間序列預(yù)測(cè)R語(yǔ)言樣條曲線、決策樹(shù)、Adaboost、梯度提升(GBM)算法進(jìn)行回歸、分類(lèi)和動(dòng)態(tài)可視化
如何用R語(yǔ)言在機(jī)器學(xué)習(xí)中建立集成模型?
R語(yǔ)言ARMA-EGARCH模型、集成預(yù)測(cè)算法對(duì)SPX實(shí)際波動(dòng)率進(jìn)行預(yù)測(cè)在python 深度學(xué)習(xí)Keras中計(jì)算神經(jīng)網(wǎng)絡(luò)集成模型R語(yǔ)言ARIMA集成模型預(yù)測(cè)時(shí)間序列分析R語(yǔ)言基于Bagging分類(lèi)的邏輯回歸(Logistic Regression)、決策樹(shù)、森林分析心臟病患者
R語(yǔ)言基于樹(shù)的方法:決策樹(shù),隨機(jī)森林,Bagging,增強(qiáng)樹(shù)
R語(yǔ)言基于Bootstrap的線性回歸預(yù)測(cè)置信區(qū)間估計(jì)方法
R語(yǔ)言使用bootstrap和增量法計(jì)算廣義線性模型(GLM)預(yù)測(cè)置信區(qū)間
R語(yǔ)言樣條曲線、決策樹(shù)、Adaboost、梯度提升(GBM)算法進(jìn)行回歸、分類(lèi)和動(dòng)態(tài)可視化
Python對(duì)商店數(shù)據(jù)進(jìn)行l(wèi)stm和xgboost銷(xiāo)售量時(shí)間序列建模預(yù)測(cè)分析
R語(yǔ)言隨機(jī)森林RandomForest、邏輯回歸Logisitc預(yù)測(cè)心臟病數(shù)據(jù)和可視化分析
R語(yǔ)言用主成分PCA、?邏輯回歸、決策樹(shù)、隨機(jī)森林分析心臟病數(shù)據(jù)并高維可視化
Matlab建立SVM,KNN和樸素貝葉斯模型分類(lèi)繪制ROC曲線
matlab使用分位數(shù)隨機(jī)森林(QRF)回歸樹(shù)檢測(cè)異常值


數(shù)據(jù)分享|WEKA信貸違約預(yù)測(cè)報(bào)告:用決策樹(shù)、隨機(jī)森林、支持向量機(jī)SVM、樸素貝葉斯、邏的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
淳化县| 鸡西市| 萨嘎县| 香格里拉县| 阿城市| 高碑店市| 渑池县| 青岛市| 金湖县| 宜都市| 淮南市| 浪卡子县| 阿勒泰市| 鄱阳县| 桐梓县| 金堂县| 仁怀市| 泸州市| 都昌县| 民县| 临湘市| 五原县| 集安市| 敦煌市| 含山县| 买车| 武汉市| 长泰县| 滦平县| 共和县| 中阳县| 鹤庆县| 石泉县| 攀枝花市| 屯昌县| 衡东县| 宁明县| 克什克腾旗| 宜阳县| 玉龙| 迁安市|