基于移動(dòng)網(wǎng)絡(luò)通訊行為的風(fēng)險(xiǎn)用戶識(shí)別
訪問【W(wǎng)RITE-BUG數(shù)字空間】_[內(nèi)附完整源碼和文檔]
大賽地址:基于移動(dòng)網(wǎng)絡(luò)通訊行為的風(fēng)險(xiǎn)用戶識(shí)別,該比賽是聯(lián)通大數(shù)據(jù)公司發(fā)起的,同時(shí)作為我們的實(shí)訓(xùn)的比賽。下面是自己參加比賽過程的報(bào)告:
第一次參加這種比賽,發(fā)現(xiàn)自己經(jīng)驗(yàn)明顯不足。初賽0.787(52/624),復(fù)賽0.784(71/624),雖然成績很差,但是感覺對新手來說是一次很好的鍛煉機(jī)會(huì)。簡單的介紹一下自己的一些思路。
這次比賽分為初賽和復(fù)賽兩部分,自己的比賽代碼也有好幾個(gè)版本,這里選取得成績最好的一次講講思路。
1 特征工程
訓(xùn)練數(shù)據(jù)集一共包括四個(gè)文件,用戶風(fēng)險(xiǎn)標(biāo)簽,用戶通話記錄數(shù)據(jù),用戶短信記錄數(shù)據(jù),用戶網(wǎng)站/App訪問記錄數(shù)據(jù)。
測試數(shù)據(jù)集一共包括三個(gè),用戶通話記錄數(shù)據(jù),用戶短信記錄數(shù)據(jù),用戶網(wǎng)站/App訪問記錄數(shù)據(jù)。
初賽與復(fù)賽分別使用不同的測試數(shù)據(jù)集,分為test_A,test_B,將這些訓(xùn)練集與測試集當(dāng)正負(fù)樣本平衡處理。
下面介紹的是自己能想到的一些特征。




標(biāo)簽: