大數(shù)據(jù)競賽提分經(jīng)驗(yàn)分享
來源:投稿 作者:gick
編輯:學(xué)姐
0.前言
大家好,這篇文章將為大家?guī)硗扑]系統(tǒng)類競賽中特征工程關(guān)于處理類別特征的經(jīng)驗(yàn)總結(jié),干貨多多,建議收藏。
下面介紹的都屬于比較實(shí)在的內(nèi)容,靠著這些干貨,我在最近科大訊飛舉辦的開發(fā)者大賽中拿到了好幾個(gè)不錯(cuò)的名次,希望也能為大家?guī)硪稽c(diǎn)幫助。
1.競賽的好處
在開始介紹如何處理類別特征前,先總結(jié)一下競賽的各類好處吧:
(1)大廠敲門磚
IT行業(yè)里,除了學(xué)歷以外,應(yīng)屆生簡歷的干貨主要有四個(gè):實(shí)習(xí)、競賽、項(xiàng)目與論文。四者的重要程度我認(rèn)為可以按照如下排序:
頂會論文 = 大廠實(shí)習(xí) = 大型競賽 > 項(xiàng)目 = 論文 = 中小廠實(shí)習(xí) = 中小型競賽
其中,頂會論文、大廠實(shí)習(xí)和大型競賽自不必多說,如果手握一篇甚至幾篇CVPR,去過大廠的core部門實(shí)習(xí)并干出了一定成績,或者有騰訊算法大賽或者華為校園AI算法精英大賽的top名次,基本所有公司都會為你打開面試的大門。因?yàn)檫@些都能充分證明你的能力。
(2)獎金
雖然各種會議、期刊、非營利性組織舉辦的學(xué)習(xí)賽和小型比賽的獎金比較低,但鵝廠、菊花廠、科大訊飛這種公司舉辦的大賽幾乎都伴隨著巨額的獎金。拿了top名次少說也有幾千塊,多的甚至有幾十萬。
(3)發(fā)論文
會議/期刊舉辦的競賽,能為參賽者們帶來發(fā)論文的機(jī)會。
(4)長期回報(bào)
代碼能力的加深、認(rèn)識志同道合的朋友、鍛煉數(shù)據(jù)敏感程度… 大家日后可以多多關(guān)注科大訊飛、Kaggle、天池等舉辦的比賽。
2.處理類別特征
在競賽當(dāng)中,數(shù)據(jù)建模是最重要的一環(huán),但由于數(shù)據(jù)建模比較考驗(yàn)隨機(jī)應(yīng)變能力,需要考慮題意、背景甚至?xí)r序等因素,可復(fù)用性低,因此本篇文章我著重介紹下競賽中復(fù)用性強(qiáng)的一環(huán),特征工程中對類別特征的處理是怎么做的。大家可以直接運(yùn)用在自己的下一個(gè)比賽中。
(1)Label Encoding
最常用的編碼方法。對類別特征賦予一個(gè)整數(shù)值,相比于one hot方法,可以有效增加模型速度、減少內(nèi)存消耗
(2)Ordinal Encoding
Label Encoding的變種。對于有內(nèi)在聯(lián)系的類別特征,如等級,Label Encoding可能會丟失偏序信息。
(3)One Hot Encoding
解釋性最強(qiáng)的編碼,有時(shí)候可以帶來很大的提升,但類別數(shù)較多時(shí)不建議使用獨(dú)熱編碼,如果一定要使用,可搭配PCA降維一起服用。
(4)Target Encoding
用標(biāo)簽編碼。構(gòu)建類別特征與標(biāo)簽的聯(lián)系,通常用標(biāo)簽的均值對類別特征編碼。
(5)Frequency Encoding
用類別特征的頻率編碼。相比于Label Encoding,這種方法的可解釋性更強(qiáng),因?yàn)橘x予的數(shù)字有意義,但是小概率會造成編碼沖突。
(6)Custom Encoding
自定義編碼。通過先驗(yàn)知識,將某些有內(nèi)在聯(lián)系的類別編碼成相同的字符。如北京、上海、天津、重慶都有直轄市的特征,在某些特定任務(wù)中可以編碼為同一符號。
以上六種都是非常常見的編碼方法,在大部分?jǐn)?shù)據(jù)建模中都可以給模型帶來一定的增益。
3.賽后總結(jié)
關(guān)于如何在比賽中提高進(jìn)步,我也總結(jié)了幾個(gè)比較重要的點(diǎn),希望可以幫到大家:
(1)多搜集各大比賽top方案,多水群、水論壇,交流心得技巧
(2)多搜集代碼,構(gòu)建自己的代碼庫
(3)多理解。理解使用的方法原理,只會調(diào)包是走不遠(yuǎn)的
(4)多寫。代碼越寫越熟,讀不如想,想不如寫
以上就是最近打比賽的心得分享與一些建議,希望對大家有幫助。
另外我也整理了一些比賽的top方案,kaggle、天池等等都有
關(guān)注“KGMking”公眾號,回復(fù)"比賽”獲取