人工智能AI面試題-3.3 邏輯斯特回歸與特征離散化
**3.3 邏輯斯特回歸與特征離散化 ??** 讓我們深入研究為什么在邏輯斯特回歸中需要對(duì)特征進(jìn)行離散化,用程序員的方式來剖析一下吧! ???? ?? **為什么要特征離散化?** **第一種解釋:** ? **?線性!?線性!?線性!** 邏輯回歸是廣義線性模型,有一些表達(dá)能力的局限性。但是,通過將單變量離散化成N個(gè),每個(gè)都有獨(dú)立權(quán)重,就引入了非線性,增強(qiáng)了模型表達(dá)能力,提高了擬合度。 ?? **速度快!速度快!速度快!** 稀疏向量內(nèi)積乘法運(yùn)算速度快,計(jì)算結(jié)果容易存儲(chǔ),方便擴(kuò)展。 ?? **魯棒性!魯棒性!魯棒性!** 離散化后的特征對(duì)異常數(shù)據(jù)具有很強(qiáng)的魯棒性。例如,將特征“年齡 > 30”轉(zhuǎn)化為1,否則為0。如果不進(jìn)行離散化,異常數(shù)據(jù)如“年齡300歲”可能會(huì)嚴(yán)重干擾模型。 ?? **便于交叉與特征組合:** 離散化后,可以進(jìn)行特征交叉,將M+N個(gè)變量擴(kuò)展為M*N個(gè),進(jìn)一步引入非線性,提高表達(dá)能力。 ? **穩(wěn)定性:** 特征離散化后,模型更加穩(wěn)定。例如,將用戶年齡劃分為區(qū)間,不會(huì)因用戶年齡增長一歲而完全改變用戶屬性。當(dāng)然,相鄰區(qū)間的樣本可能會(huì)相反,所以如何劃分區(qū)間是個(gè)學(xué)問。 ?? **簡化模型:** 特征離散化可以簡化邏輯回歸模型,降低過擬合的風(fēng)險(xiǎn)。 **第二種解釋:** 在實(shí)際工業(yè)界,很少直接將連續(xù)值作為邏輯回歸模型的特征輸入,而是將連續(xù)特征離散化為一系列0和1的特征,這樣做有以下優(yōu)勢: a. 離散特征的增加和減少都很容易,易于模型的快速迭代。 b. 稀疏向量內(nèi)積乘法運(yùn)算速度快,計(jì)算結(jié)果容易存儲(chǔ),容易擴(kuò)展。 c. 離散化后的特征對(duì)異常數(shù)據(jù)有很強(qiáng)的魯棒性。 d. 邏輯回歸屬于廣義線性模型,表達(dá)能力受限;單變量離散化成N個(gè)后,每個(gè)變量有獨(dú)立權(quán)重,相當(dāng)于為模型引入了非線性,提升了模型表達(dá)能力。 e. 離散化后可以進(jìn)行特征交叉,進(jìn)一步引入非線性,提高表達(dá)能力。 f. 特征離散化后,模型更加穩(wěn)定。 g. 特征離散化可以簡化邏輯回歸模型,降低過擬合的風(fēng)險(xiǎn)。 總的來說,特征離散化與連續(xù)特征在“海量離散特征+簡單模型”和“少量連續(xù)特征+復(fù)雜模型”的權(quán)衡中起著關(guān)鍵作用。選擇取決于你更喜歡調(diào)整特征還是深入挖掘模型。根據(jù)李沐的話,前者相對(duì)容易,而后者在某些情況下可能更有潛力。Happy coding! ??????