人工智能AI面試題-3.2 樹形結(jié)構(gòu)的特征歸一化問題
**3.2 樹形結(jié)構(gòu)的特征歸一化問題 ??** 為啥樹結(jié)構(gòu)不必?fù)?dān)心歸一化呢?讓我們來揭開這個秘密!?? ?? **樹形結(jié)構(gòu)與特征歸一化** 在樹形結(jié)構(gòu)(如決策樹和隨機森林)中,不需要對特征進(jìn)行歸一化的原因是,數(shù)值的縮放并不會改變分裂點的位置,也不會影響樹模型的結(jié)構(gòu)。 ?? **排序的穩(wěn)定性** 樹模型中的特征排序是基于特征值的,而這個排序在數(shù)值縮放前后是不會改變的。因此,特征所屬的分支和分裂點位置都保持不變。 ?? **樹模型的特性** 樹模型是一種階躍函數(shù),不可導(dǎo)。在構(gòu)建樹模型時,尋找最優(yōu)分裂點是通過尋找最優(yōu)點完成的,因此不需要進(jìn)行導(dǎo)數(shù)計算,也就不需要歸一化。 既然樹形結(jié)構(gòu)不用歸一化,那為何其他模型(如Adaboost、SVM、LR、Knn、KMeans)需要呢?讓我們深入了解一下。?? ?? **線性模型與特征歸一化** 對于線性模型(例如邏輯回歸LR),當(dāng)特征之間的差異很大時,比如一個特征范圍在(0,1),另一個在(0,10000),使用梯度下降時,損失等高線呈橢圓形,需要多次迭代才能達(dá)到最優(yōu)點。 但如果進(jìn)行了歸一化,等高線將呈現(xiàn)圓形,促使梯度下降更快地接近原點,從而減少所需的迭代次數(shù)。 ?? **標(biāo)準(zhǔn)化和歸一化** 除了歸一化,我們還經(jīng)常提到標(biāo)準(zhǔn)化。那它們究竟是啥? ?? **標(biāo)準(zhǔn)化:** 特征的均值為0,方差為1。這可以通過以下公式表示:  **歸一化:** 將每個特征向量的值縮放到相同的數(shù)值范圍,如[0,1]或[-1,1]。最常見的歸一化形式是將特征向量調(diào)整為L1范數(shù),即確保特征向量中的數(shù)值之和為1。 這兩種方法用于確保數(shù)據(jù)點不因特征的規(guī)模而產(chǎn)生顯著差異,從而提高不同特征數(shù)據(jù)的可比性。 所以,記住,樹形結(jié)構(gòu)不需要特征歸一化,但對于線性模型等其他算法,特征歸一化是為了提高訓(xùn)練的效率和模型性能。 Happy coding! ??????