深度學(xué)習(xí)面試題專欄06
01?什么是交叉驗(yàn)證,優(yōu)點(diǎn)有什么
02?常見的交叉驗(yàn)證方法包括
03?如何在K折交叉驗(yàn)證中選擇K?
04?什么是準(zhǔn)確率,精準(zhǔn)率,召回率和F1分?jǐn)?shù)
05?P-R曲線顯示了什么內(nèi)容
06?什么是AUC?
07?什么是正則化?如何理解正則化?
08?歸一化和標(biāo)準(zhǔn)化的區(qū)別
09?特征工程有哪些步驟
10?什么是組合特征
01?什么是交叉驗(yàn)證,優(yōu)點(diǎn)有什么
交叉驗(yàn)證(Cross-Validation)是一種用于評(píng)估機(jī)器學(xué)習(xí)模型性能和減少過擬合的技術(shù)。它將數(shù)據(jù)集分成多個(gè)子集,然后多次訓(xùn)練和測(cè)試模型,以便充分地評(píng)估模型的泛化性能。
交叉驗(yàn)證的步驟如下:
數(shù)據(jù)集分割:首先,將原始數(shù)據(jù)集分成K個(gè)相似大小的子集,其中K通常被稱為“折疊”(Folds)的數(shù)量。
模型訓(xùn)練和測(cè)試:接下來,重復(fù)K次訓(xùn)練和測(cè)試的過程。在每一次迭代中,其中一個(gè)子集被用作測(cè)試集,而其余K-1個(gè)子集被用作訓(xùn)練集。模型在訓(xùn)練集上進(jìn)行訓(xùn)練,并在測(cè)試集上進(jìn)行測(cè)試。
性能度量:在每一次迭代中,可以計(jì)算模型在測(cè)試集上的性能指標(biāo),如準(zhǔn)確率、均方誤差、F1分?jǐn)?shù)等。
性能匯總:將K次迭代的性能指標(biāo)進(jìn)行平均或合并,以獲得最終的性能評(píng)估結(jié)果。這可以用于評(píng)估模型的性能和泛化能力。
交叉驗(yàn)證的主要優(yōu)點(diǎn)包括:
充分利用了有限的數(shù)據(jù),提供了對(duì)模型性能的可靠估計(jì)。
可以檢測(cè)模型是否出現(xiàn)過擬合或欠擬合的問題。
提供了對(duì)模型性能的穩(wěn)健評(píng)估,減少了隨機(jī)性的影響。
02?常見的交叉驗(yàn)證方法包括
k折交叉驗(yàn)證(k-Fold Cross-Validation):將數(shù)據(jù)分成K個(gè)折疊,依次使用其中一個(gè)折疊作為測(cè)試集,其余折疊作為訓(xùn)練集。
留一交叉驗(yàn)證(Leave-One-Out Cross-Validation,LOOCV):每個(gè)樣本單獨(dú)作為一個(gè)測(cè)試集,其余樣本作為訓(xùn)練集。適用于小數(shù)據(jù)集。
分層k折交叉驗(yàn)證(Stratified k-Fold Cross-Validation):確保每個(gè)折疊中的類別分布與整個(gè)數(shù)據(jù)集中的類別分布相似,通常在分類問題中使用。
時(shí)間序列交叉驗(yàn)證(Time Series Cross-Validation):適用于時(shí)間序列數(shù)據(jù),保持時(shí)間順序,避免未來信息泄漏。
03?如何在K折交叉驗(yàn)證中選擇K?
選擇K值(K-Fold數(shù))對(duì)于K折交叉驗(yàn)證是一個(gè)重要的決策,因?yàn)樗鼤?huì)影響交叉驗(yàn)證的評(píng)估結(jié)果和計(jì)算成本。選擇合適的K值取決于你的數(shù)據(jù)集和問題的性質(zhì)。以下是一些關(guān)于如何選擇K值的一些建議:
數(shù)據(jù)集大小:如果你的數(shù)據(jù)集很小,K可以選擇較小的值,如5或10。較小的K值可以更充分地利用有限的數(shù)據(jù)。對(duì)于大型數(shù)據(jù)集,可以選擇較大的K值,如10或更大。
計(jì)算資源:較大的K值意味著需要進(jìn)行更多的訓(xùn)練和測(cè)試迭代。如果計(jì)算資源有限,你可能需要選擇較小的K值,以減少計(jì)算成本。
模型復(fù)雜度:如果你的模型非常復(fù)雜,可能需要更多的訓(xùn)練數(shù)據(jù)來充分?jǐn)M合模型。在這種情況下,可以選擇較大的K值,以確保每個(gè)訓(xùn)練集都足夠大。
數(shù)據(jù)分布:考慮數(shù)據(jù)的分布和特性。如果數(shù)據(jù)存在不平衡類別或具有特定的時(shí)間序列結(jié)構(gòu),分層k折交叉驗(yàn)證可能更合適。
穩(wěn)定性:對(duì)于某些問題,不同的K值可能導(dǎo)致評(píng)估結(jié)果的變化??梢試L試不同的K值并比較它們的結(jié)果,以確保評(píng)估的穩(wěn)定性。
等等
04?什么是準(zhǔn)確率,精準(zhǔn)率,召回率和F1分?jǐn)?shù)
準(zhǔn)確率(Accuracy):
定義:準(zhǔn)確率是指模型正確分類的樣本數(shù)量占總樣本數(shù)量的比例。它是最常用的分類性能指標(biāo)之一。
計(jì)算公式:Accuracy=正確分類的樣本數(shù)總樣本數(shù)/總樣本數(shù)正確分類的樣本數(shù)
優(yōu)點(diǎn):簡(jiǎn)單易懂,適用于平衡類別分布的問題。
缺點(diǎn):在不平衡類別分布下,準(zhǔn)確率可能會(huì)產(chǎn)生誤導(dǎo)。
精確率(Precision):
定義:精確率是指模型預(yù)測(cè)為正類別并且實(shí)際為正類別的樣本數(shù)量占所有預(yù)測(cè)為正類別的樣本數(shù)量的比例。
計(jì)算公式:Precision=True?Positives?/(True?Positives?+?False?Positives)
用途:用于衡量模型的預(yù)測(cè)正類別的準(zhǔn)確性,關(guān)注的是模型的假陽(yáng)性率。
召回率(Recall):
定義:召回率是指模型預(yù)測(cè)為正類別并且實(shí)際為正類別的樣本數(shù)量占所有實(shí)際正類別的樣本數(shù)量的比例。
計(jì)算公式:Recall=True?Positives/(?False?Negatives?+?False?Negatives)
用途:用于衡量模型能夠捕獲實(shí)際正類別的能力,關(guān)注的是模型的假陰性率。
F1分?jǐn)?shù)(F1 Score):
定義:F1分?jǐn)?shù)是精確率和召回率的調(diào)和平均,綜合考慮了模型的精確性和召回能力。
計(jì)算公式:F1?Score=2?Precision?Recall/(Precision+Recall)
用途:F1分?jǐn)?shù)是一個(gè)綜合性能指標(biāo),對(duì)于不平衡類別分布的問題很有用,它平衡了精確率和召回率之間的權(quán)衡。
05?P-R曲線顯示了什么內(nèi)容
P-R(Precision-Recall)曲線顯示了在不同分類閾值下模型的精確率(Precision)和召回率(Recall)之間的權(quán)衡關(guān)系。P-R曲線是評(píng)估二分類模型性能的有用工具,特別是在類別不平衡的情況下。
P-R曲線的主要內(nèi)容如下:
精確率(Precision):P-R曲線的橫軸通常表示精確率。
召回率(Recall):P-R曲線的縱軸通常表示召回率。
曲線形狀:P-R曲線的形狀可以告訴你在不同分類閾值下模型精確率和召回率之間的權(quán)衡情況。曲線通常從(0,0)開始,然后隨著分類閾值的增加而上升。曲線越接近左上角,模型的性能越好,因?yàn)樗诒3指呔_率的同時(shí)實(shí)現(xiàn)了高召回率。
面積下的積分(AUC-PR):P-R曲線下的面積(Area Under the P-R Curve,AUC-PR)是一個(gè)常用的性能評(píng)估指標(biāo)。AUC-PR越大,模型的性能越好,因?yàn)樗硎玖四P驮诓煌撝迪戮S持高精確率和高召回率之間的平衡能力。
P-R曲線通常在類別不平衡的問題中使用,因?yàn)樵谶@些問題中,準(zhǔn)確率可能會(huì)受到不平衡類別分布的影響,而P-R曲線能夠更全面地反映模型的性能。根據(jù)實(shí)際問題和需求,可以選擇不同的分類閾值來獲得適合任務(wù)的精確率和召回率權(quán)衡。
06?什么是AUC?
AUC(Area Under the Curve)是一種用于評(píng)估分類模型性能的常見指標(biāo)之一。它通常用于衡量二分類模型(例如,邏輯回歸、支持向量機(jī)、隨機(jī)森林等)在不同閾值下的性能表現(xiàn)。
AUC是一個(gè)介于0和1之間的數(shù)值,表示模型在不同閾值下的真正例率(True Positive Rate,也稱為召回率)與假正例率(False Positive Rate)之間的權(quán)衡關(guān)系。
AUC的計(jì)算涉及繪制ROC曲線,ROC曲線以FPR為橫軸,TPR為縱軸,通常以不同的閾值繪制。AUC則表示ROC曲線下的面積,通常在0到1之間,數(shù)值越接近1表示模型性能越好,0.5表示模型性能等于隨機(jī)猜測(cè)。
一般來說,AUC越高,表示模型在不同閾值下的性能越穩(wěn)定,更能區(qū)分正例和負(fù)例。因此,AUC是評(píng)估分類模型性能的有用指標(biāo)之一,特別適用于處理類別不平衡的數(shù)據(jù)集。
07?什么是正則化?如何理解正則化?
正則化是一種用于機(jī)器學(xué)習(xí)和統(tǒng)計(jì)建模的技術(shù),旨在防止模型過擬合(overfitting)訓(xùn)練數(shù)據(jù),從而提高其泛化能力。正則化通過向模型的損失函數(shù)中添加一個(gè)附加項(xiàng)(通常是正則化項(xiàng))來實(shí)現(xiàn),這個(gè)附加項(xiàng)對(duì)模型參數(shù)的大小或復(fù)雜度進(jìn)行懲罰。
在線性回歸、邏輯回歸、神經(jīng)網(wǎng)絡(luò)等各種機(jī)器學(xué)習(xí)模型中,正則化通常采用以下兩種常見的形式:
L1 正則化(Lasso 正則化):L1 正則化向損失函數(shù)中添加模型參數(shù)的絕對(duì)值之和(L1范數(shù)),這通常表示為λ * Σ|θ_i|,其中λ是正則化強(qiáng)度的超參數(shù),θ_i是模型參數(shù)。L1 正則化有助于稀疏特征選擇,因?yàn)樗鼉A向于將一些參數(shù)壓縮為零,從而減少了模型的復(fù)雜性。
L2 正則化(Ridge 正則化):L2 正則化向損失函數(shù)中添加模型參數(shù)的平方之和(L2范數(shù)),這通常表示為λ * Σ(θ_i^2),其中λ是正則化強(qiáng)度的超參數(shù),θ_i是模型參數(shù)。L2 正則化有助于防止模型參數(shù)過大,從而降低了模型對(duì)訓(xùn)練數(shù)據(jù)的敏感性,通常有助于減輕過擬合。
正則化的目標(biāo)是找到一個(gè)平衡點(diǎn),既能夠擬合訓(xùn)練數(shù)據(jù),又能夠控制模型的復(fù)雜性,以便模型能夠在新的、未見過的數(shù)據(jù)上表現(xiàn)良好。正則化的重要性在于它有助于避免模型對(duì)訓(xùn)練數(shù)據(jù)的過度擬合,提高了模型的泛化能力。選擇適當(dāng)?shù)恼齽t化強(qiáng)度(通過調(diào)整λ值)通常需要進(jìn)行交叉驗(yàn)證或其他模型選擇技術(shù)。正則化是許多機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)模型中常用的技術(shù),有助于改進(jìn)模型的性能和穩(wěn)定性。
08?歸一化和標(biāo)準(zhǔn)化的區(qū)別
歸一化(Normalization)和標(biāo)準(zhǔn)化(Standardization)都是數(shù)據(jù)預(yù)處理的技術(shù),用于調(diào)整數(shù)據(jù)的尺度或分布,以便更好地適應(yīng)各種機(jī)器學(xué)習(xí)算法。
歸一化(Normalization):
歸一化是將數(shù)據(jù)縮放到固定的范圍,通常是[0, 1]或[-1, 1]。它的目標(biāo)是將數(shù)據(jù)映射到一個(gè)特定的范圍,以便所有特征都具有相似的尺度。
常見的歸一化方法包括最小-最大縮放(Min-Max Scaling)和區(qū)間縮放(Range Scaling)。最小-最大縮放將數(shù)據(jù)映射到[0, 1]范圍內(nèi),區(qū)間縮放將數(shù)據(jù)映射到[-1, 1]范圍內(nèi)。
歸一化對(duì)于需要將特征尺度歸一化的算法(例如,支持向量機(jī)和K均值聚類)非常有用,因?yàn)檫@些算法對(duì)特征的尺度非常敏感。
標(biāo)準(zhǔn)化(Standardization):
標(biāo)準(zhǔn)化的目標(biāo)是將數(shù)據(jù)轉(zhuǎn)化為均值為0,標(biāo)準(zhǔn)差為1的標(biāo)準(zhǔn)正態(tài)分布(也稱為Z分?jǐn)?shù)分布)。標(biāo)準(zhǔn)化不會(huì)限定數(shù)據(jù)的范圍,而是調(diào)整數(shù)據(jù)的分布,使其具有零均值和單位方差。
常見的標(biāo)準(zhǔn)化方法是Z-score標(biāo)準(zhǔn)化,即將每個(gè)特征的值減去其均值,然后除以其標(biāo)準(zhǔn)差。
標(biāo)準(zhǔn)化通常用于對(duì)數(shù)據(jù)分布形狀不做假設(shè)的算法,例如線性回歸、邏輯回歸、神經(jīng)網(wǎng)絡(luò)等。標(biāo)準(zhǔn)化有助于確保不同特征具有相似的尺度,但不強(qiáng)制將它們映射到特定的范圍。
總結(jié)來說,歸一化主要關(guān)注于調(diào)整數(shù)據(jù)的尺度,以確保特征在相似的范圍內(nèi),而標(biāo)準(zhǔn)化主要關(guān)注于調(diào)整數(shù)據(jù)的分布,以確保均值和標(biāo)準(zhǔn)差都滿足特定要求。
09?特征工程有哪些步驟
數(shù)據(jù)預(yù)處理:
數(shù)據(jù)預(yù)處理是特征工程的第一步,旨在準(zhǔn)備原始數(shù)據(jù)以供后續(xù)特征選擇和提取使用。
通常包括處理缺失值、處理異常值、數(shù)據(jù)標(biāo)準(zhǔn)化或歸一化、數(shù)據(jù)清洗和處理重復(fù)值等。
數(shù)據(jù)預(yù)處理確保數(shù)據(jù)在進(jìn)行特征工程之前是干凈、一致和適合建模的。
特征選擇:
特征選擇是從所有可用特征中選擇最相關(guān)和最有價(jià)值的特征的過程。
旨在降低維度、減少模型的復(fù)雜性,并提高模型的性能和泛化能力。
特征選擇方法可以包括過濾方法(如相關(guān)性、方差閾值等)、包裝方法(如遞歸特征消除)、嵌入方法(如L1正則化)、特征重要性評(píng)估等。
特征提取:
特征提取是創(chuàng)建新特征或從原始數(shù)據(jù)中抽取有用信息的過程。
旨在構(gòu)建更具信息量的特征,以幫助模型更好地理解數(shù)據(jù)。
特征提取方法可以包括從文本中提取關(guān)鍵詞、對(duì)時(shí)間序列進(jìn)行分解、降維技術(shù)(如主成分分析、t-SNE等)等。
10?什么是組合特征
組合特征(Composite Features)是由原始特征組合而成的新特征,這些新特征通常以某種方式匯總或結(jié)合了原始特征的信息,以提供更有信息量的特征。組合特征的目的是通過考慮特征之間的關(guān)系和交互來改進(jìn)機(jī)器學(xué)習(xí)模型的性能。
以下是一些常見的組合特征的示例:
數(shù)值特征的組合:
可以通過對(duì)兩個(gè)或多個(gè)數(shù)值特征進(jìn)行加法、減法、乘法、除法等操作來創(chuàng)建新的數(shù)值組合特征。例如,可以將身高和體重結(jié)合成BMI指數(shù),或?qū)蓚€(gè)時(shí)間戳相減以計(jì)算時(shí)間間隔。
類別特征的組合:
對(duì)類別特征進(jìn)行組合可以創(chuàng)建新的特征,通常使用one-hot編碼或嵌入技術(shù)來表示類別特征的組合。例如,在自然語(yǔ)言處理中,可以將兩個(gè)單詞的詞向量相加以獲得它們的語(yǔ)義組合。
交互特征:
交互特征是指在模型中考慮兩個(gè)或多個(gè)特征之間的相互作用。這通常涉及到將特征相乘或采用其他非線性函數(shù),以捕捉特征之間的關(guān)系。例如,在推薦系統(tǒng)中,可以將用戶的評(píng)分與物品的熱度相乘以獲得用戶對(duì)物品的興趣程度。
特征組合的統(tǒng)計(jì)匯總:
可以對(duì)一組特征進(jìn)行統(tǒng)計(jì)匯總,如平均值、總和、方差等,以創(chuàng)建新的特征,用于表示原始特征的集合信息。
文本特征的N-gram表示:
在自然語(yǔ)言處理中,N-gram表示是通過考慮文本中連續(xù)的N個(gè)單詞或字符來創(chuàng)建新的特征。這可以捕捉文本中的局部信息和語(yǔ)法結(jié)構(gòu)。
等等!