機(jī)器學(xué)習(xí)建模的問(wèn)題大全

一、數(shù)據(jù)預(yù)處理
1、數(shù)據(jù)缺失值的處理:除了簡(jiǎn)單的填均值、眾數(shù)外在競(jìng)賽中還有哪些方法有效提升分?jǐn)?shù);
2、數(shù)據(jù)異常值的處理:如何判斷是否要處理異常值;若要處理,如何篩選出異常值,
如何對(duì)異常值做處理能有效提升分?jǐn)?shù);
3、如何分析訓(xùn)練集和測(cè)試集的特征分布及影響;
4、對(duì)特征分布影響預(yù)測(cè)效果的分析,如何修正特征分布能提升預(yù)測(cè)分?jǐn)?shù),比如 log變
換等,如何使用?;貧w問(wèn)題的標(biāo)簽列是否需要做變換。
5、類別變量的處理技巧
6.高維度如何降維?
二、特征工程
1、特征和特征之間、特征和標(biāo)簽之間的關(guān)系如何分析和利用,在競(jìng)賽中有效的方法有哪些?
2.有時(shí)用相關(guān)系數(shù)法對(duì)特征-標(biāo)簽進(jìn)行分析,都是無(wú)相關(guān)性,這時(shí)要怎么利用特征呢?
3、特征數(shù)量較少時(shí),是否需要構(gòu)造新特征,常用的構(gòu)造方法有哪些呢,如何評(píng)估構(gòu)造的新特征好壞?實(shí)踐中手動(dòng)構(gòu)造特征較為低效,特征構(gòu)造的有哪些高效的工具可用?匿名特征如何構(gòu)造分析?
4、特征數(shù)量較多時(shí),是否需要特征選擇,常用的選擇方法有哪些,如何結(jié)合多方法綜合評(píng)估,如何評(píng)估選擇結(jié)果的好壞?
三、模型訓(xùn)練
1、怎么讀取數(shù)據(jù)
2、怎么劃分訓(xùn)練集和驗(yàn)證集
四、模型調(diào)參
1、在模型訓(xùn)練時(shí)要配置哪些參數(shù)?
2、邏輯回歸,SVM,神經(jīng)網(wǎng)絡(luò),XGBoost和 LightGBM等模型的調(diào)參參數(shù)及參數(shù)范圍是多少?
3、模型自動(dòng)化調(diào)參GridSearch 和 RandomSearch是什么?
五、模型驗(yàn)證
1.模型驗(yàn)證指標(biāo)有哪些?
2.模型驗(yàn)證指標(biāo)怎么選擇?
3.accuracy是什么?
4.ks是什么指標(biāo)?
5.AUC是什么指標(biāo)?
6.混淆矩陣是什么?
7.PSI是什么?
8.模型區(qū)分能力指標(biāo)有哪些?
9.模型穩(wěn)定性指標(biāo)有哪些?
六、融合模型
1.stacking融合模型在kaggle競(jìng)賽應(yīng)用
2.stacking融合模型原理是?
3.融合模型可以提高accuracy準(zhǔn)確率嗎?
4.stacking融合模型可以提高AUC嗎?
5.stacking融合模型可以提高f1分?jǐn)?shù)嗎?
6.stacking融合模型如何繪制決策域decision region?
7.如何用概率值作為元特征訓(xùn)練融合模型?
8.stacking融合模型和gridsearch網(wǎng)格調(diào)參
9.stacking融合模型和機(jī)器學(xué)習(xí)管道pipeline綜合應(yīng)用
10.stacking融合模型python腳本是?
七、非平衡數(shù)據(jù)
1.非平衡數(shù)據(jù)是什么?
2.非平衡數(shù)據(jù)對(duì)模型有什么壞處?
3.解決非平衡數(shù)據(jù)方法(欠采樣,過(guò)采樣,SMOTE)
4.SMOTE非平衡數(shù)據(jù)處理python腳本是?
八、異常樣本檢測(cè)
1、異常樣本檢測(cè)問(wèn)題如何分析建模。
2、異常值檢驗(yàn)方法有哪些?
歡迎各位同學(xué)了解<python機(jī)器學(xué)習(xí)-乳腺癌細(xì)胞挖掘>課程,解決上述問(wèn)題,系統(tǒng)化學(xué)習(xí)機(jī)器學(xué)習(xí)建模知識(shí)

版權(quán)聲明:文章來(lái)自公眾號(hào)(python風(fēng)控模型),未經(jīng)許可,不得抄襲。遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明。