唐宇迪數(shù)據(jù)科學人工智能-必備數(shù)學基礎(chǔ)
Step 3: Feature Engineering
理論上來說,特征工程應(yīng)該也歸屬于上一步,但是它太重要了,所以將它單獨拿出來。kaggle社區(qū)對特征工程的重要性已經(jīng)達成了共識,可以說最后結(jié)果的好壞,大部分就是由特征工程決定的,剩下部分應(yīng)該是調(diào)參和Ensemble決定。特征工程的好壞主要是由domain knowledge決定的,但是大部分人可能并不具備這種知識,那么只能盡可能多的根據(jù)原來feature生成新的feature,然后讓模型選擇其中重要的feature。這里就又涉及到feature selection,
有很多方法,比如backward,forward selection等等。我個人傾向于用random forest的
標簽: