唐宇迪NLP-文本相似度
將一列的month數(shù)據(jù)展開為了12列,用0、1代表類別。
另外在處理categorical feature有兩點(diǎn)值得注意:
如果特征中包含大量需要做dummy variable處理的,那么很可能導(dǎo)致得到一個(gè)稀疏的dataframe,這時(shí)候最好用下PCA做降維處理。
如果某個(gè)特征有好幾萬個(gè)取值,那么用dummy variable就并不現(xiàn)實(shí)了,這時(shí)候可以用
標(biāo)簽: