深度學習【達觀杯】文本智能處理挑戰(zhàn)賽指導(NLP方向)
數(shù)據(jù)預處理:表情、符號會影響后續(xù)的處理,所以去掉;
特征工程:生成向量=feature;(是機器學習中最重要的部分,深度學習也是完成這一步。有個說法是:特征決定了機器學習的上限,而機器學習算法只是為了逼近這個上限)
模型的輸入輸出:都是模型所規(guī)定好的特征空間和類別空間。
注:字和詞:單個詞才能表達一個完整的意思,比如“垃圾”,分開一個字意思,就不能夠表達組合的意思(有些情況是可以的)。
1.3 脫敏數(shù)據(jù)
標簽: