散文網(wǎng) » 科技 »學(xué)習(xí) » 深度學(xué)習(xí)處理時間序列分類

深度學(xué)習(xí)處理時間序列分類

2022-07-10 09:30 作者:安靜的禿頭怪 0人讀過 | 我要投稿

參考王老師的ppt：https://github.com/wangshusen/DeepLearning

1. Processing Categorical Features 處理類別特征

處理分類特征屬于數(shù)據(jù)處理的第一步，數(shù)值特征（numerical feature）可以保留不作處理，但類別特征（categorical feature）必須轉(zhuǎn)換成獨熱向量（one-hot vector）。首先將類別特征轉(zhuǎn)成數(shù)值索引，然后根據(jù)數(shù)值索引轉(zhuǎn)成獨熱向量。

注：

1. 數(shù)值索引必須從1開始，因為索引0用于表示不清楚或空缺的具體類別。

????2. 數(shù)值索引必須轉(zhuǎn)成獨熱向量是因為數(shù)值計算量和存儲空間需求都很大。

2. Align Sequences 統(tǒng)一序列

每個時間序列的長度不一致，我們必須將其處理成同等長度的序列。我們可以設(shè)置一個閾值w，所有長度大于w的序列裁剪掉前面一部分（或后面一部分）的數(shù)據(jù)，所有長度小于w的序列用null補滿。

3. Processing Text Data 處理文本數(shù)據(jù)

1. Tokenization（Text to Words）

char-level：一個字符是一個token
word-level：一個單詞是一個token

2. Count Word Frequencies

統(tǒng)計每個token的出現(xiàn)次數(shù)，排序后將其按排名轉(zhuǎn)成數(shù)值索引，并去除部分低頻token，最終整合成的哈希表就是字典dictionary。

3. One-Hot Encoding

將每個token的數(shù)值索引轉(zhuǎn)成獨熱變量，不存在的或錯誤的token可以編碼為0。

4. Word Embedding：word to vector 詞嵌入

由于字典中token數(shù)量過多，像英語單詞就能達到10K以上的數(shù)量，這樣轉(zhuǎn)成的獨熱向量維度很大，因此我們通過詞嵌入的方式將每個向量進一步處理成低維向量。

該參數(shù)矩陣P可以直接使用網(wǎng)上現(xiàn)成的詞向量矩陣，也可以使用模型進行訓(xùn)練，包括CBOW（Continuous bag of words連續(xù)詞袋模型）、Skip-gram、GloVe（global vector）、FastText（將英文單詞分割成兩部分，分別進行embedding，即子詞嵌入subword embedding）等等。

注：embedding參數(shù)矩陣可以pretraining，否則詞向量維度過高會導(dǎo)致overfitting。
Train a model on large dataset。
Keep only the embedding layer。
Train new LSTM and output layers。

5. RNN/LSTM/Stacked RNN/Bi-RNN/Bi-LSTM/Seq2Seq/Attention/Self-attention/Transformer 選擇深度學(xué)習(xí)模型訓(xùn)練

RNN

缺點：RNN不擅長分析長序列，會遺忘最前面的數(shù)據(jù)信息。

LSTM

LSTM用于解決RNN對前面數(shù)據(jù)的遺忘問題，GRU（Gate Recurrent Unit）是LSTM的變體。LSTM包括傳送帶Conveyor Belt、遺忘門Forget Gate、輸入門Input Gate、New Value和輸出門Output Gate，而GRU只包括更新門和重置門。

Stacked RNN

GRU（Gate Recurrent Unit）

Bi-RNN（Bidirectional RNN）

Bi-LSTM（Bidirectional LSTM）

Seq2Seq

Loss：CrossEntropy（y，p）損失函數(shù)的值越小，說明下一個字母預(yù)測越準(zhǔn)確，損失函數(shù)計算梯度并將梯度反向傳播回到Encoder和Decoder，并通過梯度下降優(yōu)化兩個模型的參數(shù)，一直迭代使得損失越來越小。Encoder可以改用Bi-LSTM，但Decoder不能，因為Decoder本質(zhì)上是一個文本生成器，必須從左到右閱讀預(yù)測。