要預測第二句話是否確實與第一句話相關,請執(zhí)行以下步驟:
整個輸入序列通過Transformer模型。
[CLS]標記的輸出使用簡單的分類層(權重和偏差的學習矩陣)轉換為2×1形狀的矢量。
用softmax計算IsNextSequence的概率。
在訓練BERT模型時,將同時屏蔽Masked LM和Next Sentence Prediction,目的是最小化這兩種策略的組合損失函數(shù)