不能使用最后一層的Encoder Block的MLP Block的特征矩陣做A反向傳播求梯度矩陣A',因為其每一個token(即特征矩陣的每一行)沒有和其他176個token做信息交換。所以必須選取最后一層的Encoder Block的做自注意力前的輸入。