【一起啃書】深度學習入門(三)
2023-08-04 16:30 作者:Eric_Richard | 我要投稿


dx[np.arange(batch_size), self.t] -= 1 對于else后面的代碼我是這么理解的,為什么要-1呢。if判斷語句為真時,t就是one-hot編碼的,e.g[0, 1, 0],else就是t是存的都是index的情況,e.g[2, 1, 2],那么如圖所示,我們得到的反向誤差是yi-ti,其實真正有用的數(shù)據就是one-hot中為1的值所對應的index,所以這里就直接利用softmax輸出的y的值,然后利用每個行坐標下對應的列坐標index的dx直接減去1,達到的效果和t為one-hot編碼得到的是一樣的。希望我這么說能解釋清楚,還沒弄懂的可以像我一樣寫寫畫畫
標簽: