【論文復現(xiàn)代碼數(shù)據(jù)集見評論區(qū)】5小時精讀AlexNet Paper,吃透CV計算

AlexNet
《ImageNet Classification with Deep Convolutional Neural Network》基于深度卷積網絡的圖像分類
前期知識儲備
- 機器學習:了解機器學習基本原理及概念,如數(shù)據(jù)集劃分、損失函數(shù)、優(yōu)化方法等
- 神經網絡:了解神經網絡基本知識,特別是卷積神經網絡的工作原理等
- 圖像分類:了解圖像分類的概念,掌握圖像分類的流程
- PyTorch:了解PyTorch基本使用方法,如數(shù)據(jù)讀取處理、模型構建、損失優(yōu)化等
論文總覽

學習目標

目錄
1、論文導讀 背景介紹?
- 論文研究背景?CV-baselinel-AexNet-01-研究背景 P1 - 09:55?
- 論文研究成果及意義?CV-baselinel-AlexNet-02- 研究成果意義 P2 - 00:04?
- 小結?CV-baselinel-AlexNet-02- 研究成果意義 P2 - 09:21?
2、論文精讀
- 回顧?CV-baselinel-AlexNet-03-論文結構 P3 - 01:23?
- 論文結構?CV-baselinel-AlexNet-03-論文結構 P3 - 02:38?
- AlexNet結構?CV-baselinel-AlexNet-04-結構 P4 - 00:09?
- 訓練技巧?CV-baselinel-AlexNet-06-訓練技巧 P6 - 00:01?
- 實驗設置及結果分析?CV-baselinel-AlexNet-07實驗結果及分析 P7 - 00:02?
- 論文總結?CV-baselinel-AlexNet-08-論文總結 P8 - 00:02?
- 小結?CV-baselinel-AlexNet-08-論文總結 P8 - 16:49?
3、代碼實現(xiàn)
1、論文導讀 背景介紹?
論文研究背景?

CV領域常見的兩個數(shù)據(jù)集:
Mnist:10個類,灰度圖像,手寫體數(shù)字(圖片分辨率28*28)
Cifar-10:10個類,彩色圖像(圖片分辨率32*32)
ILSVRC-2012:1000個類,彩色圖像
ILSVRC
ImageNet Large Scale Visual Recognition Challenge
ImageNet大規(guī)模圖像識別挑戰(zhàn)賽

ILSVRC-2012數(shù)據(jù)集與ImageNet數(shù)據(jù)集的關系

- ImageNet官網:https://image-net.org/

top 5 error:五個類別中有一個預測正確了就不會懲罰模型,使其繼續(xù)優(yōu)化(這里的懲罰我理解為類似于最優(yōu)化方法中的罰函數(shù),用來評價函數(shù))
- 這里的minj d(x ,y)的計算是先將j個d(x , y)求出來然后取最小值?CV-baselinel-AexNet-01-研究背景 P1 - 22:27?
- d(x , y)的計算:x 和 y 相等則表達式為 0 ,否則為 1
- top 5 error最后將求得的minj d(x ,y)求和再取平均
強大的計算資源
580*2 6days

論文研究成果及意義
研究成果

AlexNet歷史意義



小結

2、論文精讀
回顧

論文結構


摘要

AlexNet結構

- 網絡連接方式
- 數(shù)據(jù)流計算
- 連接參數(shù)計算



- 向下取整
連接數(shù)量的計算

- Fi:輸入的個數(shù)
- Ks:卷積核大小
- Kn:卷積核的數(shù)量
- 池化層沒有權重參數(shù)
- 全連接層(FC)連接數(shù)量的計算:全連接層每一個神經元都與前面所有的特征圖神經元(Tensor size)相連接
- FC-1層的連接數(shù)量占了整個網絡結構的一半以上
AlexNet結構特點

ReLU的優(yōu)點

ReLU與Sigmoid函數(shù)的對比

- 藍色曲線表示函數(shù)
- 紅色曲線表示梯度
局部響應標準化
Local Response Normalization(LRN)

- b:經過LRN之后神經元的值
- a:神經元原始的值
- 等式右側的分母值越大,左側b的值就越小,從而實現(xiàn)了對神經元的抑制作用
- 當前神經元周圍如果有很大的值,則當前神經元會被抑制
- 現(xiàn)在很少會采用LRN,現(xiàn)在有了更好的BN(Batch Normalization)
Overlapping Pooling

- 上圖中的兩種池化方式是不帶重疊的池化方式,即pool size = stride ,相鄰兩個池化區(qū)域之間不會有重疊的部分
- 論文中提到的Overlapping Pooling 是帶重疊部分的池化操作,即pool size > stride , 相鄰兩個池化區(qū)域之間存在重疊的部分(如下圖中紅色陰影部分所示)

訓練技巧(減輕過擬合)
- Data Augmentation
- Dropout
Data Augmentation
- 方法一:針對位置

- 方法二:針對顏色

Dropout

- 詳細內容見另一篇筆記中的“正則化”部分中的內容:https://www.bilibili.com/read/cv13926486?spm_id_from=333.999.0.0
實驗設置及結果分析
- ILSVERC-2012比賽
- 卷積核可視化
- 特征相似性
ILSVERC-2012比賽

- * 表示預訓練
卷積核可視化

- 為什么只把第一個卷積層進行格式化?越往后卷積核越小,可視化后看不出什么東西;卷積越往后,特征越高級越抽象,人眼很難識別

特征相似性

- 歐氏距離

論文總結

關鍵點:
- 算法
- 算力
- 算料
創(chuàng)新點主要是:
- ReLu
- Data Augmentation
- FC層采用Dropout減輕過擬合

- 圖片縮放時先對短邊進行縮放,是為了避免短邊像素的缺失

小結
回顧本節(jié)內容,復習鞏固

3、代碼實現(xiàn)

----end----