最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

25 使用塊的網(wǎng)絡 VGG【動手學深度學習v2】

2022-02-17 11:32 作者:如果我是泡橘子  | 我要投稿

VGG


  • Alexnet雖然證明了深層神經(jīng)網(wǎng)絡是有效果的,但是它最大的問題是模型不規(guī)則,結(jié)構(gòu)不是很清晰,沒有提供一個通用的模板來指導后續(xù)的研究人員設計新的網(wǎng)絡。如果模型想要變得更大、更深,則需要很好的設計思想,使得整個框架更加規(guī)則





如何使模型更深更大:


  • 更多的全連接層(缺點是全連接層很大的話會占用很多的內(nèi)存
  • 更多的卷積層(AlexNet是先將LeNet的模型給擴大之后,再加了三個卷積層,不好實現(xiàn)對模型進一步的加大、加深;VGG的思想是先將卷積層組成小塊,然后再將卷積層進行堆疊
  • 將卷積層組合成塊(VGG提出了VGG塊的概念,其實就是AlexNet思路的拓展:AlexNet中是三個一模一樣的卷積層(3*3,384通道,padding等于1)加上一個池化層(3*3,最大池化層,stride=2)組成了一個小塊:VGG塊是在此基礎上的拓展,它并不限制塊中卷積層的層數(shù)和通道數(shù)),最大池化層重新用回了LeNet中的最大池化層窗口(2*2,最大池化層,stride=2)


VGG的核心思想是使用大量由一定數(shù)目的3*3的卷積層和一個最大池化層組成的VGG塊進行堆疊,最終得到最后的網(wǎng)絡

  • 為什么使用的卷積層是3*3,而不是5*5?5*5的卷積層也用過,但是5*5的卷積層的計算量更大,所以層數(shù)就不會太大,VGG塊就會變得淺一點,最終通過對比發(fā)現(xiàn),在同樣的計算開銷之下,大量的3*3的卷積層堆疊起來比少量的5*5的卷積層堆疊起來的效果更好,也就是說模型更深、卷積窗口更小的情況下,效果會更好一點
  • VGG塊由兩部分組成:多個填充為1的3*3卷積層(它有兩個超參數(shù):層數(shù)n、通道數(shù)m)一個步幅為2的2*2最大池化層





經(jīng)典卷積神經(jīng)網(wǎng)絡的基本組成部分:


  • 帶填充的卷積層(用填充來保持分辨率)
  • 非線性激活函數(shù)(如ReLu)
  • 匯聚層(如最大匯聚層)





VGG基本組成部分:


  • 帶有3*3的卷積核填充為1(為了保持寬度和高度)的卷積層
  • 帶有2*2匯聚窗口、步幅為2(每個塊后的分辨率減半)的最大匯聚層





VGG架構(gòu)


  • 其實就是使用多個VGG塊進行堆疊來替換掉AlexNet中的卷積部分
  • VGG塊重復的次數(shù)不同可以得到不同的架構(gòu),比如VGG-16、VGG-19,···
  • 最后還是使用了兩個4096的全連接層得到輸出
  • VGG對AlexNet最大的改進是:將AlexNet在LeNet的基礎上新加的卷積層抽象出了VGG塊,替換掉了AlexNet中原先并不規(guī)則的部分
  • 類似于AlexNet、LeNet,VGG網(wǎng)絡也可以分成兩部分:第一部分主要由卷積層和匯聚層組成,第二部分由全連接層組成。從AlexNet到VGG,本質(zhì)上都是塊設計
  • 原始的VGG網(wǎng)絡有5個塊,前2個塊各有一個卷積層,后3個塊個包含兩個卷積層;第一個模塊有64個輸出通道,每個后續(xù)模塊將輸出通道的數(shù)量翻倍,直到達到512,由于該網(wǎng)絡使用了8個卷積層和三個全連接層,因此通常被稱為VGG-11這里為什么是5塊?因為原始輸入圖像的大小是224,每經(jīng)過一個VGG塊,輸出的通道數(shù)會翻倍、高寬會減半,當減到第五次時輸出的高寬為7,就不能再經(jīng)過VGG塊進行減半了)





發(fā)展


LeNet(1995)

  • 2個卷積層+池化層2個全連接層組成

AlexNet(2012)

  • 比LeNet更大更深
  • 加入了ReLu、Dropout、數(shù)據(jù)增強

VGG

  • 實際上就是一個更大更深的AlexNet





GluonCV Model Zoo

  • X軸表示不同的模型每秒鐘所做的推斷(Inference)的個數(shù),越往右表示越快
  • Y軸表示模型在ImageNet上的準確率(Accuracy),越往上表示準確率越高
  • AlexNet很快,但是精度并不是很高
  • VGG相比于AlexNet來說提升較大,但是代價就是犧牲速度來換取模型深度的增加,速度大概是AlexNet的1/6到1/5左右
  • 圖中圓圈的大小表示內(nèi)存的使用,圓圈越大表示所占用的內(nèi)存就越多,可以看到,VGG所占用的內(nèi)存較大
  • 因為VGG中可以選擇不同的VGG塊的個數(shù),所以就產(chǎn)生了一系列的VGG模型,模型越小精度越低但速度越快,模型越大精度越高但速度越慢
  • VGG模型雖然相比于AlexNet來說速度較慢,但是隨著硬件的提升,二者的在速度上的差距會越來越小





總結(jié)


  • VGG使用可重復使用的卷積塊來構(gòu)建深度卷積神經(jīng)網(wǎng)絡(將ALexNet中不規(guī)則的部分抽象出來做成了VGG塊,它是一種可復用的卷積塊
  • 通過配置不同的卷積塊個數(shù)通道數(shù)可以得到不同復雜度的變種(不同的VGG模型可以通過每個塊中卷積層數(shù)量和輸出通道數(shù)量的差異來定義
  • 這個思想在之后被大量使用:1、使用可重復的塊來構(gòu)建深度神經(jīng)網(wǎng)絡;2、網(wǎng)絡產(chǎn)生不同的配置
  • 塊的使用導致網(wǎng)絡定義的非常簡潔。使用塊可以有效地設計復雜的網(wǎng)絡。
  • 深層且窄的卷積(3×3)比淺層且寬的卷積更有效





Q&A


  • 在視覺領域,人工特征的研究還有沒有進展?研究如何設計更好的特征是不是也還有意義?尤其是提升研究能力方面?
    ?
    QA P3 - 00:07
    ?


  • 我們要學習特征值、特征向量和奇異值分解的知識嗎?
    ?
    QA P3 - 01:30
    ?


  • Colab單個會話的最長連續(xù)運行時間為12h,另外在運行中會輸入驗證碼,有沒有更好的方法?
    ?
    QA P3 - 01:58
    ?


  • 訓練loss一直下降,測試loss從開始起就一直不降,成水平狀,是什么原因呢?
    ?
    QA P3 - 02:14
    ?


  • 為什么VGG(1,1,224,224)的輸入高寬減半后,通道數(shù)是64?
    ?
    QA P3 - 02:52
    ?





----end----

其它參考:

1、《動手學深度學習》,https://zh-v2.d2l.ai/chapter_convolutional-modern/vgg.html

25 使用塊的網(wǎng)絡 VGG【動手學深度學習v2】的評論 (共 條)

分享到微博請遵守國家法律
耒阳市| 济南市| 兴安县| 宜州市| 崇阳县| 邵阳县| 房产| 奉新县| 梓潼县| 剑川县| 友谊县| 循化| 浮山县| 偃师市| 镇康县| 章丘市| 马鞍山市| 双辽市| 浮梁县| 中卫市| 宜兰市| 策勒县| 芦溪县| 鲁甸县| 新化县| 博野县| 宁安市| 塘沽区| 玉溪市| 咸丰县| 沙坪坝区| 龙海市| 肥西县| 司法| 富平县| 南京市| 旬阳县| 巴东县| 江都市| 黔江区| 酒泉市|