最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

將深度學(xué)習(xí)與傳統(tǒng)計算機視覺進行比較

2023-06-16 10:02 作者:BFT白芙堂機器人  | 我要投稿

原創(chuàng) | 文 BFT機器人

圖片


深度學(xué)習(xí) (DL) 在數(shù)字圖像處理中用于解決難題(例如,圖像著色、分類、分割和檢測)。卷積神經(jīng)網(wǎng)絡(luò) (CNN) 等深度學(xué)習(xí)方法通過使用大數(shù)據(jù)和豐富的計算資源提高預(yù)測性能,突破了可能性的界限。


深度學(xué)習(xí)是機器學(xué)習(xí)的一個子集。


人工神經(jīng)網(wǎng)絡(luò) (ANN) 是一種受人腦功能啟發(fā)的計算范式,是深度學(xué)習(xí)的核心。它包含許多計算單元或“神經(jīng)元”,它們執(zhí)行簡單的操作并相互交互以做出決定,就像人腦一樣。深度學(xué)習(xí)是關(guān)于準(zhǔn)確、高效、無監(jiān)督學(xué)習(xí)或跨越許多神經(jīng)網(wǎng)絡(luò)層的“信用分配”


由于處理硬件的進步,它最近引起了人們的興趣。自組織和利用小型單元之間的交互已被證明比中央控制執(zhí)行得更好,特別是對于復(fù)雜的非線性過程模型??梢詫崿F(xiàn)更好的容錯性和對新數(shù)據(jù)的適應(yīng)性。


深度學(xué)習(xí)是否導(dǎo)致傳統(tǒng)計算機視覺(CV) 技術(shù)過時?深度學(xué)習(xí)是否取代了傳統(tǒng)的計算機視覺?當(dāng) DL 看起來如此有效時,是否還有必要研究傳統(tǒng)的 CV 技術(shù)?這些都是近年來社會上提出的問題。這篇文章將提供深度學(xué)習(xí)和傳統(tǒng)計算機視覺的比較。


01

深度學(xué)習(xí)的優(yōu)勢


深度學(xué)習(xí)和設(shè)備功能(例如計算能力、內(nèi)存容量、圖像傳感器分辨率、功耗和光學(xué))的快速進步提高了基于視覺的應(yīng)用程序的性能和成本效益,加速了它們的傳播。


與傳統(tǒng)的 CV 技術(shù) (SLAM) 相比,DL 允許 CV 工程師在圖像分類、語義分割、對象檢測以及同時定位和映射方面實現(xiàn)更高的準(zhǔn)確性。因為 DL 應(yīng)用程序使用經(jīng)過訓(xùn)練而非編程的神經(jīng)網(wǎng)絡(luò)。他們通常需要較少的專家分析和微調(diào),并且可以利用當(dāng)今系統(tǒng)中可用的海量視頻數(shù)據(jù)。


與更多領(lǐng)域特定的 CV 算法相比,我們可以以移動機器人上的目標(biāo)檢測問題為例來比較這兩種計算機視覺算法:對于目標(biāo)檢測,傳統(tǒng)方法是使用成熟的 CV 技術(shù),如特征描述符(SIFT、SURF、BRIEF 和很快)。


在 DL 出現(xiàn)之前,特征提取用于圖像分類等任務(wù)。特征是圖像中“有趣的”、描述性的或提供信息的小塊。此步驟可能涉及各種 CV 算法,例如邊緣檢測、角點檢測或閾值分割。分析圖像的盡可能多的特征,這些特征用于為每個對象類創(chuàng)建一個定義(稱為詞袋)。在部署階段在其他圖像中搜索這些定義。


傳統(tǒng)方法的問題在于它需要確定每個圖像中哪些特征是重要的。


隨著要分類的類別數(shù)量的增加,特征提取變得越來越困難。為了確定哪些特征最能描述不同類別的對象,CV 工程師必須使用他或她的判斷并經(jīng)歷漫長的試錯過程。此外,每個特征定義都需要管理大量參數(shù),CV 工程師必須對所有這些參數(shù)進行微調(diào)。


端到端學(xué)習(xí)是由 DL 引入的,其中機器只是簡單地獲得一個圖像數(shù)據(jù)集,并用每個圖像中存在的對象類別進行注釋。


眾所周知,DNN 優(yōu)于傳統(tǒng)算法,盡管需要在計算要求和訓(xùn)練時間方面做出權(quán)衡。所有最先進的 CV 方法都使用這種方法,CV 工程師的工作流程發(fā)生了巨大變化,提取手工制作特征的知識和專業(yè)知識被迭代深度學(xué)習(xí)架構(gòu)的知識和專業(yè)知識所取代。


近年來,CNN 的發(fā)展對 CV 產(chǎn)生了巨大的影響,并導(dǎo)致物體識別能力的顯著提高。計算能力的提高和可用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)量的增加使得這種進步得以實現(xiàn)。


開創(chuàng)性論文 ImageNet Classification with Deep Convolutional Neural Networks 已被引用超過 3000 次,這表明最近 CV 的各種深度神經(jīng)網(wǎng)絡(luò)架構(gòu)呈爆炸式增長并得到廣泛采用。CNN 使用內(nèi)核(也稱為過濾器)來檢測整個圖像的特征(例如邊緣)。


內(nèi)核只是經(jīng)過訓(xùn)練以檢測特定特征的值的加權(quán)矩陣。


顧名思義,CNN 背后的主要思想是在給定輸入圖像上對內(nèi)核進行空間卷積,以查看是否存在它應(yīng)該檢測的特征。


卷積運算通過計算核與核重疊的輸入?yún)^(qū)域的點積來執(zhí)行,以提供一個值,該值表示存在特定特征的置信度(核正在查看的原始圖像區(qū)域是稱為感受野)。卷積層的輸出與偏置項相加,然后饋送到非線性激活函數(shù)以幫助學(xué)習(xí)內(nèi)核權(quán)重。


這些激活函數(shù)是根據(jù)數(shù)據(jù)的性質(zhì)和分類任務(wù)來選擇的。例如,ReLU 被認(rèn)為具有更高的生物學(xué)表現(xiàn)(大腦中的神經(jīng)元要么放電,要么不放電)。因此,它產(chǎn)生更稀疏、更有效的表示,并且不易受消失梯度問題的影響,從而為圖像識別任務(wù)帶來更好的結(jié)果。


池化層經(jīng)常跟在卷積層之后,以去除輸入特征中的冗余,從而加快訓(xùn)練過程并減少網(wǎng)絡(luò)消耗的內(nèi)存量。


例如,Max-pooling 在輸入上移動一個窗口并輸出該窗口中的最大值,從而有效地減少圖像的重要像素。卷積層和池化層可以在深度 CNN 中以多對形式找到。


最后,全連接層將前一層的體積扁平化為特征向量,然后是使用密集網(wǎng)絡(luò)計算輸出類/特征的分?jǐn)?shù)(置信度或概率)的輸出層。然后將此數(shù)據(jù)輸入回歸函數(shù)(如 Softmax),它將所有內(nèi)容映射到具有一個元素的向量。


然而,DL 仍然主要是一種 CV 工具;例如,CV 中最常見的神經(jīng)網(wǎng)絡(luò)是 CNN。但是,卷積到底是什么?這是一種流行的圖像處理方法(例如,Sobel 邊緣檢測)。DL 的好處是顯而易見的,對最新技術(shù)的回顧超出了本文的范圍。深度學(xué)習(xí)不是解決所有問題的靈丹妙藥;在一些問題和應(yīng)用中,更傳統(tǒng)的 CV 算法更合適。


02

傳統(tǒng)計算機視覺的優(yōu)勢


傳統(tǒng)的基于特征的方法(例如下面列出的方法)有助于提高 CV 任務(wù)的性能:


  • 尺度不變特征變換 (SIFT)。

  • 加速穩(wěn)健特征 (SURF)

  • 加速分段測試 (FAST) 的功能

  • 霍夫變換

  • 幾何哈希


像SIFT和SURF這樣的特征描述符通常與傳統(tǒng)的機器學(xué)習(xí)分類算法如支持向量機和KNearest Neighbors相結(jié)合來解決CV問題。


傳統(tǒng)的 CV 技術(shù)通??梢员?DL 更有效地解決問題,并且代碼行數(shù)更少,因此 DL 有時有點矯枉過正。SIFT 甚至簡單的顏色閾值和像素計數(shù)算法都不是類特定的;他們處理任何圖像。另一方面,從深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的特征是特定于您的訓(xùn)練數(shù)據(jù)集的,如果構(gòu)建不當(dāng),則不太可能對訓(xùn)練集以外的圖像表現(xiàn)良好。


因此,圖像拼接/3D 網(wǎng)格重建經(jīng)常使用 SIFT 和其他不需要特定類別知識的算法來執(zhí)行。大型數(shù)據(jù)集可用于完成這些任務(wù)。然而,這需要大量的研究,這對于封閉的應(yīng)用程序是不可行的。在決定為特定的 CV 應(yīng)用程序采取哪條路徑時,請使用常識。


例如,在流水線傳送帶上,對兩個產(chǎn)品類別進行分類,一個使用紅色油漆,另一個使用藍(lán)色油漆。如果可以收集足夠的數(shù)據(jù)進行訓(xùn)練,深度神經(jīng)網(wǎng)絡(luò)就會起作用。另一方面,簡單的顏色閾值處理可以達到相同的結(jié)果??梢允褂酶唵?、更快速的方法來解決一些問題。


如果 DNN 在訓(xùn)練數(shù)據(jù)之外表現(xiàn)不佳會怎樣?如果訓(xùn)練數(shù)據(jù)集太小,機器可能會過度擬合數(shù)據(jù),無法泛化到手頭的任務(wù)。由于 DNN 具有數(shù)百萬個相互關(guān)系復(fù)雜的參數(shù),因此手動調(diào)整模型的參數(shù)太困難了。DL模型以這種方式被批評為黑匣子。傳統(tǒng)的 CV 是完全透明的,允許您評估您的解決方案是否適用于訓(xùn)練集之外。如果出現(xiàn)任何問題,可以調(diào)整參數(shù)以在更廣泛的圖像范圍內(nèi)表現(xiàn)良好。


當(dāng)問題可以簡化以部署在低成本微控制器上或通過突出數(shù)據(jù)中的某些特征、擴充數(shù)據(jù)或協(xié)助數(shù)據(jù)集注釋來限制深度學(xué)習(xí)技術(shù)的問題時,今天使用傳統(tǒng)技術(shù)。我們將在本文后面介紹各種圖像轉(zhuǎn)換技術(shù),以幫助您改進神經(jīng)網(wǎng)絡(luò)訓(xùn)練。


最后,CV 中許多更難的問題,如機器人、增強現(xiàn)實、自動全景拼接、虛擬現(xiàn)實、3D 建模、運動估計、視頻穩(wěn)定、運動捕捉、視頻處理和場景理解,都無法通過深度學(xué)習(xí)輕松解決,但受益于使用“傳統(tǒng)”技術(shù)的解決方案。


文章參考:Deep Learning Vs. Traditional Computer Vision – A Comparison

更多精彩內(nèi)容請關(guān)注公眾號:BFT機器人
本文為原創(chuàng)文章,版權(quán)歸BFT機器人所有,如需轉(zhuǎn)載請與我們聯(lián)系。若您對該文章內(nèi)容有任何疑問,請與我們聯(lián)系,將及時回應(yīng)。

將深度學(xué)習(xí)與傳統(tǒng)計算機視覺進行比較的評論 (共 條)

分享到微博請遵守國家法律
蒲江县| 洪洞县| 刚察县| 霍州市| 雅安市| 大同市| 青浦区| 罗定市| 聂荣县| 象山县| 镇平县| 利津县| 专栏| 林口县| 浦城县| 随州市| 绥棱县| 大足县| 邢台县| 浮山县| 大新县| 沁源县| 杭锦旗| 黔南| 花莲县| 墨脱县| 尉犁县| 广州市| 宁化县| 寻乌县| 梨树县| 合水县| 江安县| 大冶市| 夏津县| 织金县| 平和县| 西乌珠穆沁旗| 广平县| 仁怀市| 潮安县|