最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

TensorFlow+CNN實(shí)戰(zhàn)AI圖像處理,輕松入行計(jì)算機(jī)視覺

2023-03-28 20:23 作者:ashtonku  | 我要投稿


計(jì)算機(jī)視覺與圖像處理的關(guān)系

TensorFlow+CNN實(shí)戰(zhàn)AI圖像處理,輕松入行計(jì)算機(jī)視覺

下栽ke呈https://www.ukoou.com/resource/1399



計(jì)算機(jī)視覺必須有圖像處理的幫助,而圖像處理倚仗與模式識(shí)別的有效運(yùn)用,而模式識(shí)別是人工智能領(lǐng)域的一個(gè)重要分支,人工智能與機(jī)器學(xué)習(xí)密不可分。縱觀一切關(guān)系,發(fā)現(xiàn)計(jì)算機(jī)視覺的應(yīng)用服務(wù)于機(jī)器學(xué)習(xí)。各個(gè)環(huán)節(jié)缺一不可,相輔相成。



計(jì)算機(jī)視覺(computer vision),用計(jì)算機(jī)來模擬人的視覺機(jī)理獲取和處理信息的能力。就是是指用攝影機(jī)和電腦代替人眼對目標(biāo)進(jìn)行識(shí)別、跟蹤和測量等機(jī)器視覺,并進(jìn)一步做圖形處理,用電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。計(jì)算機(jī)視覺研究相關(guān)的理論和技術(shù),試圖建立能夠從圖像或者多維數(shù)據(jù)中獲取‘信息’的人工智能系統(tǒng)。計(jì)算機(jī)視覺的挑戰(zhàn)是要為計(jì)算機(jī)和機(jī)器人開發(fā)具有與人類水平相當(dāng)?shù)囊曈X能力。機(jī)器視覺需要圖象信號,紋理和顏色建模,幾何處理和推理,以及物體建模。一個(gè)有能力的視覺系統(tǒng)應(yīng)該把所有這些處理都緊密地集成在一起。

圖像處理(image processing),用計(jì)算機(jī)對圖像進(jìn)行分析,以達(dá)到所需結(jié)果的技術(shù)。又稱影像處理?;緝?nèi)容圖像處理一般指數(shù)字圖像處理。數(shù)字圖像是指用數(shù)字?jǐn)z像機(jī)、掃描儀等設(shè)備經(jīng)過采樣和數(shù)字化得到的一個(gè)大的二維數(shù)組,該數(shù)組的元素稱為像素,其值為一整數(shù),稱為灰度值。圖像處理技術(shù)的主要內(nèi)容包括圖像壓縮,增強(qiáng)和復(fù)原,匹配、描述和識(shí)別3個(gè)部分。常見的處理有圖像數(shù)字化、圖像編碼、圖像增強(qiáng)、圖像復(fù)原、圖像分割和圖像分析等。圖像處理一般指數(shù)字圖像處理。

模式識(shí)別(Pattern Recognition)是指對表征事物或現(xiàn)象的各種形式的(數(shù)值的、文字的和邏輯關(guān)系的)信息進(jìn)行處理和分析,以對事物或現(xiàn)象進(jìn)行描述、辨認(rèn)、分類和解釋的過程,是信息科學(xué)和人工智能的重要組成部分。模式識(shí)別又常稱作模式分類,從處理問題的性質(zhì)和解決問題的方法等角度,模式識(shí)別分為有監(jiān)督的分類(Supervised Classification)和無監(jiān)督的分類(Unsupervised Classification)兩種。模式還可分成抽象的和具體的兩種形式。前者如意識(shí)、思想、議論等,屬于概念識(shí)別研究的范疇,是人工智能的另一研究分支。我們所指的模式識(shí)別主要是對語音波形、地震波、心電圖、腦電圖、圖片、照片、文字、符號、生物傳感器等對象的具體模式進(jìn)行辨識(shí)和分類。模式識(shí)別研究主要集中在兩方面,一是研究生物體(包括人)是如何感知對象的,屬于認(rèn)識(shí)科學(xué)的范疇,二是在給定的任務(wù)下,如何用計(jì)算機(jī)實(shí)現(xiàn)模式識(shí)別的理論和方法。應(yīng)用計(jì)算機(jī)對一組事件或過程進(jìn)行辨識(shí)和分類,所識(shí)別的事件或過程可以是文字、聲音、圖像等具體對象,也可以是狀態(tài)、程度等抽象對象。這些對象與數(shù)字形式的信息相區(qū)別,稱為模式信息。模式識(shí)別與統(tǒng)計(jì)學(xué)、心理學(xué)、語言學(xué)、計(jì)算機(jī)科學(xué)、生物學(xué)、控制論等都有關(guān)系。它與人工智能、圖像處理的研究有交叉關(guān)系。

機(jī)器學(xué)習(xí)(Machine Learning)是研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。它是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑,其應(yīng)用遍及人工智能的各個(gè)領(lǐng)域,它主要使用歸納、綜合而不是演繹。機(jī)器學(xué)習(xí)在人工智能的研究中具有十分重要的地位。一個(gè)不具有學(xué)習(xí)能力的智能系統(tǒng)難以稱得上是一個(gè)真正的智能系統(tǒng),但是以往的智能系統(tǒng)都普遍缺少學(xué)習(xí)的能力。隨著人工智能的深入發(fā)展,這些局限性表現(xiàn)得愈加突出。正是在這種情形下,機(jī)器學(xué)習(xí)逐漸成為人工智能研究的核心之一。它的應(yīng)用已遍及人工智能的各個(gè)分支,如專家系統(tǒng)、自動(dòng)推理、自然語言理解、模式識(shí)別、計(jì)算機(jī)視覺、智能機(jī)器人等領(lǐng)域。機(jī)器學(xué)習(xí)的研究是根據(jù)生理學(xué)、認(rèn)知科學(xué)等對人類學(xué)習(xí)機(jī)理的了解,建立人類學(xué)習(xí)過程的計(jì)算模型或認(rèn)識(shí)模型,發(fā)展各種學(xué)習(xí)理論和學(xué)習(xí)方法,研究通用的學(xué)習(xí)算法并進(jìn)行理論上的分析,建立面向任務(wù)的具有特定應(yīng)用的學(xué)習(xí)系統(tǒng)。這些研究目標(biāo)相互影響相互促進(jìn)。

人類研究計(jì)算機(jī)的目的,是為了提高社會(huì)生產(chǎn)力水平,提高生活質(zhì)量,把人從單調(diào)復(fù)雜甚至危險(xiǎn)的工作中解救出來。今天的計(jì)算機(jī)在計(jì)算速度上已經(jīng)遠(yuǎn)遠(yuǎn)超過了人,然而在很多方面,特別是在人類智能活動(dòng)有關(guān)的方面例如在視覺功能、聽覺功能、嗅覺功能、自然語言理解能力功能等等方面,還不如人。

這種現(xiàn)狀無法滿足一些應(yīng)用的要求。例如,我們希望計(jì)算機(jī)能夠及早地發(fā)現(xiàn)路上的可疑情況并提醒汽車駕駛員以避免發(fā)生事故,我們更希望計(jì)算機(jī)能幫助我們進(jìn)行自動(dòng)駕駛,目前的技術(shù)還不足以滿足諸如此類應(yīng)用的要求,還需要更多的人工智能研究成果和系統(tǒng)實(shí)現(xiàn)的經(jīng)驗(yàn)。

什么是人工智能呢?人工智能,是由人類設(shè)計(jì)并在計(jì)算機(jī)環(huán)境下實(shí)現(xiàn)的模擬或再現(xiàn)某些人智能行為的技術(shù)。一般認(rèn)為,人類智能活動(dòng)可以分為兩類:感知行為與思維活動(dòng)。模擬感知行為的人工智能研究的一些例子包括語音識(shí)別、話者識(shí)別等與人類的聽覺功能有關(guān)的“計(jì)算機(jī)聽覺”,物體三維表現(xiàn)的形狀知識(shí)、距離、速度感知等與人類視覺有關(guān)的“計(jì)算機(jī)視覺”,等等。模擬思維活動(dòng)的人工智能研究的例子包括符號推理、模糊推理、定理證明等與人類思維有關(guān)的“計(jì)算機(jī)思維”,等等。

從圖像處理和模式識(shí)別發(fā)展起來的計(jì)算機(jī)視覺研究對象之一是如何利用二維投影圖像恢復(fù)三維景物世界。計(jì)算機(jī)視覺使用的理論方法主要是基于幾何、概率和運(yùn)動(dòng)學(xué)計(jì)算與三維重構(gòu)的視覺計(jì)算理論,它的基礎(chǔ)包括射影幾何學(xué)、剛體運(yùn)動(dòng)力學(xué)、概率論與隨機(jī)過程、圖像處理、人工智能等理論。計(jì)算機(jī)視覺要達(dá)到的基本目的有以下幾個(gè):

(1) 根據(jù)一幅或多幅二維投影圖像計(jì)算出觀察點(diǎn)到目標(biāo)物體的距離;

(2) 根據(jù)一幅或多幅二維投影圖像計(jì)算出目標(biāo)物體的運(yùn)動(dòng)參數(shù);

(3) 根據(jù)一幅或多幅二維投影圖像計(jì)算出目標(biāo)物體的表面物理特性;

(4) 根據(jù)多幅二維投影圖像恢復(fù)出更大空間區(qū)域的投影圖像。

計(jì)算機(jī)視覺要達(dá)到的目的是實(shí)現(xiàn)利用計(jì)算機(jī)對于三維景物世界的理解,即實(shí)現(xiàn)人的視覺系統(tǒng)的某些功能。

在計(jì)算機(jī)視覺領(lǐng)域里,醫(yī)學(xué)圖像分析、光學(xué)文字識(shí)別對模式識(shí)別的要求需要提到一定高度。又如模式識(shí)別中的預(yù)處理和特征抽取環(huán)節(jié)應(yīng)用圖像處理的技術(shù);圖像處理中的圖像分析也應(yīng)用模式識(shí)別的技術(shù)。在計(jì)算機(jī)視覺的大多數(shù)實(shí)際應(yīng)用當(dāng)中,計(jì)算機(jī)被預(yù)設(shè)為解決特定的任務(wù),然而基于機(jī)器學(xué)習(xí)的方法正日漸普及,一旦機(jī)器學(xué)習(xí)的研究進(jìn)一步發(fā)展,未來“泛用型”的電腦視覺應(yīng)用或許可以成真。

人工智能所研究的一個(gè)主要問題是:如何讓系統(tǒng)具備“計(jì)劃”和“決策能力”?從而使之完成特定的技術(shù)動(dòng)作(例如:移動(dòng)一個(gè)機(jī)器人通過某種特定環(huán)境)。這一問題便與計(jì)算機(jī)視覺問題息息相關(guān)。在這里,計(jì)算機(jī)視覺系統(tǒng)作為一個(gè)感知器,為決策提供信息。另外一些研究方向包括模式識(shí)別和機(jī)器學(xué)習(xí)(這也隸屬于人工智能領(lǐng)域,但與計(jì)算機(jī)視覺有著重要聯(lián)系),也由此,計(jì)算機(jī)視覺時(shí)常被看作人工智能與計(jì)算機(jī)科學(xué)的一個(gè)分支。

機(jī)器學(xué)習(xí)是研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。它是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑,其應(yīng)用遍及人工智能的各個(gè)領(lǐng)域,它主要使用歸納、綜合而不是演譯。

為了達(dá)到計(jì)算機(jī)視覺的目的,有兩種技術(shù)途徑可以考慮。首先是仿生學(xué)方法,即從分析人類視覺的過程入手,利用大自然提供給我們的參考系——人類視覺系統(tǒng),建立起視覺過程的計(jì)算模型,然后用計(jì)算機(jī)系統(tǒng)實(shí)現(xiàn)之。第二種是工程方法,即脫離人類視覺系統(tǒng)框框的約束,利用一切可行和實(shí)用的技術(shù)手段實(shí)現(xiàn)視覺功能。此方法的一般做法是,將人類視覺系統(tǒng)作為一個(gè)黑盒子對待,實(shí)現(xiàn)時(shí)只關(guān)心對于某種輸入,視覺系統(tǒng)將給出何種輸出。這兩種方法理論上都是可以使用的,但面臨的困難是,人類視覺系統(tǒng)對應(yīng)某種輸入的輸出到底是什么,這是無法直接測得的。而且由于人的智能活動(dòng)是一個(gè)多功能系統(tǒng)綜合作用的結(jié)果,即使是得到了一個(gè)輸入輸出對,也很難肯定它是僅由當(dāng)前的輸入視覺刺激所產(chǎn)生的響應(yīng),而不是一個(gè)與歷史狀態(tài)綜合作用的結(jié)果。

不難理解,計(jì)算機(jī)視覺的研究具有雙重意義。其一,是為了滿足人工智能應(yīng)用的需要,即用計(jì)算機(jī)實(shí)現(xiàn)人工的視覺系統(tǒng)的需要。這些成果可以安裝在計(jì)算機(jī)和各種機(jī)器上,使計(jì)算機(jī)和機(jī)器人能夠具有“看”的能力。其二,視覺計(jì)算模型的研究結(jié)果反過來對于我們進(jìn)一步認(rèn)識(shí)和研究人類視覺系統(tǒng)本身的機(jī)理,甚至人腦的機(jī)理,也同樣具有相當(dāng)大的參考意義。


AI產(chǎn)品經(jīng)理計(jì)算機(jī)視覺

計(jì)算機(jī)視覺(Computer Vision)對我來說也算是老朋友了,我最開始接觸人工智能就是計(jì)算機(jī)視覺相關(guān)的知識(shí)。最近受益于老大每日帶我去旁聽的算法例會(huì),又加上看了徐立(商湯)的《計(jì)算機(jī)視覺的完整鏈條,從成像到早期視覺再到識(shí)別理解》,發(fā)現(xiàn)很多信息,當(dāng)時(shí)不覺得有什么,現(xiàn)在想想,每一步都是有意義的。

今天,我會(huì)根據(jù)親身經(jīng)理的項(xiàng)目案例和平時(shí)所學(xué),從產(chǎn)品實(shí)踐的角度,談?wù)動(dòng)?jì)算機(jī)視覺。

一、前言
計(jì)算機(jī)視覺(computer vision)是使用計(jì)算機(jī)以及相關(guān)設(shè)備對生物視覺的一種模擬。它主要任務(wù)是通過對采集的圖片或視頻進(jìn)行處理以獲得相應(yīng)場景的三維信息。

在徐立的分享中,將計(jì)算機(jī)視覺的完整鏈條分為了三部分:

成像(image)
早期視覺(early vision)
識(shí)別理解(Recognition)
本文也將根據(jù)徐立對整個(gè)鏈條的三部分分類,分別用實(shí)際例子結(jié)合談?wù)劗a(chǎn)品在三部分中可以關(guān)注的內(nèi)容。

二、成像(image)
成像就是模擬的相機(jī)原理,就是在解決怎樣把拍攝照片的質(zhì)量進(jìn)行提升的問題。

我們在實(shí)際工業(yè)運(yùn)用中,經(jīng)常發(fā)現(xiàn)實(shí)際數(shù)據(jù)和實(shí)驗(yàn)室數(shù)據(jù)相差過大,實(shí)驗(yàn)數(shù)據(jù)的質(zhì)量遠(yuǎn)遠(yuǎn)差于實(shí)驗(yàn)室數(shù)據(jù)。更甚者在最開始訓(xùn)練模型的時(shí)候,我們會(huì)發(fā)現(xiàn)實(shí)驗(yàn)室模型在實(shí)際場景毫無效用。

經(jīng)過多次試驗(yàn)測試,我們發(fā)現(xiàn)影響圖像質(zhì)量的因素大概有以下幾類:

光照影響
過暗或過亮等非正常光照環(huán)境,會(huì)對模型的效果產(chǎn)生很大干擾。在解決光照影響這個(gè)問題上,我想可以通過兩種方式:

1)從產(chǎn)品角度控制:

a.在用戶可以更換環(huán)境的前提下(比如手機(jī)自拍等),可語音/界面提示用戶目前環(huán)境不理想,建議換一個(gè)環(huán)境。

b.用戶不能控制更換環(huán)境的情況下(比如人臉識(shí)別、車輛識(shí)別等攝像頭固定的場景),只能通過調(diào)試硬件設(shè)施彌補(bǔ)這個(gè)問題。

夜晚:在工業(yè)上我們碰到過曝或者過暗的情況更多都是在晚上,由于攝像頭在晚上會(huì)自動(dòng)切換到黑夜場景(從圖片上看就是從彩色切換為黑白),因此在晚上強(qiáng)光下(例如車燈照射)圖像就會(huì)過曝,這樣的情況我們可以通過強(qiáng)制設(shè)置攝像頭環(huán)境為白天(圖像為彩色)來避免。過暗的情況從節(jié)省成本角度看,我們可以在攝像頭旁邊增加一個(gè)光線發(fā)散、功率不高的燈來彌補(bǔ)。當(dāng)然這兩個(gè)問題也可以通過購買高質(zhì)量的攝像頭解決,但這樣做也意味著更高的成本。
白日:白天也會(huì)出現(xiàn)光線過亮的情況,這種情況可以考慮用濾光片等等。
2)算法角度控制

用算法將圖片進(jìn)行處理,可以將圖片恢復(fù)得讓人眼看清的程度。徐立在文中舉例了這樣一張圖片:



這張圖片從暗到明,經(jīng)過算法的處理我們可以顯而易見地觀察到整個(gè)圖片的內(nèi)容。這個(gè)辦法非常靈活,但也對公司的算法提出了更高的要求。我們知道每一次算法的過濾時(shí)間是非常重要的,如果在對時(shí)間要求非常嚴(yán)格的場景(人臉識(shí)別、車輛識(shí)別),這樣在識(shí)別之前還要對圖片進(jìn)行轉(zhuǎn)化,無疑是增加了輸出結(jié)果的時(shí)間。技術(shù)實(shí)力不那么強(qiáng)的公司可能是需要權(quán)衡一下的。

模糊(blur)
模糊也是工業(yè)中經(jīng)常遇到且令人十分頭痛的問題。這里我們先將模糊分下類:

運(yùn)動(dòng)模糊:人體移動(dòng)、車輛移動(dòng)
對焦模糊:攝像頭距離等因素構(gòu)成,類似近視眼,圖像中低頻存在,高頻缺失。所以需要用算法設(shè)法補(bǔ)齊高頻部分。
低分辨率差值模糊:小圖放大等,圖像中低頻存在,高頻缺失。所以需要用算法設(shè)法補(bǔ)齊高頻部分。
混合模糊:多種模糊類型共同存在
對于模糊產(chǎn)品上能控制的場景比較少,僅針對于第一種運(yùn)動(dòng)模糊且產(chǎn)品和用戶有交互的情況下才能做到。其他類型的模糊均需要采用算法進(jìn)行處理。

我們發(fā)現(xiàn)大多數(shù)模型(包括face++等技術(shù)比較前沿公司的模型),也會(huì)出現(xiàn)大量正常圖像被判為模糊。從算法角度講這可能不是很理想,但從工業(yè)角度講這是可以被接受的,被誤判為模糊圖像的正常圖像會(huì)被過濾掉或者經(jīng)過算法處理后再識(shí)別,這對用戶來說不會(huì)造成使用上的不適。而且我們也能保證閾值以上的圖都是正常圖片,對模型訓(xùn)練來說也是有利的。所以,產(chǎn)品需要關(guān)注的精確率和召回率在某種特定情況下可以降低要求。

影響圖像質(zhì)量的因素除了光照、模糊還有很多比如噪聲、分辨率等等問題,這些問題大多也是從算法和硬件上去優(yōu)化,值得注意的是我之前提過的,需要考慮到時(shí)間和成本的權(quán)衡。

三、早期視覺(early vision)
early vision這部分其實(shí)我之前沒有總的概念,看了徐立的分享,回頭來才發(fā)現(xiàn)“哦!原來大家當(dāng)時(shí)做的是這個(gè)部分的內(nèi)容”。

early vision主要是做哪些工作呢?主要是圖像分割、邊緣求取、運(yùn)動(dòng)和深度的估計(jì)。這些內(nèi)容其實(shí)沒有直接的結(jié)果應(yīng)用,是一個(gè)“中間狀態(tài)”。



圖像分割是指將特定的影像分割成【區(qū)域內(nèi)部屬性一致】而【區(qū)域間不一致】的技術(shù),是圖像處理中最基礎(chǔ)和最重要的領(lǐng)域之一。

圖像分割方法有很多種,比如灰度閾值分割的方法、邊緣檢測法和區(qū)域跟蹤等方法。很多種類的圖像或景物都有相對應(yīng)的分割方式對其分割,但同時(shí)有些分割方法也僅限于某些特殊類型的圖像分割。

拿邊緣檢測來說,其目的是找到圖像中亮度變化劇烈的像素點(diǎn)構(gòu)成的集合,表現(xiàn)出來就是輪廓。



徐立提出了early vision現(xiàn)目前的兩個(gè)問題:

結(jié)果不精確
需要長時(shí)間的知識(shí)沉淀才能做到
第一個(gè)問題的解決辦法是用端到端的方式,第二個(gè)問題的解決辦法可以依靠數(shù)據(jù)驅(qū)動(dòng)。

這部分產(chǎn)品介入的比較少吧,平時(shí)跟算法同事溝通聽見比較偏多的反饋是在圖像分割上有一些缺陷。像徐立說的“怎么樣用這種中間的結(jié)果去得到更好的應(yīng)用,至今來說覺得這都是一個(gè)比較難回答的問題”,因此產(chǎn)品或許可以去考慮早期視覺直接應(yīng)用的場景。

四、識(shí)別理解(Recognition)
識(shí)別理解是需要把一張(輸入)圖對應(yīng)到一張(輸出)圖,或者說一張(輸入)圖對應(yīng)到一個(gè)中間結(jié)果。簡單來說就是把一張圖對應(yīng)到一個(gè)文字或標(biāo)簽。這其中有兩個(gè)重要的因素:標(biāo)簽、數(shù)據(jù)。這兩個(gè)因素廣度和精度越高,針對模型最后的識(shí)別效果就越好。

標(biāo)簽
標(biāo)簽的定義其實(shí)也就是規(guī)則的定義,我在上一篇文章《AI產(chǎn)品經(jīng)理需要了解的數(shù)據(jù)標(biāo)注工作》里有提過,越精確的標(biāo)簽肯定對模型的結(jié)果有利,但同時(shí)越精確的標(biāo)簽意味著這類標(biāo)簽下的數(shù)據(jù)量就會(huì)越少,產(chǎn)品也需要考慮到這個(gè)因素。

還有一些會(huì)被主觀因素影響的標(biāo)簽定義,比如顏值,每個(gè)人對顏值的評價(jià)都是不一樣的。徐立說在他們的顏值模型里會(huì)分為“漂亮”“不漂亮”兩個(gè)標(biāo)簽,主要是靠社交網(wǎng)站上的評分和明星與大眾的區(qū)別來標(biāo)注。其實(shí)我以前也跟過顏值的模型,在我的模型里對顏值更加細(xì)化了:有好看、普通、丑。除了根據(jù)社交網(wǎng)站打分、明星打分這種方式,我的經(jīng)驗(yàn)是關(guān)注數(shù)據(jù)的場景類型,很多數(shù)據(jù)被歸為一類都是場景相似的。比如如花,我們覺得丑吧?大多數(shù)男扮女的裝扮也都會(huì)被定義為丑。

另外更細(xì)的標(biāo)簽細(xì)分會(huì)有更多的落地可能性,我印象最深的就是以前顏值模型有一個(gè)節(jié)日運(yùn)營活動(dòng),主題是扮丑,辦得越丑的人還會(huì)有小禮品,這個(gè)活動(dòng)上線后在友商的用戶圈內(nèi)引起了很高的關(guān)注度。當(dāng)時(shí)我接到這個(gè)活動(dòng)的時(shí)候思想其實(shí)是被顛覆的,因?yàn)槲易铋_始認(rèn)為顏值模型可能存在的場景主要是去識(shí)別美的人,比如在直播等平臺(tái)中去區(qū)分主播的顏值,推薦更優(yōu)質(zhì)的主播上首頁等等后端的應(yīng)用,沒有想過還能反著用。經(jīng)過這個(gè)活動(dòng)的啟發(fā),后來我們也發(fā)現(xiàn)顏值模型在娛樂性上可以有更多挖掘的可能性。

這樣看來由于我們的模型多了一個(gè)標(biāo)簽定義,就多了一種落地的可能性,標(biāo)簽的重要性也就不言而喻了。

數(shù)據(jù)優(yōu)化
數(shù)據(jù)的數(shù)量和質(zhì)量對模型來說舉足重輕。最近剛接收到的重磅消息:阿法狗的弟弟阿法元沒有任何先驗(yàn)知識(shí)的前提下,通過完全的自學(xué),打敗了由數(shù)據(jù)訓(xùn)練出來的阿法狗。我相信以后這個(gè)技術(shù)肯定會(huì)越來越多的應(yīng)用,說不定以后確實(shí)在某些領(lǐng)域不利用海量數(shù)據(jù)也能完成模型訓(xùn)練。但是就目前而言,在計(jì)算機(jī)視覺領(lǐng)域,數(shù)據(jù)的大量性是重中之重的。

我們大家肯定都知道,數(shù)據(jù)優(yōu)化可以使模型越來越好。什么類型的功能表現(xiàn)得不好,就要填補(bǔ)那些對應(yīng)的數(shù)據(jù)。而除了這個(gè)常識(shí)外,其實(shí)數(shù)據(jù)優(yōu)化還可以用來解決我們經(jīng)常在訓(xùn)練過程中出現(xiàn)的問題:過擬合。

什么是過擬合?



通常來講是模型把數(shù)據(jù)學(xué)習(xí)過深,數(shù)據(jù)中的細(xì)節(jié)和噪音也學(xué)習(xí)進(jìn)去了,這樣就導(dǎo)致模型泛化的性能變差。過擬合的表現(xiàn)是,一個(gè)模型(一個(gè)假設(shè))在訓(xùn)練集上表現(xiàn)得很好,但是在測試集上表現(xiàn)的確不是很好。

那該如何通過數(shù)據(jù)限制過擬合呢?

重新清洗數(shù)據(jù)。數(shù)據(jù)的噪音太多會(huì)影響到模型效果,清洗數(shù)據(jù)能夠把由于這個(gè)因素造成的過擬合問題規(guī)避
增加訓(xùn)練集的數(shù)據(jù)量。如果訓(xùn)練集占總數(shù)據(jù)的比例太少,也會(huì)造成過擬合。
當(dāng)然也能通過算法限制這個(gè)問題的,比如正則化方法和dropout法,以后有空我們可以再深入討論。

五、項(xiàng)目實(shí)踐 (以車型識(shí)別舉例)
車輛檢測系統(tǒng)下有很多CV相關(guān)的應(yīng)用,比如車型識(shí)別、車牌識(shí)別、車顏色識(shí)別等等。我們從車型識(shí)別這一個(gè)例子著手,探索項(xiàng)目的具體流程。

項(xiàng)目前期準(zhǔn)備
1.數(shù)據(jù)準(zhǔn)備:

車型這個(gè)主題說大不大,說小不小。全世界的車輛品牌數(shù)目大約三四百個(gè),每個(gè)品牌下面又有幾十種車系。我們從0開始立項(xiàng),至少需要把常見的車輛車系都包含。像大眾、豐田、奔馳、寶馬、奧迪、現(xiàn)代等等熱門車輛品牌更是需要拿全數(shù)據(jù)。每一種車型至少有車頭、車尾、車身三種基礎(chǔ)數(shù)據(jù)。

比如奔馳C200:

這三張圖片代表了三種數(shù)據(jù),不同場景下這三種數(shù)據(jù)的重要性大為不同。在項(xiàng)目前期假設(shè)我們定下來識(shí)別車型這個(gè)需求主要應(yīng)用場景是“停車場識(shí)別車輛”,那車頭這個(gè)數(shù)據(jù)相對而言就更加重要,需要花更多心思收集。為什么呢?我們可以想象,停車場的車輛識(shí)別攝像頭為了捕捉車牌號,一般會(huì)將攝像頭正對車輛,攝像頭傳上來的數(shù)據(jù)很少會(huì)有純側(cè)面車身的數(shù)據(jù)甚至車尾數(shù)據(jù)。我們?yōu)榱隧?xiàng)目更快地應(yīng)用落地,其他類型數(shù)據(jù)比較缺少的情況是可以暫時(shí)放下后期再做優(yōu)化的。



在數(shù)據(jù)準(zhǔn)備的過程中,首先需要爬蟲從網(wǎng)上爬取數(shù)據(jù),再由人工篩選過濾到不可用的數(shù)據(jù),將數(shù)據(jù)統(tǒng)一整合,才能進(jìn)行下一步工作。

2.文檔準(zhǔn)備

A)數(shù)據(jù)標(biāo)注文檔,包括我們項(xiàng)目一共所含多少鐘車型、每一種車型分別對應(yīng)什么樣式。數(shù)據(jù)標(biāo)注中需要注意的問題,多輛車的圖片、角度刁鉆的圖片是否需要舍棄等等。

B)產(chǎn)品文檔,包括落地場景說明、需求說明文檔等常規(guī)文檔。這里拿工業(yè)車輛識(shí)別需求分析下系統(tǒng)設(shè)計(jì):

算法需求描述(識(shí)別的種類、范圍、速度、準(zhǔn)確率、穩(wěn)定性等等)
攝像頭設(shè)備硬件需求描述、環(huán)境描述、數(shù)據(jù)傳送描述、攝像頭配置描述
平臺(tái)程序設(shè)計(jì)(車輛識(shí)別系統(tǒng)平臺(tái)前后端設(shè)計(jì))
數(shù)據(jù)關(guān)聯(lián)描述(車輛信息分析統(tǒng)計(jì)關(guān)聯(lián))
如果攝像頭在局域網(wǎng),且有布控功能(識(shí)別車輛黑名單的需求)還需要:

下發(fā)程序(考慮云端到本地的圖像特征下發(fā))
點(diǎn)播程序設(shè)計(jì)(可以從互聯(lián)網(wǎng)查看本地?cái)z像頭)
項(xiàng)目流程跟蹤
1.軟硬件端:按照常規(guī)的軟硬件項(xiàng)目跟蹤開發(fā)

2.算法:車型識(shí)別的流程基本如下:



車型圖像上傳:通過過攝像頭/web上傳

圖像預(yù)處理:包含了上文成像部分中的模糊圖像恢復(fù)處理(運(yùn)動(dòng)模糊有快速算法去模糊:通過已知速度V、位移S,確定圖像中任意點(diǎn)的值)



early vision中的圖像分割(將目標(biāo)圖像從背景圖中標(biāo)識(shí)出來,便于圖像識(shí)別,可以考慮邊緣檢測方法)、圖像二值化(將圖像中的像素點(diǎn)的灰度值設(shè)置為0或者255,使用輪廓跟蹤讓目標(biāo)輪廓更為凸顯)



圖像特征提取



特征比對

項(xiàng)目測試
攝像頭測試
攝像頭與點(diǎn)播程序測試
點(diǎn)播程序(可實(shí)時(shí)查看攝像頭的程序)與平臺(tái)后臺(tái)程序測試
算法與平臺(tái)后臺(tái)測試、備用接口測試
模型識(shí)別時(shí)間測試
模型識(shí)別準(zhǔn)確率、召回率測試
服務(wù)器穩(wěn)定性測試
網(wǎng)絡(luò)帶寬限制測試
正反向測試
其他平臺(tái)、硬件產(chǎn)品常規(guī)測試
項(xiàng)目驗(yàn)收
產(chǎn)品按照流程功能逐一驗(yàn)收

TensorFlow+CNN實(shí)戰(zhàn)AI圖像處理,輕松入行計(jì)算機(jī)視覺的評論 (共 條)

分享到微博請遵守國家法律
伊宁市| 法库县| 瓦房店市| 江西省| 沁源县| 富民县| 凤山市| 抚远县| 迁西县| 全州县| 纳雍县| 枣庄市| 防城港市| 宁城县| 甘德县| 博乐市| 菏泽市| 寻乌县| 新竹县| 社旗县| 溧阳市| 稻城县| 康马县| 巴林右旗| 敦化市| 偏关县| 五寨县| 攀枝花市| 宁晋县| 丰台区| 东平县| 南宫市| 宁夏| 临武县| 达拉特旗| 涟源市| 公安县| 青海省| 巨鹿县| 宝山区| 扶绥县|