到底什么是計(jì)算機(jī)視覺,又該如何使用?
要說清什么是計(jì)算機(jī)視覺,就不得不提到人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí),近些年這些概念十分火熱,但很多從業(yè)者卻很難說清它們之間的關(guān)系,外行人更是霧里看花。只有先分清這幾者的區(qū)別,才知道計(jì)算機(jī)視覺是什么。概括來說,人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)覆蓋的技術(shù)范疇是逐層遞減的,三者的關(guān)系如圖1所示,即:人工智能 > 機(jī)器學(xué)習(xí) > 深度學(xué)習(xí)。

1.?人工智能
人工智能(ArtificialIntelligence,AI)是最寬泛的概念,是研發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。由于這個(gè)定義只闡述了目標(biāo),而沒有限定方法,因此實(shí)現(xiàn)人工智能存在的諸多方法和分支,導(dǎo)致其變成一個(gè)“大雜燴”式的學(xué)科。機(jī)器學(xué)習(xí)(MachineLearning,ML)是當(dāng)前比較有效的一種實(shí)現(xiàn)人工智能的方式。深度學(xué)習(xí)(DeepLearning,DL)是機(jī)器學(xué)習(xí)算法中最熱門的一個(gè)分支,近些年取得了顯著的進(jìn)展,并替代了大多數(shù)傳統(tǒng)機(jī)器學(xué)習(xí)算法.
2.?機(jī)器學(xué)習(xí)
區(qū)別于人工智能,機(jī)器學(xué)習(xí)、尤其是監(jiān)督學(xué)習(xí)則有更加明確的指代。機(jī)器學(xué)習(xí)是專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu),使之不斷改善自身的性能。
2.1 機(jī)器學(xué)習(xí)的實(shí)現(xiàn)
機(jī)器學(xué)習(xí)的實(shí)現(xiàn)可以分成兩步:訓(xùn)練和預(yù)測,類似于歸納和演繹:
歸納:?從具體案例中抽象一般規(guī)律,機(jī)器學(xué)習(xí)中的“訓(xùn)練”亦是如此。從一定數(shù)量的樣本中,學(xué)習(xí)輸出與輸入的關(guān)系。
演繹:?從一般規(guī)律推導(dǎo)出具體案例的結(jié)果,機(jī)器學(xué)習(xí)中的“預(yù)測”亦是如此。基于訓(xùn)練得到的A與B之間的關(guān)系,如出現(xiàn)新的輸入A,計(jì)算出輸出B。通常情況下,如果通過模型計(jì)算的輸出和真實(shí)場景的輸出一致,則說明模型是有效的。
2.2 機(jī)器學(xué)習(xí)的方法論
機(jī)器學(xué)習(xí)的方法論和人類科研的過程有著異曲同工之妙,即在“機(jī)器思考”的過程中確定模型的三個(gè)關(guān)鍵要素:假設(shè)、評價(jià)、優(yōu)化。
3.?深度學(xué)習(xí)
機(jī)器學(xué)習(xí)算法理論在上個(gè)世紀(jì)90年代發(fā)展成熟,在許多領(lǐng)域都取得了成功,但隨著大數(shù)據(jù)的涌現(xiàn)和計(jì)算機(jī)算力提升,在2010年之后,深度學(xué)習(xí)模型異軍突起,極大改變了機(jī)器學(xué)習(xí)的應(yīng)用格局。今天,多數(shù)機(jī)器學(xué)習(xí)任務(wù)都可以使用深度學(xué)習(xí)模型解決,尤其在語音、計(jì)算機(jī)視覺和自然語言處理等領(lǐng)域,深度學(xué)習(xí)模型的效果比傳統(tǒng)機(jī)器學(xué)習(xí)算法有顯著提升。
相比傳統(tǒng)的機(jī)器學(xué)習(xí)算法,深度學(xué)習(xí)做出了哪些改進(jìn)呢?其實(shí)兩者在理論結(jié)構(gòu)上是一致的,即:模型假設(shè)、評價(jià)函數(shù)和優(yōu)化算法,其根本差別在于假設(shè)的復(fù)雜度。如圖2所示,對于美短貓咪照片,人腦可以接收到五顏六色的光學(xué)信號,能快速反應(yīng)出這張圖片是一只美國短毛品種的貓咪。但對計(jì)算機(jī)而言,只能接收到一個(gè)數(shù)字矩陣,對于美短這種高級的語義概念,從像素到高級語義概念中間要經(jīng)歷的信息變換的復(fù)雜性是難以想象的。

4.?計(jì)算機(jī)視覺
計(jì)算機(jī)視覺的發(fā)展歷程要從生物視覺講起。對于生物視覺的起源,目前學(xué)術(shù)界尚沒有形成定論。有研究者認(rèn)為最早的生物視覺形成于距今約7億年前的水母之中,也有研究者認(rèn)為生物視覺產(chǎn)生于距今約5億年前寒武紀(jì)。
寒武紀(jì)生物大爆發(fā)的原因一直是個(gè)未解之謎,不過可以肯定的是在寒武紀(jì)動物具有了視覺能力,捕食者可以更容易地發(fā)現(xiàn)獵物,被捕食者也可以更早的發(fā)現(xiàn)天敵的位置。視覺能力加劇了獵手和獵物之間的博弈,也催生出更加激烈的生存演化規(guī)則。視覺系統(tǒng)的形成有力地推動了食物鏈的演化,加速了生物進(jìn)化過程,是生物發(fā)展史上重要的里程碑。經(jīng)過幾億年的演化,目前人類的視覺系統(tǒng)已經(jīng)具備非常高的復(fù)雜度和強(qiáng)大的功能,人腦中神經(jīng)元數(shù)目達(dá)到了1000億個(gè),這些神經(jīng)元通過網(wǎng)絡(luò)互相連接,這樣龐大的視覺神經(jīng)網(wǎng)絡(luò)使得我們可以很輕松的觀察周圍的世界。
對人類來說,識別貓和狗是件非常容易的事。但對計(jì)算機(jī)來說,即使是一個(gè)精通編程的高手,也很難輕松寫出具有通用性的程序(比如:假設(shè)程序認(rèn)為體型大的是狗,體型小的是貓,但由于拍攝角度不同,可能一張圖片上貓占據(jù)的像素比狗還多)。那么,如何讓計(jì)算機(jī)也能像人一樣看懂周圍的世界呢?研究者嘗試著從不同的角度去解決這個(gè)問題,由此也發(fā)展出一系列的子任務(wù)。
(a) Image Classification:圖像分類,用于識別圖像中物體的類別。
(b) Object Localization:目標(biāo)檢測,用于檢測圖像中每個(gè)物體的類別,并準(zhǔn)確標(biāo)出它們的位置。
(c)Semantic Segmentation:圖像語義分割,用于標(biāo)出圖像中每個(gè)像素點(diǎn)所屬的類別,屬于同一類別的像素點(diǎn)用一個(gè)顏色標(biāo)識。
(d) Instance Segmentation:實(shí)例分割,不僅要標(biāo)注出物體位置,還需要標(biāo)注出物體的外形輪廓。
在早期的圖像分類任務(wù)中,通常是先人工提取圖像特征,再用機(jī)器學(xué)習(xí)算法對這些特征進(jìn)行分類,分類的結(jié)果強(qiáng)依賴于特征提取方法,往往只有經(jīng)驗(yàn)豐富的研究者才能完成。
對計(jì)算機(jī)而言,能夠“看到”的是圖像被編碼之后的數(shù)字,但它很難理解高層語義概念,比如圖像或者視頻幀中出現(xiàn)的目標(biāo)是人還是物體,更無法定位目標(biāo)出現(xiàn)在圖像中哪個(gè)區(qū)域。目標(biāo)檢測的主要目的是讓計(jì)算機(jī)可以自動識別圖片或者視頻幀中所有目標(biāo)的類別,并在該目標(biāo)周圍繪制邊界框,標(biāo)示出每個(gè)目標(biāo)的位置,如圖3所示。

·?圖3(a)是圖像分類任務(wù),只需識別出這是一張小貓的圖片。
·?圖3(b)是目標(biāo)檢測任務(wù),不僅要識別出這是一張小貓的圖片,還要標(biāo)出圖中小貓的位置。
1.?人工智能在中國的機(jī)遇
根據(jù)艾瑞的分析報(bào)告,人工智能在未來十年迎來落地應(yīng)用的黃金期,會全面賦能實(shí)體經(jīng)濟(jì),行業(yè)的經(jīng)濟(jì)規(guī)模年增長率達(dá)40%+。

人工智能對國家產(chǎn)業(yè)轉(zhuǎn)型的重要性不言而語,一些美國政客已經(jīng)明確提出要限制中國學(xué)者赴美進(jìn)行人工智能領(lǐng)域的交流,以免中國智能實(shí)現(xiàn)工業(yè)和經(jīng)濟(jì)模式的升級轉(zhuǎn)型。但這種趨勢是不可避免的,中華人民共和國國務(wù)院已經(jīng)制定了人工智能應(yīng)用的發(fā)展規(guī)劃,如下圖所示。

國務(wù)院將人工智能的應(yīng)用分為了三個(gè)階段:
第一步,到2020年人工智能總體技術(shù)和應(yīng)用與世界先進(jìn)水平同步,人工智能產(chǎn)業(yè)成為新的重要經(jīng)濟(jì)增長點(diǎn),人工智能技術(shù)應(yīng)用成為改善民生的新途徑,有力支撐進(jìn)入創(chuàng)新型國家行列和實(shí)現(xiàn)全面建成小康社會的奮斗目標(biāo)。
第二步,到2025年人工智能基礎(chǔ)理論實(shí)現(xiàn)重大突破,部分技術(shù)與應(yīng)用達(dá)到世界領(lǐng)先水平,人工智能成為帶動我國產(chǎn)業(yè)升級和經(jīng)濟(jì)轉(zhuǎn)型的主要動力,智能社會建設(shè)取得積極進(jìn)展。
第三步,到2030年人工智能理論、技術(shù)與應(yīng)用總體達(dá)到世界領(lǐng)先水平,成為世界主要人工智能創(chuàng)新中心,智能經(jīng)濟(jì)、智能社會取得明顯成效,為躋身創(chuàng)新型國家前列和經(jīng)濟(jì)強(qiáng)國奠定重要基礎(chǔ)。
對應(yīng)的產(chǎn)業(yè)規(guī)模分別達(dá)到1萬億/年,5萬億/年和10萬億/年。這個(gè)數(shù)字在業(yè)內(nèi)人士看,近期比較符合實(shí)際情況,遠(yuǎn)期還是相對保守。
由于2020年疫情肆虐,經(jīng)濟(jì)下行的壓力較大。國家也提出了“新基建”的經(jīng)濟(jì)刺激計(jì)劃。新型基礎(chǔ)設(shè)施建設(shè)(簡稱:新基建),主要包括5G基站建設(shè)、特高壓、城際高速鐵路和城市軌道交通、新能源汽車充電樁、大數(shù)據(jù)中心、人工智能、工業(yè)互聯(lián)網(wǎng)七大領(lǐng)域,涉及諸多產(chǎn)業(yè)鏈,是以新發(fā)展理念為引領(lǐng),以技術(shù)創(chuàng)新為驅(qū)動,以信息網(wǎng)絡(luò)為基礎(chǔ),面向高質(zhì)量發(fā)展需要,提供數(shù)字轉(zhuǎn)型、智能升級、融合創(chuàng)新等服務(wù)的基礎(chǔ)設(shè)施體系。其中,人工智能是“新基建”的核心。
無論是咨詢報(bào)告還是政府規(guī)劃,都為人工智能的產(chǎn)業(yè)應(yīng)用描述出無比壯闊的場景。那么,人工智能真的在各行業(yè)有這么多應(yīng)用場景嗎?
如下圖是IDC關(guān)于人工智能在各行業(yè)應(yīng)用場景的部分梳理,列出的應(yīng)用僅僅是場景明確或規(guī)模較大的“冰山一角”。

傳統(tǒng)行業(yè)有AI應(yīng)用空間嗎?
有來自傳統(tǒng)行業(yè)的企業(yè)家或工程師,即使看到了人工智能的市場發(fā)展、國家的政策支持、大量典型的應(yīng)用場景,依然會心存疑慮:
“我知道很多新興行業(yè)有不少人工智能的應(yīng)用,但我所在的是非常傳統(tǒng)的行業(yè),我們發(fā)展了幾十年了,目前運(yùn)營很好,看不到需要人工智能的地方”。
“我們企業(yè)目前確實(shí)需要轉(zhuǎn)型升級,但是體量龐大,沉積問題較多,我們又不懂什么人工智能,真的能夠借此成功轉(zhuǎn)型嗎?”
相信這種疑慮也是普遍現(xiàn)象,對于非常傳統(tǒng)的行業(yè),能接受到人工智能的賦能嗎?下面就是Coovally目前在傳統(tǒng)行業(yè)能夠挖掘到的人工智能應(yīng)用場景案例。


目前,跑碼地團(tuán)隊(duì)通過智能AI視覺中間件-Coovally+技術(shù)服務(wù)的模式,加快AI視覺解決方案的開發(fā)、集成、測試和驗(yàn)證。幫助企業(yè)提升AI棧技術(shù)研發(fā)能力,使先進(jìn)的AI系統(tǒng)能夠以更低成本更快地普及,形成AI+電力、AI+工業(yè)、AI+交通、AI+鐵路等多應(yīng)用場景模式。
(部分文章內(nèi)容源自百度)