「鯨臉識(shí)別」已上線,夏威夷大學(xué)用 5 萬(wàn)張圖像訓(xùn)練識(shí)別模型,平均精度 0.869

內(nèi)容一覽:人臉識(shí)別可以鎖定人類身份,這一技術(shù)延申到鯨類,便有了「背鰭識(shí)別」?!副出捵R(shí)別」是利用圖像識(shí)別技術(shù),通過背鰭識(shí)別鯨類物種。傳統(tǒng)的圖像識(shí)別依賴于卷積神經(jīng)網(wǎng)絡(luò) (CNN) 模型,需要大量訓(xùn)練圖像,并且只能識(shí)別某些單物種。近期,夏威夷大學(xué)的研究人員訓(xùn)練了一種多物種圖像識(shí)別模型,該模型在鯨類應(yīng)用中表現(xiàn)出色。
關(guān)鍵詞:圖像識(shí)別 ? 鯨類動(dòng)物 ? ArcFace
作者|daserney
編輯|緩緩、三羊
本文首發(fā)于 HyperAI 超神經(jīng)微信公眾平臺(tái)~
鯨類動(dòng)物是海洋生態(tài)系統(tǒng)的旗艦動(dòng)物和指示性生物,對(duì)于保護(hù)海洋生態(tài)環(huán)境具有極高的研究?jī)r(jià)值。傳統(tǒng)的動(dòng)物身份識(shí)別需要對(duì)動(dòng)物進(jìn)行現(xiàn)場(chǎng)拍攝,記錄個(gè)體出現(xiàn)的時(shí)間和位置,包含許多步驟,過程繁雜。其中又以圖像匹配——在不同圖像中識(shí)別出同一個(gè)體尤為耗時(shí)。
2014 年 Tyne 等人展開的一項(xiàng)研究估計(jì),在對(duì)斑海豚 (Stenella longirostris) 進(jìn)行為期一年的捕捉和釋放調(diào)查中,圖像匹配耗費(fèi)了超過 1100 個(gè)小時(shí)的人力勞動(dòng),幾乎占據(jù)了整個(gè)項(xiàng)目總經(jīng)費(fèi)的三分之一。
近期,來自夏威夷大學(xué) (University of Hawai‘i) 的 Philip T. Patton 等研究人員,利用 5 萬(wàn)多張照片(包括 24 種鯨類動(dòng)物、39 個(gè)目錄),訓(xùn)練了基于人臉識(shí)別 ArcFace Classification Head 的多物種圖像識(shí)別模型。該模型在測(cè)試集上達(dá)到了 0.869 的平均精確率 (MAP)。其中,10 個(gè)目錄的 MAP 得分超過 0.95。
目前該研究已發(fā)布在《Methods in Ecology and Evolution》期刊上,標(biāo)題為「A deep learning approach to photo–identification demonstrates high performance on two dozen cetacean species」。

論文地址:
https://besjournals.onlinelibrary.wiley.com/doi/full/10.1111/2041-210X.14167
?
數(shù)據(jù)集:25 個(gè)物種、39?個(gè)目錄
數(shù)據(jù)介紹?
Happywhale 和 Kaggle 與全球研究人員協(xié)作,組建了一個(gè)大規(guī)模、多物種的鯨類數(shù)據(jù)集。該數(shù)據(jù)集是為 Kaggle 競(jìng)賽收集的,要求參賽團(tuán)隊(duì)從背鰭/側(cè)身的圖像中識(shí)別個(gè)體鯨目動(dòng)物。數(shù)據(jù)集包含?25 個(gè)物種 (species) 的?41 個(gè)目錄 (catalogues),每個(gè)目錄包含一個(gè)物種,其中有些目錄中的物種會(huì)重復(fù)出現(xiàn)。
該研究去掉了兩個(gè)競(jìng)賽目錄,因?yàn)槠渲幸粋€(gè)只有 26 張用于訓(xùn)練和測(cè)試的低畫質(zhì)圖像,而另一個(gè)目錄則缺少測(cè)試集。最終的數(shù)據(jù)集包含 50,796 張訓(xùn)練圖像和 27,944 張測(cè)試圖像,其中,50,796 張訓(xùn)練圖像包含 15,546 個(gè)身份 (identities)。在這些身份中,9,240 個(gè) (59%) 只有一張訓(xùn)練圖像,14,210 個(gè) (91%) 有 5 張以內(nèi)訓(xùn)練圖像。
數(shù)據(jù)集及代碼地址:
https://github.com/knshnb/kaggle-happywhale-1st-place
訓(xùn)練數(shù)據(jù)?
為了解決圖像背景復(fù)雜的問題,一些參賽者訓(xùn)練了圖像裁剪模型,可以自動(dòng)檢測(cè)圖像中的鯨類動(dòng)物,并在其周圍繪制邊界框。下圖中可以看出,這一流程包括 4 個(gè)鯨類檢測(cè)器,使用了?YOLOv5 和 Detic 在內(nèi)的不同算法,檢測(cè)器的多樣性增加了模型的魯棒性,并且能對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)。

每個(gè)邊界框生成的裁剪的概率為:紅色為 0.60,橄欖綠為 0.15,橙色為 0.15,藍(lán)色為 0.05。裁剪后,研究人員將每個(gè)圖像的大小調(diào)整為 1024 x 1024 像素,以與 EfficientNet-B7 backbone 兼容。
調(diào)整大小后,應(yīng)用仿射變換、調(diào)整大小和裁剪、灰度、高斯模糊等數(shù)據(jù)增強(qiáng)技術(shù),避免模型出現(xiàn)嚴(yán)重??過擬合?。
數(shù)據(jù)增強(qiáng)是指在訓(xùn)練過程中對(duì)原始數(shù)據(jù)進(jìn)行變換或擴(kuò)充,以增加訓(xùn)練樣本的多樣性和數(shù)量,從而提高模型的泛化能力和魯棒性。
?
模型訓(xùn)練:物種 &個(gè)體識(shí)別雙管齊下
下圖顯示了模型的訓(xùn)練流程,如圖中橙色部分所示,研究人員將圖像識(shí)別模型分為 3 個(gè)部分:backbone、neck 和 head。

圖中第一行是預(yù)處理步驟(以普通海豚 Delphinus delphis 圖像為例),由 4 個(gè)目標(biāo)檢測(cè)模型生成 crops,數(shù)據(jù)增強(qiáng)步驟生成兩個(gè)示例圖像。
最下面一行則顯示了圖像分類網(wǎng)絡(luò)的訓(xùn)練步驟,從 backbone 到 neck 再到 head。
圖像首先通過網(wǎng)絡(luò)進(jìn)入 backbone。過去十年的一系列研究已經(jīng)產(chǎn)生了數(shù) 10 種流行的 backbone,包括 ResNet、DenseNet、Xception 和 MobileNet。經(jīng)驗(yàn)證,EfficientNet-B7 在鯨類應(yīng)用中表現(xiàn)最佳。
Backbone 獲取圖像后,通過一系列卷積層和??池化?層對(duì)其進(jìn)行處理,從而生成圖像的簡(jiǎn)化三維表示。Neck 將此輸出減少為一維向量,又稱為特征向量。
兩個(gè) head 模型,都將特征向量轉(zhuǎn)換為類概率,即 Pr(species) 或?Pr(individual),分別用于物種識(shí)別和個(gè)體識(shí)別。這些 classification heads 被稱為具有動(dòng)態(tài)邊距的次中心 ArcFace,普遍適用于多物種圖像識(shí)別場(chǎng)景。
?
實(shí)驗(yàn)結(jié)果:平均精度 0.869
對(duì)測(cè)試集中的 21,192 張圖像(24?個(gè)物種的 39?個(gè)目錄)進(jìn)行預(yù)測(cè),獲得了 0.869 的平均精度?(MAP)。如下圖所示,平均精度因物種而異,且與訓(xùn)練圖像或測(cè)試圖像的數(shù)量無(wú)關(guān)。

頂部面板按用途(即訓(xùn)練或測(cè)試)顯示每個(gè)物種的圖像數(shù)量。具有多個(gè)目錄的物種,則用 x 表示。
圖中顯示,該模型在識(shí)別齒鯨 (toothed whale) 時(shí)表現(xiàn)較好,而在識(shí)別須鯨 (baleen whale) 時(shí)表現(xiàn)較差,其中只有兩個(gè)須鯨物種的得分超過了平均水平。
對(duì)于多目錄物種,模型性能也存在差異。例如,普通小須鯨 (Balaenoptera acutorostrata) 不同目錄之間的 MAP 得分分別為 0.79 和 0.60。其他物種如白鯨 (Delphinapterus leucas) 和虎鯨在不同目錄之間的表現(xiàn)也有較大差異。
對(duì)此,研究人員雖然沒有找到能解釋這種目錄級(jí)性能差異的原因,但他們發(fā)現(xiàn)一些定性指標(biāo)如模糊度、獨(dú)特性、標(biāo)記混淆、距離、對(duì)比度和水花等,可能會(huì)影響圖像的精度得分。

圖中每個(gè)點(diǎn)代表競(jìng)賽數(shù)據(jù)集中的一個(gè)目錄,像素表示圖像和邊界框?qū)挾?。Distinct IDs 表示訓(xùn)練集中不同個(gè)體的數(shù)量。然而,目錄級(jí) MAP 與平均圖像寬度、平均邊界框?qū)挾?、?xùn)練圖像數(shù)量、不同個(gè)體數(shù)量以及每個(gè)個(gè)體的訓(xùn)練圖像數(shù)量之間并沒有明確的關(guān)聯(lián)。
綜合以上,研究人員提出用該模型進(jìn)行預(yù)測(cè)時(shí),代表 7 個(gè)物種的 10 個(gè)目錄平均精度高于 0.95,性能表現(xiàn)優(yōu)于傳統(tǒng)預(yù)測(cè)模型,進(jìn)而說明使用該模型能正確識(shí)別個(gè)體。此外,研究人員還在實(shí)驗(yàn)過程中總結(jié)出 7 點(diǎn)關(guān)于鯨類研究的注意事項(xiàng):
背鰭識(shí)別表現(xiàn)最佳。
明顯個(gè)體特征較少的目錄表現(xiàn)不佳。
圖像質(zhì)量很重要。
利用顏色識(shí)別動(dòng)物可能較為困難。
特征相對(duì)于訓(xùn)練集差距較大的物種得分較差。
預(yù)處理仍然是一個(gè)障礙。
動(dòng)物標(biāo)記變化可能會(huì)影響模型表現(xiàn)。
?
Happywhale:鯨類研究的公眾科學(xué)平臺(tái)
本文數(shù)據(jù)集介紹中提到的 Happywhale 是一個(gè)分享鯨類圖像的公眾科學(xué)平臺(tái),其目標(biāo)是解鎖大量數(shù)據(jù)集、促進(jìn) photo ID 的快速匹配,并為公眾創(chuàng)造科研參與度。

Happywhale 官網(wǎng)地址:
https://happywhale.com/
Happywhale 成立于 2015 年 8 月,其聯(lián)合創(chuàng)始人 Ted Cheeseman?是一位博物學(xué)家 (Naturalist),他在加利福尼亞蒙特雷灣 (Monterrey Bay)?長(zhǎng)大,從小就喜歡觀鯨,曾多次前往南極洲和南喬治亞島探險(xiǎn),具有 20 余年南極探險(xiǎn)及極地旅游管理的經(jīng)驗(yàn)。

2015 年,Ted? 離開了工作 21 年的?Cheesemans’ Ecology Safaris(由 Ted 父母在 1980 年創(chuàng)辦的生態(tài)旅行社,Ted 父母同樣是博物學(xué)家),投身 Happywhale 項(xiàng)目–??收集科研數(shù)據(jù),進(jìn)一步理解并保護(hù)鯨類。
短短幾年內(nèi),Happywhale.com 已經(jīng)成為鯨類研究領(lǐng)域的最大貢獻(xiàn)者之一,除鯨類識(shí)別圖像的數(shù)量巨大外,對(duì)理解鯨類的遷徙模式也提供了諸多洞見。
參考鏈接:
[1]https://baijiahao.baidu.com/s?id=1703893583395168492
[2]https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0086132
[3]https://phys.org/news/2023-07-individual-whale-dolphin-id-facial.html#google_vignette
[4]https://happywhale.com/about
本文首發(fā)于 HyperAI 超神經(jīng)微信公眾平臺(tái)~