散文網(wǎng) » 科技 »學(xué)習 » 獨家|EAST算法超詳細源碼解析：數(shù)據(jù)預(yù)處理與標簽生成

獨家|EAST算法超詳細源碼解析：數(shù)據(jù)預(yù)處理與標簽生成

2020-11-24 18:38 作者:深藍學(xué)院 0人讀過 | 我要投稿

作者簡介

CW，廣東深圳人，畢業(yè)于中山大學(xué)（SYSU）數(shù)據(jù)科學(xué)與計算機學(xué)院，畢業(yè)后就業(yè)于騰訊計算機系統(tǒng)有限公司技術(shù)工程與事業(yè)群（TEG）從事Devops工作，期間在AI LAB實習過，實操過道路交通元素與醫(yī)療病例圖像分割、視頻實時人臉檢測與表情識別、OCR等項目。

目前也有在一些自媒體平臺上參與外包項目的研發(fā)工作，項目專注于CV領(lǐng)域（傳統(tǒng)圖像處理與深度學(xué)習方向均有）。

前言

EAST: An Efficient and Accurate Scene Text Detector 是用于場景文字識別（OCR）的算法，五一假期 CW 把這套算法的源碼研讀了一番，并基于 Pytorch 進行了復(fù)現(xiàn)，如今打算把這期間的學(xué)習過程記錄下來，本文將對數(shù)據(jù)處理與標簽生成部分的源碼進行解析，其它部分會在后面的文章中記錄。

全文大綱

1. DataSet 類

2. is_cross_text：判斷裁剪有無“割裂”圖像中的任意文本框

3. get_score_geo：生成 ground truth

4. shrink_poly：將文本框頂點向內(nèi)移動，使得文本框區(qū)域變小

5. move_points：將頂點向文本框內(nèi)部移動

6. find_min_rect_angle：尋找文本框的最小外接矩形，獲得對應(yīng)的旋轉(zhuǎn)角度

7. cal_error：計算文本框與外接矩形的擬合誤差

8. rotate_all_pixels：旋轉(zhuǎn)圖像中的所有點

9. 結(jié)語

以下為正文內(nèi)容

? 01 DataSet 類

在pytorch 中通常會封裝一個類來處理數(shù)據(jù)集，這個類繼承自?torch.utils.data.DataSet，我們需要重載父類的?_len_?和?_getitem_?方法。

處理數(shù)據(jù)集的這個類的整體部分如上，接下來就其中的重要部分進行解讀，數(shù)據(jù)增強的隨機縮放和旋轉(zhuǎn)這里就不說了，一起先來看看將圖像大小裁剪至512x512這部分。

crop_img：對圖像進行隨機起始點的裁剪，裁剪至目標大小512x512

然后對圖像中的文本框坐標等比例放大。

接下來就是搜索裁剪方案，搜索的方法是：在圖像放大后的尺寸比512x512多出來的空間內(nèi)進行隨機搜索起始點坐標；一個符合要求的裁剪方案是：裁剪得到的圖像不能“分割”了圖像中的任一文本框。

最后，由于圖像在放大后進行了裁剪，因此需要將放大后的文本框頂點坐標進行相應(yīng)的移動。

下一步，我們來看看具體是如何判斷裁剪方案是否符合要求的。

02? is_cross_text：判斷裁剪有無“割裂”圖像中的任意文本框

生成裁剪后圖像的多邊形區(qū)域以及文本框的多邊形區(qū)域，計算兩者的重疊區(qū)域面積。

計算重疊區(qū)域面積占文本框面積的比例，理想情況下是1，因為我們要求文本框完全處于裁剪后圖像的內(nèi)部。注意，只要圖像中有任意一個文本框不完全處于裁剪后的圖像內(nèi)部，則該裁剪方案不符合要求！

03??get_score_geo：生成 ground truth

這部分是核心部分，會生成3個map，分別是score map、geo map 以及 ignore map，他們各自的意義已在前面部分解釋。

以下這部分的處理十分有“藝術(shù)”！

首先明確下，這里制作gt生成的map是在下采樣率為1/4的特征圖上的，map中的每一點有兩種情況：在文本框內(nèi)和在文本框外，于是我們要對在文本框內(nèi)的這些點賦予文本框?qū)?yīng)的屬性(score為1，d 和 angle)。

但是，在這里，作者將我們需要賦值的文本框內(nèi)點的區(qū)域縮小了（將文本框4個頂點向內(nèi)部移動一定距離，得到一個比文本框面積小的區(qū)域），這么做的原因可能是因為這個map的尺寸是比輸入圖像小的，如果和原文本框區(qū)域一致，那么放大回去，有可能會引入文本框邊界以外的點，會引入假正例。

另外，需要注意的是，這里只是將需要賦值的文本框內(nèi)的區(qū)域縮小，但文本框的坐標本身是沒有改變的！