最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

CV經(jīng)典論文推薦:10篇OCR論文

2022-01-06 18:26 作者:深度之眼官方賬號(hào)  | 我要投稿


本周最后一篇CV方向論文推薦,今天的主角是OCR,一共有10篇,5篇識(shí)別和5篇檢測(cè)。好好珍惜它!


下周我們即將開(kāi)啟NLP方向經(jīng)典論文的介紹!期待不?那就關(guān)注學(xué)姐?。?/p>


廢話不多說(shuō),來(lái)看OCR的經(jīng)典論文。


# 識(shí)別


CRNN

最常用的識(shí)別網(wǎng)絡(luò),任意長(zhǎng)度輸入,模型小,參數(shù)少


期刊日期

TPAMI 2017


論文名稱

《An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition》


描述

論文思路和方法


1)問(wèn)題范圍:?jiǎn)卧~識(shí)別;2)CNN層:使用標(biāo)準(zhǔn)CNN提取圖像特征,利用Map-to-Sequence表示成特征向量;3)RNN層:使用雙向LSTM識(shí)別特征向量,得到每列特征的概率分布;4)Transcription層:利用CTC和前向后向算法求解最優(yōu)的label序列;


亮點(diǎn)和創(chuàng)新點(diǎn)


1)端到端可訓(xùn)練(把CNN和RNN聯(lián)合訓(xùn)練);2)任意長(zhǎng)度的輸入(圖像寬度任意,單詞長(zhǎng)度任意);3)訓(xùn)練集無(wú)需有字符的標(biāo)定;4)帶字典和不帶字典的庫(kù)(樣本)都可以使用;5)性能好,而且模型?。▍?shù)少)


論文鏈接

https://arxiv.org/pdf/1507.05717.pdf


本論文關(guān)注【學(xué)姐帶你玩AI】后臺(tái)回復(fù)“CRNN”領(lǐng)取課件資料代碼




Attention_OCR

該方法處理普通文本,不針對(duì)彎曲文本,后續(xù)方法都針對(duì)彎曲文本


期刊日期

IEEE,2017


論文名稱

《Attention-based Extraction of Structured Information from Street View Imagery》


描述

提出了一種神經(jīng)網(wǎng)絡(luò)模型-基于卷積神經(jīng)網(wǎng)絡(luò),回歸神經(jīng)網(wǎng)絡(luò)和一種新穎的注意機(jī)制-在具有挑戰(zhàn)性的法國(guó)街道名稱標(biāo)志(FSNS)數(shù)據(jù)集上達(dá)到84.2%的準(zhǔn)確率,明顯優(yōu)于先前的技術(shù)水平(Smith')16),達(dá)到72.46%。此外,我們的新方法比以前的方法更簡(jiǎn)單,更通用。為了證明我們模型的一般性,我們證明它在從Google街景視圖中衍生的更具挑戰(zhàn)性的數(shù)據(jù)集上也表現(xiàn)良好,其目標(biāo)是從商店前端提取商業(yè)名稱。最后,我們研究了使用不同深度的CNN特征提取器產(chǎn)生的速度/準(zhǔn)確度權(quán)衡。令人驚訝的是,我們發(fā)現(xiàn)更深層次并不總是更好(在準(zhǔn)確性和速度方面)。我們生成的模型簡(jiǎn)單,準(zhǔn)確,快速,可以在各種具有挑戰(zhàn)性的真實(shí)文本提取問(wèn)題上大規(guī)模使用。


論文鏈接

https://arxiv.org/abs/1704.03549


代碼:

https://github.com/tensorflow/models




ASTER

引入注意力機(jī)制,整合矯正和識(shí)別,改善大規(guī)則文字識(shí)別


期刊日期

TPAMI 2018


論文名稱

《An Attentional scene text recognizer with flexible rectification》


描述

場(chǎng)景文本識(shí)別的一個(gè)具有挑戰(zhàn)性的方面是處理扭曲或不規(guī)則布局的文本。尤其是透視文字和曲線文字在自然場(chǎng)景中比較常見(jiàn),難以識(shí)別。


在這項(xiàng)工作中,我們引入了 ASTER,這是一種端到端的神經(jīng)網(wǎng)絡(luò)模型,包括一個(gè)整流網(wǎng)絡(luò)和一個(gè)識(shí)別網(wǎng)絡(luò)。修正網(wǎng)絡(luò)自適應(yīng)地將輸入圖像轉(zhuǎn)換為新圖像,修正其中的文本。它由靈活的 Thin-Plate Spline 轉(zhuǎn)換提供支持,該轉(zhuǎn)換可處理各種文本不規(guī)則性,并在沒(méi)有人工注釋的情況下進(jìn)行訓(xùn)練。


識(shí)別網(wǎng)絡(luò)是一種注意力序列到序列模型,它直接從校正后的圖像中預(yù)測(cè)字符序列。整個(gè)模型是端到端的訓(xùn)練,只需要圖像和它們的真實(shí)文本。


通過(guò)大量實(shí)驗(yàn),我們驗(yàn)證了整改的有效性,并展示了 ASTER 最先進(jìn)的識(shí)別性能。此外,我們證明 ASTER 是端到端識(shí)別系統(tǒng)中的一個(gè)強(qiáng)大組件,因?yàn)樗哂性鰪?qiáng)檢測(cè)器的能力。


論文鏈接

http://122.205.5.5:8071/UpLoadFiles/Papers/ASTER_PAMI18.pdf


代碼:

https://github.com/bgshih/aster




MORAN

加入了注意力機(jī)制的文本識(shí)別


期刊日期

PR 2019


論文名稱

《A Multi-Object Rectified Attention Network for Scene Text Recognition》


描述

MORAN分為兩部分一個(gè)是對(duì)形變input image的校正網(wǎng)絡(luò)MORN(multi-object rectification network)和對(duì)矯正后照片的識(shí)別網(wǎng)絡(luò)ASRN(attention-based sequence network)。


除了整體架構(gòu),作者還強(qiáng)調(diào)了兩種提升訓(xùn)練效果的方法,因?yàn)檫@個(gè)端到端的網(wǎng)絡(luò)比較難訓(xùn)練。一個(gè)是fractional pickup method用于提升ASRN的訓(xùn)練效果,一個(gè)是curriculum learning用于訓(xùn)練MORAN這個(gè)端到端的網(wǎng)絡(luò)。


論文鏈接

https://arxiv.org/abs/1901.03003


代碼:

https://github.com/Canjie-Luo/MORAN_v2




FOTS

識(shí)別檢測(cè)端到端的網(wǎng)絡(luò),解決了角度文本端到端識(shí)別的問(wèn)題


期刊日期

CVPR 2018


論文名稱

《FOTS: Fast Oriented Text Spotting with a Unified Network》


描述

偶然場(chǎng)景文本識(shí)別被認(rèn)為是文檔分析社區(qū)中最困難和最有價(jià)值的挑戰(zhàn)之一。大多數(shù)現(xiàn)有方法將文本檢測(cè)和識(shí)別視為單獨(dú)的任務(wù)。


在這項(xiàng)工作中,我們提出了一個(gè)統(tǒng)一的端到端可訓(xùn)練快速定向文本識(shí)別 (FOTS) 網(wǎng)絡(luò),用于同時(shí)檢測(cè)和識(shí)別,在兩個(gè)互補(bǔ)任務(wù)之間共享計(jì)算和視覺(jué)信息。特別地,引入了 RoIRotate 以在檢測(cè)和識(shí)別之間共享卷積特征。


受益于卷積共享策略,我們的 FOTS 與基線文本檢測(cè)網(wǎng)絡(luò)相比計(jì)算開(kāi)銷很小,并且聯(lián)合訓(xùn)練方法學(xué)習(xí)了更多的通用特征,使我們的方法比這些兩階段方法表現(xiàn)更好。


論文鏈接

https://arxiv.org/pdf/1801.01671.pdf

識(shí)別檢測(cè)端到端的網(wǎng)絡(luò)(工程應(yīng)用場(chǎng)景較少)


# 檢測(cè)


CTPN實(shí)現(xiàn)端到端檢測(cè),改進(jìn)RPN


期刊日期

ECCV 2016


論文名稱

《Detecting Text in Natural Image withConnectionist Text Proposal Network》


描述

我們提出了一種新穎的 Connectionist Text Proposal Network (CTPN),可以準(zhǔn)確定位自然圖像中的文本行。CTPN 直接在卷積特征圖中檢測(cè)一系列精細(xì)文本提議中的文本行。我們開(kāi)發(fā)了一種垂直錨點(diǎn)機(jī)制,可以聯(lián)合預(yù)測(cè)每個(gè)固定寬度提議的位置和文本/非文本分?jǐn)?shù),從而顯著提高定位精度。順序提議由循環(huán)神經(jīng)網(wǎng)絡(luò)自然連接,循環(huán)神經(jīng)網(wǎng)絡(luò)無(wú)縫地合并到卷積網(wǎng)絡(luò)中,從而形成端到端的可訓(xùn)練模型。這使得 CTPN 能夠探索圖像的豐富上下文信息,使其能夠強(qiáng)大地檢測(cè)極其模糊的文本。CTPN 在多尺度和多語(yǔ)言文本上可靠地工作,無(wú)需進(jìn)一步的后處理,與以前需要多步后處理的自下而上的方法不同。它在 ICDAR 2013 和 2015 基準(zhǔn)上實(shí)現(xiàn)了 0.88 和 0.61 F-measure,大大超過(guò)了最近的結(jié)果 [8, 35]。通過(guò)使用非常深的 VGG16 模型 [27],CTPN 的計(jì)算效率為 0:14s/image。


論文鏈接

https://arxiv.org/abs/1609.03605





EAST & AdvancedEAST

全卷積網(wǎng)絡(luò)+非極大值抑制,縮短檢測(cè)時(shí)間


期刊日期

CVPR 2017


論文名稱

《EAST: An Efficient and Accurate Scene Text Detector 》


描述

以前的場(chǎng)景文本檢測(cè)方法已經(jīng)在各種基準(zhǔn)測(cè)試中取得了有希望的性能。


然而,即使配備了深度神經(jīng)網(wǎng)絡(luò)模型,它們?cè)谔幚砭哂刑魬?zhàn)性的場(chǎng)景時(shí)通常也表現(xiàn)不佳,因?yàn)檎w性能取決于管道中多個(gè)階段和組件的相互作用。在這項(xiàng)工作中,我們提出了一個(gè)簡(jiǎn)單而強(qiáng)大的管道,可以在自然場(chǎng)景中進(jìn)行快速準(zhǔn)確的文本檢測(cè)。


管道直接預(yù)測(cè)完整圖像中任意方向和四邊形形狀的單詞或文本行,使用單個(gè)神經(jīng)網(wǎng)絡(luò)消除不必要的中間步驟(例如,候選聚合和單詞分區(qū))。


我們管道的簡(jiǎn)單性允許集中精力設(shè)計(jì)損失函數(shù)和神經(jīng)網(wǎng)絡(luò)架構(gòu)。在包括 ICDAR 2015、COCO-Text 和 MSRA-TD500 在內(nèi)的標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)表明,所提出的算法在準(zhǔn)確性和效率方面都明顯優(yōu)于最先進(jìn)的方法。


在 ICDAR 2015 數(shù)據(jù)集上,所提出的算法在 720p 分辨率下以 13.2fps 獲得了 0.7820 的 F-score。


論文鏈接

https://arxiv.org/pdf/1704.03155.pdf




PSENet

多個(gè)尺度預(yù)測(cè)結(jié)果,準(zhǔn)確檢測(cè)區(qū)分臨近文本行


期刊日期

CVPR 2019


論文名稱

《PSENet: Shape Robust Text Detection with Progressive Scale Expansion Network 》


描述

文章認(rèn)為其提出的方法能避免現(xiàn)有bounding box回歸的方法產(chǎn)生的對(duì)彎曲文字的檢測(cè)不準(zhǔn)確的缺點(diǎn)(如下圖b所示),也能避免現(xiàn)有的通過(guò)分割方法產(chǎn)生的對(duì)于文字緊靠的情況分割效果不好的缺點(diǎn)(如下圖c所示)。


該文章的網(wǎng)絡(luò)框架是從FPN中受到啟發(fā)采用了U形的網(wǎng)絡(luò)框架,先通過(guò)將網(wǎng)絡(luò)提取出的特征進(jìn)行融合然后利用分割的方式將提取出的特征進(jìn)行像素的分類,最后利用像素的分類結(jié)果通過(guò)一些后處理得到文本檢測(cè)結(jié)果。



論文鏈接

https://arxiv.org/pdf/1903.12473.pdf


代碼:

https://github.com/whai362/PSENet



PANNET

號(hào)稱PSENet的二代


期刊日期

ICCV 2019


論文名稱

《Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network》


描述

有低計(jì)算成本的分割部分和可學(xué)習(xí)的后處理。分割分割部分由特征金字塔增強(qiáng)模塊(FPEM)和特征融合模塊(FFM)組成。FPEM是可級(jí)聯(lián)的U形模塊,可以引入多級(jí)信息來(lái)指導(dǎo)更好的分割。


FFM可以將不同深度的FPEM提供的特征收集到最終特征中進(jìn)行分割。可學(xué)習(xí)的后處理是通過(guò)像素聚合(PA)實(shí)施的,該算法可以通過(guò)預(yù)測(cè)的相似度矢量精確地聚合文本像素。


論文鏈接

https://arxiv.org/pdf/1908.05900.pdf

代碼

https://github.com/whai362/pan_pp.pytorch



DBNe

將二值化融入網(wǎng)絡(luò),速度極快

期刊日期

AAAI 2020


論文名稱

《Real-time Scene Text Detection with Differentiable Binarization》


描述

由于分割網(wǎng)絡(luò)的結(jié)果可以準(zhǔn)確描述諸如扭曲文本的場(chǎng)景,因而基于分割的自然場(chǎng)景文本檢測(cè)方法變得流行起來(lái)?;诜指畹姆椒ㄆ渲嘘P(guān)鍵的步驟是其后處理部分,這步中將分割的結(jié)果轉(zhuǎn)換為文本框或是文本區(qū)域。


這篇文章的文本檢測(cè)方法也是基于分割的,但是通過(guò)提出Differenttiable Binarization module(DB module)來(lái)簡(jiǎn)化分割后處理步驟(加了一個(gè)邊的預(yù)測(cè)),并且可以設(shè)定自適應(yīng)閾值來(lái)提升網(wǎng)絡(luò)性能。文章的方法在現(xiàn)有5個(gè)數(shù)據(jù)上在檢測(cè)精度與速度上均表現(xiàn)為state-of-art。


在換用輕量級(jí)的backbone(ResNet-18)之后可以將檢測(cè)幀率提升到62FPS,其與其它一些文本檢測(cè)算法的性能與速率關(guān)系見(jiàn)圖1所示。




論文鏈接

https://arxiv.org/pdf/1911.08947.pdf

代碼:

https://github.com/MhLiao/DB


免責(zé)聲明:所載內(nèi)容來(lái)源互聯(lián)網(wǎng),僅供參考。轉(zhuǎn)載稿件版權(quán)歸原作者和機(jī)構(gòu)所有,如有侵權(quán),請(qǐng)聯(lián)系我們刪除。


關(guān)注學(xué)姐拿更多論文資料


CV經(jīng)典論文推薦:10篇OCR論文的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
上虞市| 天门市| 泽普县| 延川县| 洛阳市| 遵义县| 广南县| 祥云县| 甘谷县| 商水县| 泸溪县| 高州市| 长沙县| 巩义市| 黑龙江省| 保康县| 柘荣县| 增城市| 托克逊县| 宝兴县| 光泽县| 阳新县| 新巴尔虎左旗| 乾安县| 博湖县| 沙坪坝区| 西贡区| 犍为县| 肥西县| 东宁县| 泰州市| 乌兰浩特市| 类乌齐县| 新野县| 喀喇| 东山县| 禹城市| 绍兴市| 建德市| 凤山市| 都昌县|