如何提高圖片轉(zhuǎn)表格文字的識別率及識別效果?(圖片錄入篇)


?在日常的客服工作中,有很多用戶會問我們一個相同的問題:你們的金鳴識別系統(tǒng)識別率能達到百分之幾?能不能達到99%甚至100%?我們先來舉個極端的例子:用戶上傳一張圖片給我們程序識別,這張圖片上的字是手寫的,非常潦草,連肉眼都認不出是什么字,這種情況下,我們程序能識別的好嗎?答案肯定是否定的:程序再利害,也利害不過人眼吧?如果連人都識別不出來,機器就甭說了!所以,這個問題的正確答案是:我們程序比市面上的識別轉(zhuǎn)換軟件識別率要高出許多,在使用我們程序的環(huán)境下,識別率一般與需識別的圖片質(zhì)量成正比。這里的“圖片質(zhì)量”會被很多朋友簡單地理解成“文字清晰”,其實這只是其中的一個組成部分,具體而言,它主要包含以下幾個部分:
一、文字清晰。要做到錄入到電子設(shè)備的圖片文字清晰,我們首先推薦用傳統(tǒng)的掃描儀:一是將紙張放入傳統(tǒng)掃描儀后,紙張會被壓平整,二是掃出來的文字要比拍照的要清晰。
其次就是拍照類的掃描儀了。相比傳統(tǒng)掃描儀,它除了不能保證紙張的平整外,清晰度雖然可能會稍差一點,但由于它是固定著的,拍出的照片就不存在因手抖動而產(chǎn)生的模糊了。當然,它還受環(huán)境光線的影響,最好能保證光線充足,如果光線不足,得到的圖片就會偏黑甚至有明顯的噪點,影響后期的識別質(zhì)量。
最后就是拍照了。一般的拍照也能滿足我們程序?qū)D片質(zhì)量的需要,只要拍的不是非常差,當然,拍出來的圖片質(zhì)量越好,識別效果就越好,識別率也越高。拍照時要注意手不要抖,一抖字就會模糊,連肉眼都看不清,別說程序了。
總之,無論采用什么錄入設(shè)備,都要保證所得到的圖片文字要清晰,起碼要保證人眼能看清楚,如果人眼都看不清楚,程序就更加看不清楚了。
二、紙張放平整。所謂平整就是把紙張放平、保證紙張表面的整潔,不要有雜點和涂鴉以及臟東西(如湯水、果汁等)。
三、無關(guān)內(nèi)容無需拍到。拍照時盡量不要拍到與識別內(nèi)容無關(guān)的東西,特別是帶字母、數(shù)字、漢字的東西(如鍵盤、疊得不整齊的紙張類文件等),盡量只拍需要識別的內(nèi)容。