物流:OCR快遞運單采集系統(tǒng)設(shè)計
01 什么是OCR?
OCR「Optical Character Recognition」,光學(xué)字符識別即:OCR文字識別。
指電子設(shè)備(例如掃描儀或數(shù)碼相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程;
即針對印刷體字符,采用光學(xué)的方式將紙質(zhì)文檔中的文字轉(zhuǎn)換成為黑白點陣的圖像文件,并通過識別軟件將圖像中的文字轉(zhuǎn)換成文本格式,供文字處理軟件進一步編輯加工的技術(shù)。
02 OCR文字識別技術(shù)的應(yīng)用領(lǐng)域
l證件識別、車牌識別
l智慧醫(yī)療
lpdf文檔轉(zhuǎn)換為Word
l拍照識別、截圖識別、網(wǎng)絡(luò)圖片識別
l無人駕駛
l無紙化辦公、稿件編輯校對
l物流分揀
l輿情監(jiān)控
l文檔檢索
l字幕識別
l文獻資料檢索等
03 OCR文字識別的一般流程
OCR文字識別主要分為印刷體文字識別和手寫體文字識別。
OCR文字識別技術(shù)的手段多種多樣,各個識別過程也是不盡相同,這里簡要介紹文字識別方法的一般流程。
l識別出文字區(qū)域(通過滑動窗口算法,遍歷整個圖片,有監(jiān)督的標(biāo)記訓(xùn)練樣本特征進行判斷,找到目標(biāo)圖片進行矩形化摘取出來)
l對文字區(qū)域矩形分割,拆分成不同的字符(在矩形中做一維滑動窗口移動,判斷字符間間距,對字符進行劃分)
l字符分類(對劃分好的字符根據(jù)監(jiān)督算法,對字符進行預(yù)測)
l識別出文字(最終識別出整個字符)
l后處理識別矯正,對識別出的文字進行后續(xù)處理和校正。比如,考慮單詞Because,我們設(shè)計的識別模型把它識別為8ecause,那么我們就可以用語法檢測器去糾正這種拼寫錯誤,并用B代替8并完成識別矯正。這樣子,整個OCR流程就走完了。
04 快遞行業(yè)分析
在現(xiàn)代快遞業(yè)存在和發(fā)展的今天,快捷、準(zhǔn)確、安全已經(jīng)只是快遞服務(wù)最基本的要求,高品質(zhì)快遞服務(wù)要求快遞行業(yè)信息化的水平越來越高。
運單融入OCR掃描之后可以解決以下問題:
1.客戶滿意度和安全體驗上升:運單圖片掃描上傳后,給用戶的查詢提供了極大的方便,能夠看到原始的運單圖片和收件人的簽字,安全性有了保障。
2.大大提高工作效率和解決成本開支:如分公司通過將原始運單掃描之后,就不用把原始運單帶到總部進行財務(wù)核算。省去找單、對單這些繁瑣的工作,直接在系統(tǒng)上輸入單號就可以看到原始圖片。這個過程中運單掃描上傳的速度快,每分鐘可以掃描上傳90張運單,這樣既可以節(jié)約人力資本,又可以降低出錯率;
3.電子運單的保存比原始運單的保存要方便,并且保存的時間也要長。節(jié)約了運單的留存空間和費用。
05 OCR快遞運單采集系統(tǒng)設(shè)計
l采集系統(tǒng)組成業(yè)務(wù)流程
OCR快遞運單采集系統(tǒng)與專用掃描儀進行配合,通過標(biāo)準(zhǔn)TWAIN接口,對快遞運單進行快速掃描,自動識別運單上的條碼及其相關(guān)的印刷文字信息。
在圖像處理完畢后,通過預(yù)先給定的FTPServer的訪問參數(shù),將識別成功的運單影像文件上傳至指定服務(wù)器路徑下。
l采集系統(tǒng)業(yè)務(wù)流程
l運單采集系統(tǒng)的功能
1)物流單據(jù)的掃描與識別
通過高速掃描儀對運單進行快速掃描,得到高質(zhì)量的圖像。
運單采集系統(tǒng)可以在掃描的同時識別快遞運單的一維條形碼,并將識別的條形碼值作為圖像文件名存儲。
2)圖像處理
對掃描效果不佳的圖像進行簡單的修圖操作。
3)運單識別
對快遞運單進行默認(rèn)識別。對自動識別失敗的文件,可使用框選識別進行輔助識別,雙重保障識別結(jié)果準(zhǔn)確性。
4)圖像及條碼校驗
圖像掃描與條碼識別完成后,用戶可根據(jù)右側(cè)的圖像對條碼進行人工質(zhì)檢,輸入正確的條碼值;如果掃描的圖像過大,用戶也可對圖像進行壓縮,使其符合要求。
5)快遞運單圖像上傳至FTP服務(wù)器
可以通過FTP服務(wù)器參數(shù)設(shè)置將掃描識別成功的運單圖像上傳至后臺FTP服務(wù)器中存儲及共享
6)工作量統(tǒng)計
自動統(tǒng)計出指定時間段的掃描工作量。