OCR是什么 ? OCR (Optical Character Recognition,光學字符識別)是指電子設備檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程。 而由于技術門檻相當的高,能做中文OCR識別的公司并不多,所以那些獨立開發者開發的OCR軟件,一般都是借用大公司的API接口。
OCR文字識別的解碼主要難點在于如何進行輸入輸出的對齊。 如上圖所示,如果每個1xn預測一個字符,那么可能會出現多個1xn預測同一個字符,這樣子得到的最終結果會產生重復字符。 所以需要設計針對文字識別的解碼算法來解決輸入輸出的對齊問題。
OCR (Optical Character Recognition,光學字符識別)是指電子設備(例如掃描儀或數碼相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程;即,針對印刷體字符,采用光學的方式將紙質文檔中的文字轉換成為黑白點陣的圖像文件,并通過識別軟件將圖像中的文字轉換成文本格式,供文字處理軟件進一步編輯加工的技術。 如何除錯或利用輔助信息提高識別正確率,是OCR最重要的課題,ICR(Intelligent Character Recognition)的名詞也因此而產生。
OCR技術的興起便是從印刷體識別開始的,印刷體識別的成功為后來手寫體的發展奠定了堅實的基礎。 印刷體識別的主要流程大致分為以下幾個部分:圖像預處理;版面處理;圖像切分;特征提取及模型訓練;識別后處理。