Training Tesseract OCR 3.0.1_综合

http://yy-programer.blogspot.tw/2012/08/training-tesseract-ocr-301.html

最近在研究車牌辨識

找上了歷史相當久遠的Tesseract

Tesseract屬於開放原始碼，並在Google code中維護

Tesseract的討論相當多，但是對於訓練(traning)的著墨是少之又少

幾乎千篇一律是Tesseract 2.0的翻譯文(直接從官網翻譯出來的文章)

這次整理把之前的介紹版本做一些修正和補充

詳細內容還是得參考官方網站：Traning Tesseract 3.0

以下是我整理的訓練步驟：

一. 先到Tesseract下載頁面下載這個檔案：

tesseract-ocr-setup-3.01-1.exe

二. 下載完後直接安裝 tesseract-ocr-setup-3.01-1.exe

三. 將所收集到的某字體的字母二值化後做成一張 .tif 的圖檔。
(小畫家即可製作)

如下圖所示：

eng.segoe.exp1.tif

將此圖檔(eng.segoe.exp1.tif)放在安裝目錄(Tesseract-OCR)下

這裡檔名代表的意思就是：語言.字形.範本.tif

此範例的意思就是：語言：英文，字形：segoe，範例：exp1

四. 以系統管理員身分執行命令提示字元

到剛剛的安裝目錄底下(C:\Program Files (x86)\Tesseract-OCR)，

執行下面的command line：
tesseract eng.timesitalic.exp0.tif eng.timesitalic.exp0 batch.nochop makebox

紅色部分是需要替換的文字，例子如下：
tesseract eng.segoe.exp1.tif eng.segoe.exp1 batch.nochop makebox

此時會產生一個.box的檔案(eng.segoe.exp1.box)

這是tesseract初步辨識出來的結果

包含每個字元的上下左右邊界，和辨識出來的結果

如果不用軟體去解析看起來會很雜亂，如下：

A 5 391 24 413 0 B 35 391 48 413 0 C 59 391 76 413 0 D 88 391 106 413 0 E 118 391 130 413 0 F 142 391 153 413 0 ...

但他應該是要這樣看的：

A 5 391 24 413 0
B 35 391 48 413 0
C 59 391 76 413 0
D 88 391 106 413 0
E 118 391 130 413 0
F 142 391 153 413 0
...

最左邊的是符號，也就是初步辨識出來的結果
(如果相對應有錯~就要在此修正)

第二位的數字代表的意思是：此字元的左邊界與影像的左邊界的距離
第二位數字是：此字元的下邊界與影像的下邊界的距離
第三位數字是：此字元的右邊界與影像的左邊界的距離
第四位數字是：此字元的上邊界與影像的下邊界的距離

這不是繞口令，直接看圖解比較清楚：

這是將原圖放大來看

第一位的數字代表的就是L1的長度(pixels)：5

第二位的數字代表的就是L4的長度(pixels)：391

第三位的數字代表的就是L2的長度(pixels)：24

第四位的數字代表的就是L3的長度(pixels)：413

有時候，甚至連這些長度都要做修正!!

五.利用記事本打開.box檔(eng.segoe.exp1.box)

去修正裡面有錯的部分，也可利用一些軟體來修正。(詳情請參考Traning Tesseract 3.0)

六. 接著執行：
tesseract lang.timesitalic.exp0.tif lang.timesitalic.exp0 nobatch box.train

紅色一樣是需要替換的部分，例子如下：
tesseract eng.segoe.exp1.tif eng.segoe.exp1 nobatch box.train

此時會產生兩個檔案：

.tr檔(eng.segoe.exp1.tr) .txt檔(eng.segoe.exp1.txt)

(原本tesseract-ocr-setup-3.00.exe會在此步驟產生log檔方便查看是否有錯誤發生。)

七. 接著執行：
unicharset_extractor lang.timesitalic.exp0.box

紅色一樣是需要替換的部分，例子如下：
unicharset_extractor eng.segoe.exp1.box

此時會跑出一個檔案：unicharset

八. 接著在安裝目錄(Tesseract-OCR)下新增一個純文字檔

內容打上：<fontname> <italic> <bold> <fixed> <serif> <fraktur>

本篇的例子如下：segoe 0 0 0 0 0
(這裡的字形名稱一定要跟你一開始設定的字形名稱相符合!!)

並另存新檔，存檔類型改成所有檔案，檔案名稱為：font_properties

這是用來做此字型的訓練內容(也就是.tif圖檔)的屬性設定

意思就是：某字體是否斜體是否粗體是否固定是否是櫬線字體是否是fraktur字體
(屬性就是用0和1去控制。)

九. 接著執行：
mftraining -F font_properties -U unicharset lang.timesitalic.exp0.tr
(font_properties就是剛剛新增出來的純文字)

紅色一樣是需要替換的部分，例子如下：
mftraining -F font_properties -U unicharset eng.segoe.exp1.tr

此時會跑出四個檔案：inttemp, mfunicharset, Microfeat, pffmtable

十一. 接著執行：
cntraining lang.timesitalic.exp0.tr

紅色一樣是需要替換的部分，例子如下：
cntraining eng.segoe.exp1.tr

此時會多出一個檔案：normproto

十二. (最容易忽略的步驟)

接著把剛剛產生的六個檔案：
unicharset, Microfeat, normproto, pffmtable, mfunicharset, inttemp

重新命名，在前面加上：lang. ，替換例子如下：
eng.unicharset, eng.Microfeat, eng.normproto, eng.pffmtable, eng.mfunicharset, eng.inttemp

十三. 接著執行：
combine_tessdata lang.

紅色一樣是需要替換的部分，例子如下：
combine_tessdata eng.

畫面會出現類似的文字：

Combining tessdata files
TessdataManager combined tesseract data files.
Offset for type 0 is -1
Offset for type 1 is 108
Offset for type 2 is -1
Offset for type 3 is 1385
Offset for type 4 is 308254
Offset for type 5 is 308442
Offset for type 6 is -1
Offset for type 7 is -1
Offset for type 8 is -1
Offset for type 9 is -1
Offset for type 10 is -1
Offset for type 11 is -1
Offset for type 12 is -1

依照上述的步驟執行的話，至少這四行紅色部分不能為-1，否則就是失敗!

此時會跑出最後一個檔案：.traineddata(eng.traineddata)

也就是最後的訓練文檔

十四. 最後進行測試前

需要先把產生出來的.traineddata(eng.traineddata)檔

複製到安裝目錄(Tesseract-OCR)下的tessdata資料夾
(記得先備份原本在裡面的eng.traineddata)

然後執行：
tesseract image.tif output -l lang

紅色一樣是需要替換的部分，我們拿之前的訓練圖檔來測試，例子如下：
tesseract eng.segoe.exp1.tif output -l eng

會產生一個output.txt

裡面就是Tesseract OCR 3.0透過你的訓練文檔來辨識出來的結果!!