Page 1 of 1

Cách cài bộ language data VNI & TCVN3 cho VietOCR

PostPosted: Wed Jan 13, 2010 3:10 am
by quân
Phương cách cài bộ language data cho font VNI & TCVN3 (ABC):

Download và unzip tesseract-2.03.vie.vni-tcvn3.zip. Từ command prompt, chạy rename command để đổi language code prefix "vie" thành "vie-x", mà x là bất cứ mẫu tự hay số, như sau:
Code: Select all
ren vie.* vie-t.*

Sau khi đổi tên file xong, bạn hãy dời move các file vie-t.* vào tessdata folder của VietOCR, rồi biên tập edit file data\ISO639-3.xml để thêm 1 entry nữa cho language code mới được đặt tên:
Code: Select all
<entry key="vie-t">Viet VNI-TCVN3</entry>

Khi OCR văn bản chứa VNI hoặc TCVN3 (ABC) fonts, bạn chọn Viet VNI-TCVN3 option từ OCR Language combobox trên toolbar của VietOCR.

Phương cách này áp dụng với cả hai phiên bản Java và .NET. Sau khi thực hiện, bạn có thể thí nghiệm với ảnh viet-uni-vni-tcvn3.tif. Hàm Hậu xử lý postprocess sẽ không hiệu lực cho language code "vie-t" cho phiên bản 1.5. Thiếu sót này sẽ được tính trong phiên bản tới của VietOCR.

PostPosted: Sun Jan 17, 2010 3:37 pm
by quân
Mức chính xác sẽ cao hơn cho văn bản có font thuần nhất, tức cùng 1 loại font. Nếu văn bản dùng nhiều font khác nhau, khoanh vùng khu vực có cùng loại font sẽ tạo kết quả nhận dạng tốt hơn.

Accuracy rate will be higher for documents having the same font. If the document uses different fonts, box selection of zone having the same font will produce better recognition result.