Cách cài bộ language data VNI & TCVN3 cho VietOCR

Vietnamese Optical Character Recognition

Moderator: quân

Cách cài bộ language data VNI & TCVN3 cho VietOCR

Postby quân » Wed Jan 13, 2010 3:10 am

Phương cách cài bộ language data cho font VNI & TCVN3 (ABC):

Download và unzip tesseract-2.03.vie.vni-tcvn3.zip. Từ command prompt, chạy rename command để đổi language code prefix "vie" thành "vie-x", mà x là bất cứ mẫu tự hay số, như sau:
Code: Select all
ren vie.* vie-t.*

Sau khi đổi tên file xong, bạn hãy dời move các file vie-t.* vào tessdata folder của VietOCR, rồi biên tập edit file data\ISO639-3.xml để thêm 1 entry nữa cho language code mới được đặt tên:
Code: Select all
<entry key="vie-t">Viet VNI-TCVN3</entry>

Khi OCR văn bản chứa VNI hoặc TCVN3 (ABC) fonts, bạn chọn Viet VNI-TCVN3 option từ OCR Language combobox trên toolbar của VietOCR.

Phương cách này áp dụng với cả hai phiên bản Java và .NET. Sau khi thực hiện, bạn có thể thí nghiệm với ảnh viet-uni-vni-tcvn3.tif. Hàm Hậu xử lý postprocess sẽ không hiệu lực cho language code "vie-t" cho phiên bản 1.5. Thiếu sót này sẽ được tính trong phiên bản tới của VietOCR.
quân
 
Posts: 236
Joined: Sat Nov 16, 2002 1:51 am
Location: Oxnard, CA - USA

Postby quân » Sun Jan 17, 2010 3:37 pm

Mức chính xác sẽ cao hơn cho văn bản có font thuần nhất, tức cùng 1 loại font. Nếu văn bản dùng nhiều font khác nhau, khoanh vùng khu vực có cùng loại font sẽ tạo kết quả nhận dạng tốt hơn.

Accuracy rate will be higher for documents having the same font. If the document uses different fonts, box selection of zone having the same font will produce better recognition result.
quân
 
Posts: 236
Joined: Sat Nov 16, 2002 1:51 am
Location: Oxnard, CA - USA


Return to VietOCR

Who is online

Users browsing this forum: No registered users and 1 guest