Cách cài bộ language data VNI & TCVN3 cho Tesseract

Vietnamese Optical Character Recognition

Moderator: quân

Cách cài bộ language data VNI & TCVN3 cho Tesseract

Postby quân » Thu Jan 14, 2010 2:00 am

Phương cách cài bộ language data cho font VNI & TCVN3 (ABC) cho Tesseract:

Download và unzip tesseract-2.03.vie.vni-tcvn3.zip. Từ command prompt, chạy rename command để đổi language code prefix "vie" thành "vie-x", mà x là bất cứ mẫu tự hay số, như sau:
Code: Select all
ren vie.* vie-t.*

Sau khi đổi tên file xong, bạn hãy dời move các file vie-t.* vào tessdata folder của Tesseract.

Khi OCR văn bản chứa VNI hoặc TCVN3 (ABC) fonts, bạn cần chỉ định language code mới được đặt:
Code: Select all
tesseract vietsample.tif output -l vie-t

Kết quả sẽ chính xác hơn "vie", là bộ language data chỉ cho các font Unicode. Và ngược lại, khi OCR văn bản chứa Unicode fonts, hãy dùng language code "vie".
quân
 
Posts: 236
Joined: Sat Nov 16, 2002 1:51 am
Location: Oxnard, CA - USA

Return to VietOCR

Who is online

Users browsing this forum: No registered users and 1 guest