Here is a summary:
- 1. Obtain a good, clean, uncompressed 300 DPI TIFF scan of a page of your document
2. Obtain the text by retyping the page for correction and testing purpose
3. The more data, the better the OCR result, so repeat (1) and (2) until you have at least 4 pages. Limit is 32
4. Execute tesseract command to obtain the box files
5. Edit the box file using the bbTesseract editing tool
6. Execute tesseract command to generate the data files (clustering)
7. Rename files with "vie." prefix and copy the files to tessdata directory, overriding the existing data
8. Run OCR on the original images to validate your work. The accuracy rate should be in the high 90%
Ứng dụng thực tế cho thấy Tesseract OCR engine rất nhạy cảm tới sự khác biệt trong hình dáng phông chữ. Cho chữ Quốc ngữ, nếu dáng phông khác với bốn phông được hỗ trợ, sự chính xác suy giảm hẳn. Bạn sẽ phải tập huấn cho font của bạn, mà quy trình hơi phức tạp chút nhưng được giải thích chi tiết trong trang Tesseract Wiki.
Tóm lược như sau:
- 1. Làm một ảnh tốt, sạch, uncompressed 300 DPI TIFF scan từ 1 trang của văn bản của bạn
2. Đánh máy lại trang đó cho mục đích sửa lỗi và thực nghiệm
3. Càng nhiều dữ kiện, kết quả OCR càng tốt, vì vậy hãy lập lại (1) and (2) cho đến khi bạn có ít nhất 4 trang. Giới hạn là 32
4. Chạy tesseract command để tạo box files
5. Chỉnh sửa box file sử dụng bbTesseract editing tool
6. Chạy tesseract command để tạo data files (clustering)
7. Thay tên file với tiếp đầu ngữ "vie." và copy data files vào tessdata directory, đè trên file đang hiện có
8. Chạy OCR trên ảnh gốc để chứng thực công quả của bạn. Mức chính xác sẽ nằm trong tầm cao của 90%
Để cộng đồng có thể hưởng lợi từ công lao của bạn, xin vui lòng gửi data files. Chúng sẽ được đăng trong VietOCR's Download page. Hãy nhớ ghi tên của font mà bạn đã tập huấn cho, để người sử dụng biết phải load bộ data nào vào tessdata directory khi OCR văn bản của họ.
