VietOCR

English | Lietuviškai | Slovensky | Vietnamese

MÔ TẢ

VietOCR là một Java GUI frontend cho Tesseract OCR engine, cung cấp hỗ trợ nhận dạng ký tự cho các dạng ảnh phổ thông, và ảnh chứa nhiều trang. Chương trình có phần hậu xử lý giúp sửa chữa các lỗi thường gặp trong quy trình OCR, tăng độ chính xác trên kết quả. Chương trình còn có khả năng vận hành như một ứng dụng console, thi hành lệnh từ command line.

Batch processing nay được hỗ trợ. Chương trình theo dõi một watch folder cho các tập tin ảnh mới, tự động xử lý chúng qua OCR engine, và xuất kết quả nhận dạng ra một output folder.

ĐÒI HỎI HỆ THỐNG

Java Runtime Environment 6.0 hoặc mới hơn.

CÀI ĐẶT

Tesseract 3.02 Windows executable đã được gói sẵn với chương trình. Các gói data ngôn ngữ (language data packs) cho Tesseract, có tên bắt đầu với mã ISO639-3, nên được đặt vào tessdata subdirectory.

Cho Linux, Tesseract và language data packages nằm trong Graphics (universe) repository. Chúng có thể được cài qua Synaptic hoặc từ lệnh sau:

sudo apt-get install tesseract-ocr tesseract-ocr-eng tesseract-ocr-vie

Files sẽ được đặt trong /usr/bin và /usr/share/tesseract-ocr/tessdata, trong thứ tự đó. Mặt khác, nếu Tesseract được xây dựng và cài từ mã nguồn, chúng sẽ được đặt trong /usr/local/bin và /usr/local/share/tessdata. Bạn có thể cần chỉ định directory của Tesseract executable từ Settings menu của VietOCR. Nếu data nằm trong một directory khác tiêu chuẩn, một soft link tới tessdata có thể cần thiết. Bạn cũng có thể cho VietOCR biết địa điểm của tessdata qua environment variable TESSDATA_PREFIX:

export TESSDATA_PREFIX=/usr/local/share/

Cho nền tảng khác, xin tham khảo trang Tesseract Wiki.

VietOCR cũng có cung cấp hỗ trợ tải xuống và cài đặt các language packs được chọn qua Tải dữ liệu ngôn ngữ menu item. Tùy theo địa điểm của thư mục tessdata, bạn có thể được yêu cầu chạy chương trình với quyền root hay admin để có thể cài đặt dữ liệu đã được tải vào thư mục đó nếu nó nằm trong một system folder, như là trong /usr trên Linux hoặc C:\Program Files trên Windows.

Hỗ trợ quét văn bản trên Windows được cung cấp qua Windows Image Acquisition Library v2.0, thư viện này đòi hỏi Windows XP Service Pack 1 (SP1) hoặc mới hơn. Thư viện này đến tiêu chuẩn với Windows Vista và 7. Để cài đặt WIA Library trên Windows XP, copy file wiaaut.dll vào System32 directory (thường đặt ở C:\Windows\System32) và chạy lệnh từ command line:

regsvr32 C:\Windows\System32\wiaaut.dll

Trên Linux, scanning đòi hỏi cài đặt các gói SANE packages:

sudo apt-get install libsane sane sane-utils libsane-extras xsane

Hỗ trợ cho PDF được khả thi qua GPL Ghostscript. Sau khi cài đặt thư viện, hãy bảo đảm shared library object (gsdll32.dll hoặc libgs.so) nằm trong search path bằng cách chỉnh biến môi trường phù hợp. Trên Windows, tiếp đuôi (append) đoạn sau vào giá trị của biến Path (truy cập được qua Control Panel > System > Advanced tab > Environment Variables) cho GS phiên bản 9.06:

;C:\Program Files\gs\gs9.06\bin

Trên Linux:

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/lib

nơi trong /usr/lib, libgs.so link tới libgs.so.9.06 được đặt.

Tính năng Duyệt chính tả (spellcheck) có được qua Hunspell, mà các dictionary files trực thuộc (.aff, .dic) nên được đặt trong dict folder của VietOCR. user.dic là một file được mã hóa trong UTF-8 chứa một danh sách các từ riêng, một từ mỗi hàng.

Trên Linux, Hunspell và tự điển của nó có thể được cài đặt bởi Synaptic hoặc apt, như sau:

sudo apt-get install hunspell hunspell-en-us

HƯỚNG DẪN

Để phóng chương trình:

java -jar VietOCR.jar

Lưu ý: Nếu bạn gặp out-of-memory exception, hãy chạy ocr script file thay vì sử dụng .jar.

Bộ Vietnamese language data được tạo cho các font Times New Roman, Arial, Verdana, và Courier New. Do đó, việc nhận dạng sẽ có kết quả cao hơn cho các ảnh có font glyphs tương tự. OCR ảnh có font glyph trông khác các font hỗ trợ thông thường sẽ đòi hỏi tập huấn Tesseract để tạo một bộ language data khác cụ thể cho những mặt chữ đó. Language data cho một số VNI và TCVN3 (ABC) fonts cũng đã được bó kèm trong các phiên bản mới nhất.

Hình ảnh muốn được OCR cần quét ở độ phân giải từ 200 DPI (dot per inch) trở lên tới 400 trong trắng đen hoặc grayscale. Quét ảnh với độ phân giải cao hơn nữa chưa hẳn sẽ tăng sự chính xác của kết quả nhận dạng. Hiện tại, mức chính xác có thể lên trên 97% cho Tiếng Việt, và phiên bản tới của Tesseract có thể nâng cao độ nhận dạng hơn nữa. Dầu vậy, độ chính xác thực thụ vẫn còn tùy thuộc rất lớn vào phẩm chất của ảnh quét. Thông số tiêu biểu cho quét ảnh là 300 DPI và 1 bpp (bit per pixel) trắng đen hoặc 8 bpp grayscale dạng không nén (uncompressed) TIFF hay PNG.

Chế độ Screenshot Mode cung cấp độ nhận dạng tốt hơn cho những hình ảnh có độ phân giải thấp, chẳng hạn như ảnh in màn hình, bằng cách rescaling chúng tới 300 DPI.

Ngoài thuật toán hậu xử lý xây trong chương trình, bạn có thể thêm cách thức thay thế từ ngữ đặc riêng của bạn qua một tập tin text có tên x.DangAmbigs.txt, mà x là ISO639-3 language code. File này, được mã hóa trong UTF-8, chứa các cặp giáTrịCũ=giáTrịMới phân cách bởi dấu bằng.

Vài công cụ gắn liền được cung cấp để nối nhiều file ảnh hoặc PDF vào một file đơn để thuận tiện cho các tác vụ OCR, hoặc tách một file PDF thành nhiều file nhỏ hơn nếu nó quá lớn, điều mà có thể gây ra biệt lệ cạn bộ nhớ.

HẬU XỬ LÝ

Các lỗi nhận diện ký tự có thể tổng quát phân làm ba loại. Nhiều lỗi thường bị bởi do lẫn lộn chữ hoa và chữ thường (upper and lower) — ví dụ: hOa, nhắC — có thể dễ dàng sửa chữa sử dụng các chương trình Unicode text editor. Lỗi do sự xử lý không chính xác, gây ra các lỗi như thiếu sót dấu, lầm với ký tự có hình dáng tương tự, v.v… — huu – hưu, mang – marg, h0a – hoa, la – 1a, uhìu - nhìn. Đa số các lỗi này cũng có thể dễ dàng sửa chữa dùng các phần mềm duyệt chính tả. Hàm Hậu xử lý có thể sửa được nhiều lỗi vừa nêu.

Loại lỗi cuối cùng là khó phát hiện nhất bởi chúng liên quan đến ngữ nghĩa, semantics, có nghĩa là những chữ đánh vần đúng (tức là mục từ có trong tự điển), nhưng sai nghĩa trong ngữ cảnh (context) — ví dụ: tinh – tình, vân – vấn. Những lỗi này cần phải có người đọc duyệt lại và sửa theo bản gốc trong hình.

Sau đây là hướng dẫn cách sửa chữa hai loại lỗi OCR đầu tiên, sử dụng các chức năng được tích hợp sẵn:

Gom dòng. Các hàng chữ (line) cần được gom lại theo từng đoạn (paragraph), bởi khi được OCR, các hàng chữ đứng riêng trong các đoạn 1 hàng (1-line paragraph). Dùng tính năng Nối dòng trong menu Định dạng. Lưu ý rằng tác vụ này có thể không cần cho thi thơ.
Cũng trong menu Định dạng, bấm Đổi ngữ cách và chọn Chữ hoa đầu câu để sửa gần như tất cả các lỗi chữ hoa-thường. Hãy dò tìm và sửa các lỗi hoa-thường còn sót.
Sửa lỗi chính tả bằng công cụ Duyệt chính tả.

Qua quy trình trên, hầu hết các lỗi thông thường có thể được loại trừ. Những lỗi ngữ nghĩa semantic còn lại ít, nhưng đòi hỏi người duyệt đọc dò lại toàn bộ văn bản để được giống y như văn bản gốc quét, và toàn thiện nếu muốn.

Mọi thắc mắc, xin đăng trong Diễn Đàn VietOCR.