VietOCR

English | Lietuviškai | Slovensky | Vietnamese

POPIS

VietOCR je Java rozhranie pre Tesseract OCR systém, poskytujúci podporu rozoznávania znakov pre bežné formáty obrázkov a viacstranové obrázky. Program obsahuje funkciu post-spracovanie, ktorá pomáha pri opravovaní chýb, ktoré sa pravidelne objavujú pri OCR procese a tak sa zvyšuje miera presnosti výsledku. Program je tiež možné použiť ako konzolovú aplikáciu, ktorú je možné spustiť z príkazového riadku.

Podporované je aj dávkové spracovanie. Program monitoruje nové obrázkové súbory v sledovanom priečinku a automaticky ich spracuje pomocou OCR systému a výstup uloží do výstupného priečinka.

SYSTÉMOVÉ POŽIADAVKY

Java Runtime Environment 6.0 alebo vyššia verzia.

INŠTALÁCIA

Windows veriza Tesseract 3.02 je súčasťou programu. Ďalšie jazykové dátové balíky pre Tesseract, ktoré začínajú s ISO639-3 kódom, by mali byť umiestnené do podriečinka tessdata.

V Ubuntu sú Tesseract a jeho jazykové dáta súčasťou Graphics (universe) repository. Môžete ich nainštalovať pomocou Synaptic alebo príkazu:

sudo apt-get install tesseract-ocr tesseract-ocr-eng tesseract-ocr-slk

Súbory budú umiestnené do /usr/bin resp. /usr/share/tesseract-ocr/tessdata. Pokiaľ si Tesseract skompilujete sami zo zdrojových kódov, nainštaluje sa do /usr/local/bin a /usr/local/share/tessdata. Z tohoto dôvodu môže byť potrebné nastaviť umiestnenie programu Tesseract vo VietOCR Nastaveniach. Ak sú dáta umiestnené neštandardne, je potrebné nalinkovať ich do tessdata. Tiež je možné použiť premennú prostredia TESSDATA_PREFIX na informovanie VietOCR, kde sú umiestnené dáta:

export TESSDATA_PREFIX=/usr/local/share/

Informácie ohľadom inštalácie programu Tesseract na iných platformách hľadajte na Tesseract Wiki stránke.

VietOCR taktiež poskytuje podporu pre sťahovanie a inštaláciu vybraných jazykových balíčkov cez Stiahnuť jazyk Dáta položku menu. V závislosti na umiestnení tessdata zložky, môže byť potrebné spustiť program ako root alebo admin aby bolo možné nainštalovať stiahnutých dát do priečinka, ak je vnútri systému zložky, ako napríklad v /usr na Linuxe alebo C:\Program Files v systéme Windows.

Podpora skenovania je poskytovaná cez knižnicu Windows Image Acquisition Library v2.0, ktorá vyžaduje Windows XP Service Pack 1 (SP1) alebo vyššiu verziu. Táto knižnica je štandardnou súčasťou Windows Vista a 7. Inštaláciu na Windows XP urobte nasledovnými krokmi: skopírujte súbor wiaaut.dll do priečinka System32 (zvyčajne je to C:\Windows\System32) a spustite nasledovný príkaz v príkazovom riadku:

regsvr32 C:\Windows\System32\wiaaut.dll

V systéme Linux, skenovanie vyžaduje inštaláciu balíčkov SANE:

sudo apt-get install libsane sane sane-utils libsane-extras xsane

PDF podpora je dostupná cez projekt GPL Ghostscript. Po jeho inštalácií sa prosím uistite, že zdieľaná knižnica (gsdll32.dll alebo libgs.so) je v ceste (PATH), prípadne nastavte patričnú premennú prostredia. Vo Windows, pridajte nasledovný reťazec hodnote Path (prístupná je cez Kontrolný panel > Systém > Pokročilé nastavenia > Premenné prostredia) pre GS verzie 9.06:

;C:\Program Files\gs\gs9.06\bin

V Linux-e:

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/lib

ak je odkaz libgs.so na libgs.so.9.06 umiestnený v /usr/lib.

Kontrola preklepov (spellcheck) je dostupná cez projekt Hunspell, ktorého slovníkové súbory .aff, .dic) by mali byť umiestnené v dict priečinku VietOCR. user.dic je súbor kódovaný v UTF-8-encoded, ktorý obsahuje zoznam vlastných slov - jedno slovo na riadok.

V Ubuntu je Hunspell a jeho slovníky možné nainštalovať cez Synaptic alebo apt, takto:

sudo apt-get install hunspell hunspell-en-us

INŠTRUKCIE

Program spustíte príkazom:

java -jar VietOCR.jar

Poznámka: Ak narazíte na problém „out-of-memory exception“, spustite ocr(.bat) skript namiesto uvedeného príkazu.

Obrázky určené na OCR by mali byť skenované v rozlíšení aspoň 200 DPI (dot per inch) až 400 DPI v monochromatickom (čierno&bielom) režime alebo v odtieňoch šedej. Skenovanie vo vyššom rozlíšení neprináša vyššiu presnosť pri rozoznávaní znakov. Miera presnosti však závisí hlavne na kvalite naskenovaného obrázka. Typické nastavenie pre skenovanie je 300 DPI a 1 bpp (bit per pixel) čierno-bielo alebo 8 bpp (odtiene šedej) do nekomprimovaného TIFF alebo PNG formátu.

Nový Režim snímky obrazovky ponúka lepšiu mieru presnosti pre obrázky s nízkym rozlíšením ako napr. snímky obrazovky, pomocou zväčšenia rozlíšenia na 300 DPI.

Okrem vstavaného algoritmu pre post-spracovania textu, môžete si pridať vlastnú schému nahradzovania textu textový súbor s názvom x.DangAmbigs.txt, kde x je ISO639-3 kód jazyka. Tento súbor v UTF-8 kódovaní by mal obsahovať páry oddelené znakom „rovná sa“ v tvare staráHodnota=nováHodnota.

Niektoré vstavané nástroje poskytujú funkcie spájania niekoľkých obrázkov alebo PDF súborov do jedného (pre pohodlnejšie rozoznávanie znakov), alebo delenie PDF súborov na menšie, ak sú príliš veľké a spôsobujú „out-of-memory exceptions“.

POST-SPRACOVANIE

Chyby pri rozoznávaní znakov sa dajú rozdeliť do troch kategórií. Časté sú zámeny veľkosti písmen napr. „O“ — „o“, „Z“ — „z“, „S“ — „s“. Tieto chyby sa dajú opraviť pomocou populárnych Unicode textových editorov.

Ďalšie chyby sú spôsobené OCR procesom - napríklad chýbajúce diakritické znamienka, zamenené znaky („1“ — „l“). Takéto chyby je možné pomerne ľahko opraviť pomocou kontroly preklepov (spellechecker). Vstavané funkcie pre post-spracovanie vám môžu pomôcť s vyššie uvedeným chybami.

Poslednou kategóriou sú chyby, ktoré je ťažké detegovať, pretože sú to sémantické chyby, čo znamená, že dané slová sa nachádzajú v slovníku, ale sú chybné z hľadiska kontextu napr. „súd“ — „sud“ a pod. Tieto chyby si vyžadujú, aby ich opravil korektor manuálne podľa originálneho obrázka.

Tu sú inštrukcie, ako opraviť prvé dve kategórie OCR chýb s pomocou zabudovanej funkcie:

Zoskupenie riadkov. Riadky je potrebné zoskupiť tak, aby zodpovedali odsekom, ku ktorým patria (1 odsek = 1 riadok). Použite na to funkciu Odstrániť zalomenia riadkov, ktorá sa nachádza v menu Formát. Takáto operácia nie je potrebná pre básne.
Vyberte Zmeniť veľkosť písmen, z ponuky Formát, a potom Prvé veľké na opravu chýb veľkosti písmen. Následne opravte ostatné chyby veľkosti písmen (napr. mená, názvy).
Opravte preklepy s použitím Kontrola preklepov.

Vyššie uvedené kroky by mali eliminovať väčšinu bežných chýb. Zostávajúce sémantické chyby však musí opraviť ľudský editor pozorným čítaním a korigovaním, aby bol výsledný dokument bez chýb.

Ak máte nejaké otázky, položte ich na VietOCR fórum.