English | Lietuviškai | Slovensky | Vietnamese
VietOCR je Java rozhranie pre Tesseract OCR systém, poskytujúci podporu rozoznávania znakov pre bežné formáty obrázkov a viacstranové obrázky. Program obsahuje funkciu post-spracovanie, ktorá pomáha pri opravovaní chýb, ktoré sa pravidelne objavujú pri OCR procese a tak sa zvyšuje miera presnosti výsledku. Program je tiež možné použiť ako konzolovú aplikáciu, ktorú je možné spustiť z príkazového riadku.
Podporované je aj dávkové spracovanie. Program monitoruje nové obrázkové súbory v sledovanom priečinku a automaticky ich spracuje pomocou OCR systému a výstup uloží do výstupného priečinka.
Java Runtime Environment 6.0 alebo vyššia verzia.
Windows veriza Tesseract 3.02 je súčasťou programu. Ďalšie jazykové dátové balíky pre Tesseract, ktoré začínajú s ISO639-3 kódom, by mali byť umiestnené do podriečinka tessdata.
V Ubuntu sú Tesseract a jeho jazykové dáta súčasťou Graphics (universe) repository. Môžete ich nainštalovať pomocou Synaptic alebo príkazu:
sudo apt-get install tesseract-ocr tesseract-ocr-eng tesseract-ocr-slk
Súbory budú umiestnené do /usr/bin resp. /usr/share/tesseract-ocr/tessdata. Pokiaľ si Tesseract skompilujete sami zo zdrojových kódov, nainštaluje sa do /usr/local/bin a /usr/local/share/tessdata. Z tohoto dôvodu môže byť potrebné nastaviť umiestnenie programu Tesseract vo VietOCR Nastaveniach. Ak sú dáta umiestnené neštandardne, je potrebné nalinkovať ich do tessdata. Tiež je možné použiť premennú prostredia TESSDATA_PREFIX na informovanie VietOCR, kde sú umiestnené dáta:
export TESSDATA_PREFIX=/usr/local/share/
Informácie ohľadom inštalácie programu Tesseract na iných platformách hľadajte na Tesseract Wiki stránke.
VietOCR taktiež poskytuje podporu pre sťahovanie a inštaláciu vybraných jazykových balíčkov cez Stiahnuť jazyk Dáta položku menu. V závislosti na umiestnení tessdata zložky, môže byť potrebné spustiť program ako root alebo admin aby bolo možné nainštalovať stiahnutých dát do priečinka, ak je vnútri systému zložky, ako napríklad v /usr na Linuxe alebo C:\Program Files v systéme Windows.
Podpora skenovania je poskytovaná cez knižnicu Windows Image Acquisition Library v2.0, ktorá vyžaduje Windows XP Service Pack 1 (SP1) alebo vyššiu verziu. Táto knižnica je štandardnou súčasťou Windows Vista a 7. Inštaláciu na Windows XP urobte nasledovnými krokmi: skopírujte súbor wiaaut.dll do priečinka System32 (zvyčajne je to C:\Windows\System32) a spustite nasledovný príkaz v príkazovom riadku:
regsvr32 C:\Windows\System32\wiaaut.dll
V systéme Linux, skenovanie vyžaduje inštaláciu balíčkov SANE:
sudo apt-get install libsane sane sane-utils libsane-extras xsane
PDF podpora je dostupná cez projekt GPL Ghostscript. Po jeho inštalácií sa prosím uistite, že zdieľaná knižnica (gsdll32.dll alebo libgs.so) je v ceste (PATH), prípadne nastavte patričnú premennú prostredia. Vo Windows, pridajte nasledovný reťazec hodnote Path (prístupná je cez Kontrolný panel > Systém > Pokročilé nastavenia > Premenné prostredia) pre GS verzie 9.06:
V Linux-e:;C:\Program Files\gs\gs9.06\bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/lib
ak je odkaz libgs.so na libgs.so.9.06 umiestnený v /usr/lib.
Kontrola preklepov (spellcheck) je dostupná cez projekt Hunspell, ktorého slovníkové súbory .aff, .dic) by mali byť umiestnené v dict priečinku VietOCR. user.dic je súbor kódovaný v UTF-8-encoded, ktorý obsahuje zoznam vlastných slov - jedno slovo na riadok.
V Ubuntu je Hunspell a jeho slovníky možné nainštalovať cez Synaptic alebo apt, takto:
sudo apt-get install hunspell hunspell-en-us
Program spustíte príkazom:
java -jar VietOCR.jar
Poznámka: Ak narazíte na problém „out-of-memory exception“, spustite ocr(.bat) skript namiesto uvedeného príkazu.
Obrázky určené na OCR by mali byť skenované v rozlíšení aspoň 200 DPI (dot per inch) až 400 DPI v monochromatickom (čierno&bielom) režime alebo v odtieňoch šedej. Skenovanie vo vyššom rozlíšení neprináša vyššiu presnosť pri rozoznávaní znakov. Miera presnosti však závisí hlavne na kvalite naskenovaného obrázka. Typické nastavenie pre skenovanie je 300 DPI a 1 bpp (bit per pixel) čierno-bielo alebo 8 bpp (odtiene šedej) do nekomprimovaného TIFF alebo PNG formátu.
Nový Režim snímky obrazovky ponúka lepšiu mieru presnosti pre obrázky s nízkym rozlíšením ako napr. snímky obrazovky, pomocou zväčšenia rozlíšenia na 300 DPI.
Okrem vstavaného algoritmu pre post-spracovania textu, môžete si pridať vlastnú schému nahradzovania textu textový súbor s názvom x.DangAmbigs.txt, kde x je ISO639-3 kód jazyka. Tento súbor v UTF-8 kódovaní by mal obsahovať páry oddelené znakom „rovná sa“ v tvare staráHodnota=nováHodnota.
Niektoré vstavané nástroje poskytujú funkcie spájania niekoľkých obrázkov alebo PDF súborov do jedného (pre pohodlnejšie rozoznávanie znakov), alebo delenie PDF súborov na menšie, ak sú príliš veľké a spôsobujú „out-of-memory exceptions“.
Chyby pri rozoznávaní znakov sa dajú rozdeliť do troch kategórií. Časté sú zámeny veľkosti písmen napr. „O“ — „o“, „Z“ — „z“, „S“ — „s“. Tieto chyby sa dajú opraviť pomocou populárnych Unicode textových editorov.
Ďalšie chyby sú spôsobené OCR procesom - napríklad chýbajúce diakritické znamienka, zamenené znaky („1“ — „l“). Takéto chyby je možné pomerne ľahko opraviť pomocou kontroly preklepov (spellechecker). Vstavané funkcie pre post-spracovanie vám môžu pomôcť s vyššie uvedeným chybami.
Poslednou kategóriou sú chyby, ktoré je ťažké detegovať, pretože sú to sémantické chyby, čo znamená, že dané slová sa nachádzajú v slovníku, ale sú chybné z hľadiska kontextu napr. „súd“ — „sud“ a pod. Tieto chyby si vyžadujú, aby ich opravil korektor manuálne podľa originálneho obrázka.
Tu sú inštrukcie, ako opraviť prvé dve kategórie OCR chýb s pomocou zabudovanej funkcie:
Vyššie uvedené kroky by mali eliminovať väčšinu bežných chýb. Zostávajúce sémantické chyby však musí opraviť ľudský editor pozorným čítaním a korigovaním, aby bol výsledný dokument bez chýb.
Ak máte nejaké otázky, položte ich na VietOCR fórum.