English | Lietuviškai | Slovensky | Vietnamese
VietOCR.NET je .NET rozhranie pre Tesseract OCR systém, poskytujúci podporu rozoznávania znakov pre bežné formáty obrázkov a viacstranové obrázky. Program obsahuje funkciu post-spracovanie, ktorá pomáha pri opravovaní chýb, ktoré sa pravidelne objavujú pri OCR procese a tak sa zvyšuje miera presnosti výsledku. Program je tiež možné použiť ako konzolovú aplikáciu, ktorú je možné spustiť z príkazového riadku.
Podporované je aj dávkové spracovanie. Program monitoruje nové obrázkové súbory v sledovanom priečinku a automaticky ich spracuje pomocou OCR systému a výstup uloží do výstupného priečinka.
Microsoft .NET Framework 2.0 Redistributable.
Ak sa stretnete s chybovou správou FileLoadException "Could not load file or assembly 'tesseract, Version=1.0.0.0, Culture=neutral, PublicKeyToken=null' or one of its dependencies. This application has failed to start because the application configuration is incorrect. Reinstalling the application may fix this problem. (Exception from HRESULT: 0x800736B1)" pri behu VietOCR.NET, nainštalujte si balík Microsoft Visual C++ 2008 SP1 Redistributable (x86, x64).
Ak nemáte práva na inštalovanie do priečinku C:\Program Files, môžete vybrať aj iný inštalačný priečinok pri inštalácií.
Podpora skenovania je zabezpečená cez knižnicu Windows Image Acquisition Library v2.0, ktorý vyžaduje Windows XP Service Pack 1 (SP1) alebo vyšší; Knižnica je integrovaný vo Windows Vista a 7. WIA knižnicu môže nainštalovať skopírovaním wiaaut.dll súboru do vášho adresára System32 (zvyčajne je umiestnený v C:\Windows\System32) a spustite v príkazovom riadku:
regsvr32 C:\Windows\System32\wiaaut.dll
PDF podpora je dostupná cez projekt GPL Ghostscript. Po jeho inštalácií sa prosím uistite, že zdielaná knižnica (gsdll32.dll alebo libgs.so) je v ceste (PATH), prípadne nastavte patričnú premennú prostredia. Vo Windows, pridajte nasledovný reťazec hodnote Path (prístupná je cez Kontrolný panel > Systém > Pokročilé nastavenia > Premenné prostredia) pre GS verzie 9.06:
;C:\Program Files\gs\gs9.06\bin
Kontrola preklepov (spellcheck) je dostupná cez projekt Hunspell, ktorého slovníkové súbory .aff, .dic) by mali byť umiestnené v dict priečinku VietOCR. user.dic je súbor kódovaný v UTF-8-encoded, ktorý obsahuje zoznam vlastných slov - jedno slovo na riadok.
Jazykové dátové balíčky pre Tesseract-ocr by mali byť dekomprimované do inštalačného priečinku programu tesseract; dátové súbory, ktorých názvy začínajú ISO639-3 kódmi majú byť umiestnené do tessdata podadresára. VietOCR tiež poskytuje podporu pre sťahovanie a inštaláciu zvolených jazykových balíkov cez menu položku Stiahnuť jazykové dáta. V závislosti od umiestnenia adresára tessdata možno budú požadované administrátorské práva pri inštalácií stiahnutých dát, ak sa tento adresár nachádza v systémovom adresári, ako je napr. C:\Program Files.
Obrázky určené na OCR by mali byť skenované v rozlíšení aspoň 200 DPI (dot per inch) až 400 DPI v monochromatickom (čierno&bielom) režime alebo v odtieňoch šedej. Skenovanie vo vyššom rozlíšení neprináša vyššiu presnosť pri rozoznávaní znakov. Miera presnosti však závisí hlavne na kvalite naskenovaného obrázka. Typické nastavenie pre skenovanie je 300 DPI a 1 bpp (bit per pixel) čierno-bielo alebo 8 bpp (odtiene šedej) do nekomprimovaného TIFF alebo PNG formátu.
Nový Režim snímky obrazovky ponúka lepšiu mieru presnosti pre obrázky s nízkym rozlíšením ako napr. snímky obrazovky, pomocou zväčšenia rozlíšenia na 300 DPI.
Okrem vstavaného algoritmu pre post-spracovania textu, môžete si pridať vlastnú schému nahradzovania textu textový súbor s názvom x.DangAmbigs.txt, kde x je ISO639-3 kód jazyka. Tento súbor v UTF-8 kódovaní by mal obsahovať páry oddelené znakom „rovná sa“ v tvare staráHodnota=nováHodnota.
Niektoré vstavané nástroje poskytujú funkcie spájania niekoľkých obrázkov alebo PDF súborov do jedného (pre pohodlnejšie rozoznávanie znakov), alebo delenie PDF súborov na menšie, ak sú príliš veľké a spôsobujú „out-of-memory exceptions“.
Chyby pri rozoznávaní znakov sa dajú rozdeliť do troch kategórií. Časté sú zámeny veľkosti písmen napr. „O“ — „o“, „Z“ — „z“, „S“ — „s“. Tieto chyby sa dajú opraviť pomocou populárnych Unicode textových editorov.
Ďalšie chyby sú spôsobené OCR procesom - napríklad chýbajúce diakritické znamienka, zamenené znaky („1“ — „l“). Takéto chyby je možné pomerne ľahko opraviť pomocou kontroly preklepov (spellechecker). Vstavané funkcie pre post-spracovanie vám môžu pomôcť s vyššie uvedeným chybami.
Poslednou kategóriou sú chyby, ktoré je ťažké detegovať, pretože sú to sémantické chyby, čo znamená, že dané slová sa nachádzajú v slovníku, ale sú chybné z hľadiska kontextu napr. „súd“ — „sud“ a pod. Tieto chyby si vyžadujú, aby ich opravil korektor manuálne podľa originálneho obrázka.
Tu sú inštrukcie, ako opraviť prvé dve kategórie OCR chýb s pomocou zabudovanej funkcie:
Vyššie uvedené kroky by mali eliminovať väčšinu bežných chýb. Zostávajúce sémantické chyby však musí opraviť ľudský editor pozorným čítaním a korigovaním, aby bol výsledný dokument bez chýb.
Ak máte nejaké otázky, položte ich na VietOCR fórum.