„VietOCR.NET“ – .NET grafinė sąsaja „Tesseract OCR“ moduliui

VietOCR.NET

English | Lietuviškai | Slovensky | Vietnamese

PROGRAMOS APRAŠAS

„VietOCR.NET“ yra .NET technologija pagrįsta grafinė aplinka leidžianti naudotis „Tesseract OCR“ optinio ženklų atpažinimo moduliu ir yra skirta automatiškai atpažinti nuskenuoto rašto ženklus. Programa numato populiariausius vaizdų formatus, leidžia naudoti kelis ar daugiau puslapių viename vaizdo faile. Be to, programa gali papildomai aptvarkyti atpažintą tekstą, ištaisydama būdingiausias teksto atpažinimo metu pasitaikančias klaidas. Tai padeda pasiekti daug geresnės rezultato kokybės. Programa gali veikti ir terminalo ekrane, ją startuojant komandinėje eilutėje.

Programoje numatytas ir paketinis vaizdų apdorojimas. Programa gali stebėti nurodytą aplanką ir, jame atsiradus naujų failų, automatiškai juos apdoroti, o atpažintus tekstus įrašyti į rezultatams talpinti nurodytą aplanką.

REIKALAVIMAI SISTEMAI

„Microsoft .NET Framework 2.0“ platforma.

Jeigu, leisdami „VietOCR.NET“, susiduriate su failo įkėlimo klaida, apie kurią pranešama taip: „Could not load file or assembly 'tesseract, Version=1.0.0.0, Culture=neutral, PublicKeyToken=null' or one of its dependencies. This application has failed to start because the application configuration is incorrect. Reinstalling the application may fix this problem. (Exception from HRESULT: 0x800736B1)“, prašom įdiegti Jūsų naudojamai operacinei sistemai tinkamą „Microsoft Visual C++ 2008 SP1 Redistributable“ paketą (x86, x64).

PROGRAMOS ĮDIEGIMAS

Jeigu neturite teisių programos įdiegti kaip įprasta į C:\Program Files aplanką, diegimo metu galėsite nurodyti kitą disko vietą.

Skenerio programiniam palaikymui yra naudojama „Windows Image Acquisition Library (WIA) v2.0“ biblioteka, kuriai būtina „Windows XP SP1“ ar naujesnė „Windows“ laida; biblioteka yra įtraukta į Vista ir 7. WIA biblioteka įdiegiama, nukopijuojant failą wiaaut.dll į sistemos System32 aplanką (dažniausiai jo kelias – C:\Windows\System32) ir jį užregistruojant tokia komanda:

regsvr32 C:\Windows\System32\wiaaut.dll

PDF failų palaikymas galimas naudojant „GPL Ghostscript“ priemonę. Ją įdiegus, reikia užtikrinti, kad dinaminė biblioteka gsdll32.dll patektų į sisteminės failų paieškos kelią, apibrėžiamą aplinkos kintamuoju Path, kurį galite redaguoti, atvėrę Valdymo skydą, jame spustelėję piktogramą „Sistema“, tada atverę kortelę „Išsamiau“ ir spustelėję mygtuką „Aplinkos kintamieji“. Pavyzdžiui, „GhostScript 9.06“ atveju, kintamąjį Path reikėtų papildyti tokia eilute:

;C:\Program Files\gs\gs9.06\bin

Rašybos tikrinimo funkcija galima panaudojant „Hunspell“ tikrintuvę, kurios žodynų failai (.aff, .dic) turėtų būti patalpinti į aplanką dict, esantį „VietOCR“ programos aplanke.

INSTRUKCIJOS

„Tesseract“ programos kalbinių duomenų paketai turėtų būti išskleisti į tesseract diegimo aplanke. Duomenų failai, kurių vardai prasideda ISO639-3 kodais, bus patalpinti į poaplankį tessdata. „VietOCR“ geba parsiųsti ir įdiegti kalbinių duomenų paketus kai kurioms kalboms; šia funkcija galite pasinaudoti, iškviesdami meniu „Nuostatos“ punktą „Parsiųsti kalbinius duomenis“. Jeigu tessdata aplankas yra sisteminio aplanko (pvz., C:\Program Files) viduje, kalbiniams duomenims įdiegti programą gali tekti vykdyti administratoriaus teisėmis.

Kalbinių duomenų failai yra generuojami konkretiems šriftams, todėl programai geriausiai sekasi atpažinti būtent šių ar panašių glifų šriftais rašytus tekstus. Prireikus vaizduose atpažinti kitais šriftais rašytą tekstą, reikės „Tesseract“ programą apmokyti ir sukurti papildomus kalbos duomenų failus, numatančius ir kitokios išvaizdos šriftus. Kiek išsamiau lietuviškai apie „Tesseract“ galite paskaityti Donato Glodenio tinklaraštyje.

Ženklų atpažinimui teksto failo vaizdai turi būti nuskaitomi nuo 200 iki 400 taškų colyje raiška, naudojant juodai baltą arba pilkumo tonų veikseną. Aukštesnės raiškos vaizdai nebūtinai pagerins ženklų atpažinimo kokybę, kuri ir taip yra pakankamai aukšta, ir kitose „Tesseract“ laidose gali dar pagerėti. Reali ženklų atpažinimo kokybė priklauso nuo nuskenuoto vaizdo kokybės. Rekomenduojamos nuostatos skenuojamam vaizdui yra tokios: 300 taškų colyje, 1 bitas taškui (1bpp; juodai balta veiksena) arba 8 bitai taškui (8bpp; pilkumo tonai), vaizdą įrašant į neglaudintą TIFF arba PNG formato failą.

Žemos raiškos (ekranvaizdžio) veiksena įgalina pagerinti žemos raiškos vaizdų atpažinimo našumą. Šioje veiksenoje žemos raiškos (pvz. ekrano) vaizdai konvertuojami į 300 taškų colyje raišką.

Programa numato galimybę jau esamą teksto apdorojimo algoritmą papildyti savuoju. Pridėkite savo pritaikytą teksto ženklų pakeitimo schemą įrašytą faile x.DangAmbigs.txt, simbolį „x“ pakeisdami ISO639-3 standarto kalbos kodu (pvz., lietuvių kalbos kodas – „lit“). UTF-8 koduotės teksto faile lygybės ženklu „=“ atskirkite keistinų teksto fragmentų poras taip: senaReikšmė=naujaReikšmė.

Programoje įtaisyti įrankiai, skirti sujungti vaizdams ar PDF formato failams bei skaidyti PDF failams. Kartais patogiau apdoroti vieną failą, bet ne daug smulkių, o kartais, siekiant išvengti atminties stygiaus problemų, tenka padalinti vieną didelį failą į mažesnes dalis.

NUSKAITYTO TEKSTO APDOROJIMAS

Teksto atpažinimo klaidos paprastai gali būti skirstomos į tris kategorijas. Dauguma klaidų susiję su raidžių registru (pavyzdžiui, „šūVis“) – jos lengvai pataisomos bet kuria su unikodu koduotais tekstais gebančia dirbti tekstų rengykle. Kita klaidų rūšis susijusi su ženklų atpažinimo proceso problemomis, kai raidės supainiojamos dėl diakritinių ženklų arba formos panašumų. Tai nesunkiai pataisoma teksto rašybos taisymo programomis. Programoje įtaisyta nuskaityto teksto papildomo aptvarkymo funkcija leidžia pašalinti daugumą šių tipų klaidų.

Trečiosios kategorijos klaidų pašalinimas negali būti automatizuotas ir reikalauja rankinio teksto redaktoriaus darbo. Šios rūšies klaidos susiję su teksto semantinėm problemom. Tokias atvejais tik žmogus, perskaitęs sakinį, supratęs jo kontekstą, gali nuspręsti kuris žodis buvo originaliame dokumente.

Pateikiame instrukciją, kaip taisyti pirmos ir antros kategorijos teksto ženklų atpažinimo klaidas tiesiogiai programos lange:

sujunkite teksto eilutes. Po teksto atpažinimo kiekvienos eilutės gale atsiranda po eilutės skirtuką, nurodantį pastraipos pabaigą. Eilutėms sujungti pasinaudokite meniu „Formatas“ punktu „Pašalinti eilučių skirtukus“. Atkreipkite dėmesį, kad, kai tekstas yra eiliuotas (poezija ar pan.) to gali ir nereikėti;
daugumą raidžių registro klaidų pašalinsite, pasirinkę meniu „Formatas“ punktą „Keisti raidžių registrą“, tuomet pasirinkite punktą „Sakinio stilius“;
ištaisykite rašybos klaidas, pasinaudodami mygtuku „Tikrinti rašybą“.

Atlikus šiuos veiksmus, dauguma klaidų bus pašalintos. Likusios klaidos susiję su teksto semantika. Jos reikalauja žmogaus – tekstų redaktoriaus – pastangų. Redaktorius skaitys originalo tekstą ir ištaisys tas vietas, kuriose automatinis klaidų šalinimas negalėjo padėti.

Jeigu turite kokių nors klausimų, kviečiame kreiptis (angliškai) į programos naudotojų forumą internete.

Vertė Rytis Umbrasas ir Rimas Kudelis.