Ako na OCR vo Windows
Vyšlo v časopise Nový život, vrámci seriálu "Technovinky"
V dnešnom texte by som vám rád dal do pozornosti nástroje zamerané na optické rozpoznávanie textu, ktoré máme k dispozícii vo Windows 10 a 11, ale aj dve zaujímavé webové služby s rovnakým zameraním. Letmo sa zmienim aj o nástrojoch použiteľných v telefónoch s operačným systémom Android. Na začiatok si pripomeňme, že optické rozpoznávanie textu (Skrátene OCR) je technológia, ktorá nám umožňuje previesť obrazovú informáciu obsahujúcu text, ako napríklad naskenovaný alebo z internetu stiahnutý obrázok do textových formátov, ktoré nám následne dokáže prečítať náš čítač obrazovky. Pri spracovaní veľkého množstva takýchto obrázkov (napríklad naskenovanej knihy) sme v minulosti používali a predpokladám, že niektorí ešte aj dnes používame program Finereader.
Finereader je aj v súčasnosti vhodný na hromadné rozpoznávanie väčšieho množstva obrázkov, v dobe internetu a sociálnych sietí sa však často dostávame do situácií, kedy potrebujeme rýchlo rozpoznať obsah jedného obrázka. Ak by som mal uviesť praktický príklad, tak by som si hneď spomenul na stravovaciu inštitúciu, do ktorej chodievam na obedy. Ich jedálny lístok sa ku mne zvyčajne dostáva prostredníctvom elektronickej pošty, tu i tam však zabudnú a vtedy je čas otvoriť si ich Facebook a rozpoznať si obrázok letáku, na ktorom možno vždy nájsť lístok na aktuálny týždeň. Ak často pracujete s internetom, tak sa predpokladám v podobných situáciách tu i tam ocitáte aj vy.
Začnime s tým, čo má k dispozícii priamo vo svojom počítači každý, kto používa Windows 10 resp. 11. V týchto operačných systémoch máme k dispozícii akýsi polotovar optického rozpoznávania textu. Tento dokážeme využiť napríklad v kombinácii s čítačom obrazovky NVDA a vykonať OCR aktuálnej obrazovky, alebo konkrétneho objektu zameraného objektovou navigáciou. Ak si chcete funkciu vyskúšať, potom postupujte nasledovne:
- Najprv si v nastaveniach NVDA, na záložke Windows OCR nastavte jazyk rozpoznávania. K dispozícii máte pravdepodobne Slovenčinu a Angličtinu, v správe jazykov Windows si však môžete v prípade záujmu pridať aj ďalšie jazyky
- Ak chceme robiť OCR napríklad na obrázku na internete a máme možnosť ho zväčšiť, tak to urobme
- Aby sme mali istotu, že je objekt ktorý chceme rozpoznať dobre viditeľný, maximalizujme obrazovku (stlačme 2 krát tlačidlo Windows v kombinácii so šípkou nahor)
- Pomocou objektovej navigácie zamerajme obrázok, ktorý chceme rozpoznať, vypnime tienenie obrazovky ak ho používame a stlačme skratku nvda+r
Čítač obrazovky nám oznámi, že prebieha rozpoznávanie a výsledok zobrazí v editačnom poli, kde si ho môžeme prečítať, prípadne okopírovať do schránky.
Vyššie opísaná funkcionalita Windows sa dá použiť ako núdzové riešenie v situáciách, kedy nemáme nič lepšie, prípadne ak nepotrebujeme kvalitný výstup.
Kvalitatívne trochu ďalej je online služba, ktorú nájdete na adrese https://www.onlineocr.net. Tá umožňuje urobiť OCR na súbore, ktorý jej podhodíte. Jej nevýhodou je, že vstupný súbor nemôže byť väčší ako 15MB. Nie je teda vhodná na rozpoznávanie kníh, v mnohých situáciách však postačí a jej výstup je kvalitatívne lepší, ako ten z Windows OCR. Na rozpoznanie spomenutého jedálneho lístka používam zvyčajne práve túto službu. Použitie je úplne jednoduché:
- stiahnite si súbor, na ktorom chcete urobiť OCR
- Otvorte si uvedenú stránku a stlačením súboru choose file vyberte súbor ktorý chcete rozpoznať
- Následne vyberte jazyk v ktorom dokument je a výstupný formát
- Stlačte tlačidlo Convert.
Po veľmi krátkej chvíľke sa priamo v prehliadači zobrazí obsah rozpoznaného dokumentu spolu s tlačidlom na uloženie výstupu vo formáte, ktorý ste zvolili.
Pri online službách ešte isto stojí za zmienku aj služba na adrese https://www.robobraille.org. Tú sa oplatí použiť pri rozpoznávaní väčších dokumentov, jej výstup je z pomedzi menovaných určite najlepší. Služba pri rozpoznávaní používa už spomenutý FineReader, ktorý máme všetci zažitý ako kvalitný nástroj. Služba je aj v Slovenčine, verím teda, že sa na stránkach ľahko zorientujete. Umožňuje OCR na dokumente ktorý nahráte na stránku, alebo môžete zadať aj internetovú adresu ktorá ukazuje priamo na dokument. Výsledok po vykonaní OCR vám bude doručený mailom.
Nevýhodou tejto služby je dlhšie čakanie na výsledok (zažil som aj niekoľko desiatok minút), takže nie je vhodná v situáciách, keď potrebujete výsledok v reálnom čase, veľkosť rozpoznávaných dokumentov je tu takisto limitovaná. Inak jej však niet čo vytknúť.
Optické rozpoznávanie textu s použitím mobilných telefónov by vydalo na samostatný článok, tu teda načrtneme len možnosti ktoré ponúka. Každý moderný telefón je v súčasnosti vybavený prinajmenšom jednou kamerou. Je teda zrejmé, že okrem toho, že pre telefóny existujú nástroje, ktoré nám umožňujú robiť OCR na konkrétnych súboroch uložených v telefóne, vstavaná kamera nám umožňuje aj akési OCR v reálnom čase. Teda, môžeme sa "obzerať" okolo seba a telefón sa automaticky pokúša rozpoznávať všetky texty, na ktoré kameru zameriate. Použitie kamery týmto spôsobom si vyžaduje trochu tréningu, keď to však viete, dokážete si prečítať informácie na obaloch tovarov, rýchlo orientačne nahliadnuť o čom je dokument, ktorý sa vám povaľuje na stole, prečítať si ceduľu na dverách a pri troche šťastia napríklad aj zistiť telefónne číslo autoškoly, ktorá vám práve prešla popod oknom (stalo sa mi nedávno).
Telefón s kamerou môže byť v živote nevidiaceho človeka extrémne užitočná vecička. Zvedavší z vás si môžu skúsiť pozrieť aplikácie ako Google Lookout, KNFB Reader, ak ste používatelia Corvusu tak moduly optické rozpoznávanie textu, či správcu súborov (po poklepaní na obrázkovom súbore budete môcť na tento súbor použiť vstavané optické rozpoznávanie textu).