Cyfrowo z reCAPTCHA

O digitalizacji jako pojęciu czy trendzie z pewnością słyszał już każdy z nas. Została ona dość mocno zakorzeniona w naszej świadomości i stanowi jedną z tendencji, za którą powinna podążać każda firma, chcąca nie tylko być na bieżąco z postępem technologicznym i IT, lecz również pragnąca osiągnąć przewagę konkurencyjną na rynku.

Ale czy tak naprawdę wiemy, co kryje się pod pojęciem digitalizacji, jakie korzyści ona nam daje oraz w jaki sposób jest wdrażana? Czy zdajemy sobie sprawę z tego, że prawie każdy z nas jest już elementem tego procesu i, świadomie bądź nie, uczestniczy w digitalizacji?

Miliony użytkowników przepisują

Idealnym tego przykładem może być mechanizm reCaptcha pozwalający zabezpieczyć większość portali czy stron przed próbą dostępu z wykorzystaniem tzw. botów. Wymusza on na użytkowniku konieczność przepisania słowa wyświetlonego na ekranie w celu potwierdzenia, że jest „żywą istotą”.

Uznano, że jest to nie tylko dobry sposób zapewnienia bezpieczeństwa, ale też wydajna metoda darmowej i szybkiej digitalizacji np. określonych zbiorów książek czy gazet. Jak to działa? Mechanizm reCaptcha wyświetla dwa słowa, z których jedno jest znane oprogramowaniu, drugiego z kolei mechanizmy rozpoznawania automatycznego nie mogą odczytać ze stuprocentową dokładnością. Jeśli określona liczba użytkowników poda oba słowa właściwie, program uznaje, że „niepewne” słowo zostało rozpoznane i dodaje je do bazy. W ten sposób przez ostatnie lata (prawie) każdy z nas przyczynił się do digitalizacji np. papierowych wydań New York Times’a czy zbiorów znajdujących się w amerykańskiej Bibliotece Narodowej (rocznie jest to ok. 17 000 książek).

Ciekawostką jest tu także fakt (co łatwo sprawdzić), że przy autoryzacji przy użyciu reCAPTCHa wystarczy wpisać poprawnie jedno, znane programowi słowo. Nawet jeśli drugi wyraz zostanie podany błędnie, i tak zostaniemy poprawnie zautoryzowani. Nie od razu można jednak stwierdzić, które ze słów jest tym „prawdziwym”, jednoznacznie rozpoznawalnym.

Co to ma wspólnego z digitalizacją?

Wracając jednak do sedna — czym właściwie jest digitalizacja? Mówiąc prostym językiem, jest to proces mający na celu rozpoznanie tekstu maszynowego lub pisma odręcznego zapisanego na nośniku fizycznym (najczęściej papierze) i przekształcenie go do postaci cyfrowej. Warto zauważyć przy tym, że popularne skanowanie dokumentów nie jest digitalizacją w pełnym tego słowa znaczeniu. Skanowanie wykazuje pewne cechy digitalizacji, ale ma również swoje ograniczenia i z tego względu najwłaściwiej można sklasyfikować je jako jeden z etapów w procesie cyfryzacji. O pełnej digitalizacji możemy mówić dopiero wtedy, gdy dokument fizyczny zostanie zamieniony na wersję cyfrową w postaci pojedynczych znaków (w przeciwieństwie do skanowania, gdzie wynikiem jest jedynie obraz dokumentu). Właśnie ta funkcjonalność generuje najwięcej korzyści w procesie digitalizacji i sprawia, że jest on współcześnie jednym z wiodących trendów.

Dzięki digitalizacji zyskujemy w oczywisty sposób, ograniczając konieczność przechowywania dużej ilość dokumentów papierowych, a co za tym idzie posiadania przestrzeni magazynowej o odpowiednim standardzie. Poza tym zapewnia ona bezpieczeństwo dokumentów oraz eliminuje ryzyko (w postaci ognia, wilgoci, starzenia itp.), na jakie narażony jest standardowy nośnik, czyli papier. Przede wszystkim jednak cyfrowe dokumenty oferują znacznie bardziej różnorodne funkcjonalności, które przy standardowym, papierowym nośniku są ograniczone, a w niektórych przypadkach niemożliwe.

Digitalizacja sprawia także, że znaczenie przestaje mieć odległość, a konieczność transportu danego dokumentu, wizyty w bibliotece lub magazynie stają się po prostu zbędna. Zyskujemy natychmiastowy dostęp do potrzebnych danych, możemy w dowolny sposób przeszukiwać ogromne zbiory, kopiować i wykorzystywać ich fragmenty lub pojedyncze słowa, a także pracować z innymi użytkownikami na tym samym dokumencie w czasie rzeczywistym, niezależnie od miejsca. Co ważne, digitalizacja posiada ogromny potencjał do optymalizacji i automatyzacji działań, a dzięki temu ma znaczący wpływ na efektywność realizowanych zadań.

Cel: w pełni automatyczne rozpoznawanie tekstu

Wymienione korzyści osiągnąć można oczywiście jedynie poprzez zamianę dokumentu na wersję cyfrową w postaci pojedynczych znaków, a nie jego zeskanowanie. Wspomniany na początku mechanizm reCaptcha to — pomimo skali na jaką jest stosowany — proces manualny, dopełniający i wspierający wcześniej przeprowadzony proces automatycznego rozpoznania tekstu, od którego sam jest jednak jeszcze daleki, ponieważ w dalszym ciągu bazuje na przepisywaniu przypuszczalnie prawidłowej sekwencji znaków.

Obecnie najpopularniejszą wykorzystywaną metodą do automatycznego rozpoznawania tekstu jest OCR (ang. Optical Character Recognition). Oprócz OCR istnieją inne, mniej lub bardziej, znane metody, takie jak OWR (ang. Optical Word Recognition) — rozpoznawanie całych słów czy ICR (ang. Intelligent Character Recognition), który skupia się na rozpoznawaniu pisma odręcznego. Te tak zwane „silniki” są wykorzystywane w różnorodnych typach oprogramowania i pozwalają na zautomatyzowanie procesu digitalizacji dokumentów. W tej chwili najbardziej znanym oprogramowaniem korzystającym z tych mechanizmów jest Abbyy FineReader.

Niestety rozpoznawanie tekstu w oparciu o procesy digitalizacji jest nadal dalekie od ideału i — pomimo zastosowania wspomnianych mechanizmów — nie zawsze daje stuprocentowo pożądany efekt. Dlatego też wykorzystywane są dodatkowe systemy, które wspierają, ułatwiają oraz weryfikują poprawność rozpoznawania tekstu. Warto wymienić tu stosowanie baz słownikowych, np. słowniki danego języka lub słowniki nazw geograficznych wykorzystywane są jako szablony. Gdy pełne rozpoznanie nie powiodło się, system jednoznacznie dopasowuje układ znaków/liter w danym wyrazie do jednego z leksemów w słowniku oraz do kontekstu zdania. Drugim, wartym wspomnienia mechanizmem, wspierającym proces prawidłowego rozpoznania, jest wykorzystanie standardowych właściwości i powiązań, których weryfikacja pozwala dodatkowo potwierdzić, czy rozpoznanie przebiegło prawidłowo. Taki mechanizm wspomagający to np. zależność numeru PESEL lub numeru konta bankowego (IBAN) w stosunku do danych osobowych, roku urodzenia czy kraju pochodzenia. Pozwala ona stwierdzić, bez konieczności manualnej pracy człowieka, czy rozpoznany ciąg cyfr nie zawiera błędu.

Wyzwanie: pismo odręczne

Największym wyzwaniem dla digitalizacji jest bez wątpienia pismo odręczne. Od wielu lat firmy zajmujące się technikami digitalizacji pracują nad tym, jak zwiększyć efektywność poprawnego rozpoznania zapisów tego rodzaju. Obecnie nie ma jednak idealnego rozwiązania, a dostępne mechanizmy potrafią rozpoznać pismo odręczne z dużo mniejszą dokładnością niż pismo maszynowe.

Digitalizacja jest coraz bardziej wszechobecna i towarzyszy nam w wielu aspektach życia codziennego. Docelowo dąży się do tego, żeby jak najwięcej procesów było realizowanych bez konieczności użycia fizycznego nośnika informacji. W najbliższym czasie pełna eliminacja papieru nie będzie jednak możliwa, ponieważ część dokumentów z uwagi na wymogi prawne i regulacyjne, z przyczyn technologicznych lub po prostu z „przyzwyczajenia” nadal przechowywana jest w wersji papierowej. Niemniej jednak digitalizacja przez wiele lat będzie wiodącą technologią, a co za tym idzie, większość firm będzie dążyła do jak największego jej upowszechnienia i wykorzystania w procesach biznesowych. Z uwagi na realny wpływ na obniżenie kosztów realizacji procesów oraz wzrost efektywności stanowi ona decydującą przewagę konkurencyjną w obsłudze wrażliwych procesów. Wykorzystajmy to!

Marcin Ujazda,
Dyrektor IT