Co to jest Optical Character Recognition (OCR)?

Spis treści

Optical Character Recognition (OCR) - definicja
Rola OCR w anonimizacji obrazów i wideo
Technologie OCR w ochronie prywatności
Kluczowe parametry i metryki OCR
Wyzwania i ograniczenia OCR w anonimizacji
Przykłady zastosowań w kontekście Gallio PRO
Odniesienia normatywne i źródła

Optical Character Recognition (OCR) - definicja

Optical Character Recognition (OCR) to technika przetwarzania obrazu służąca do maszynowego rozpoznawania znaków z obrazów i klatek wideo. W ujęciu normatywnym OCR jest częścią szerszej dziedziny rozpoznawania wzorców w informatyce, zdefiniowanej m.in. w ISO/IEC 2382:2015 jako przetwarzanie informacji polegające na identyfikacji symboli na drodze analizy optycznej. W praktyce obejmuje trzy etapy: detekcję obszarów z tekstem, normalizację wycinków oraz rozpoznanie (dekodowanie) sekwencji znaków do postaci cyfrowej.

W kontekście anonimizacji zdjęć i nagrań wideo OCR wspiera automatyczne rozpoznawanie elementów tekstowych, które mogą stanowić dane osobowe lub umożliwiać identyfikację, w tym szczególnie numerów tablic rejestracyjnych. OCR nie służy do rozpoznawania twarzy - do tego wykorzystuje się metody detekcji twarzy oraz (opcjonalnie) rozpoznawania twarzy. OCR może jednak weryfikować lub wzmacniać reguły anonimizacyjne dotyczące tekstu w obrazie.

Rola OCR w anonimizacji obrazów i wideo

OCR pełni funkcję pomocniczą w łańcuchu anonimizacji, zwiększając pewność, że obszary wymagające zamazania zostały właściwie zidentyfikowane. Dotyczy to zwłaszcza numerów tablic rejestracyjnych, napisów na odzieży roboczej lub oznaczeń wykorzystywanych do ewentualnej identyfikacji osoby. W przypadku rozmywania twarzy OCR nie jest wymagany, natomiast przy tablicach rejestracyjnych może działać jako warstwa walidacji.

Wsparcie detekcji tablic rejestracyjnych - rozpoznany wzór znaków może potwierdzić, że wykryty obszar odpowiada tablicy rejestracyjnej (ANPR/LPR).
Walidacja reguł - dopasowanie do wzorców krajowych formatów tablic ogranicza fałszywe alarmy podczas zamazywania.
Wspomaganie edycji ręcznej - podświetlenie obszarów z tekstem ułatwia szybkie, manualne zamazanie elementów niewykrywanych automatycznie.
Niedopasowania jako sygnał ryzyka - brak możliwości odczytu znaków w oczywistym obszarze tablicy może inicjować dodatkową inspekcję.

Kwestie prawne pozostają kluczowe. EDPB wskazuje, że obraz osoby i jej identyfikowalne atrybuty podlegają przepisom RODO, gdy możliwa jest identyfikacja osoby fizycznej (Guidelines 3/2019, wersja 2.0, 29.01.2020). Organy krajowe, takie jak brytyjski ICO, wskazują numer rejestracyjny jako potencjalne dane osobowe w zależności od kontekstu i możliwości powiązania z osobą fizyczną (ICO, What is personal data). W Polsce UODO w materiałach o monitoringu podkreśla konieczność minimalizacji i adekwatności przetwarzania obrazu, w tym w zakresie elementów pozwalających na identyfikację pojazdu. Jednocześnie orzecznictwo prezentuje rozbieżne poglądy co do kwalifikacji tablic jako danych osobowych - wymaga to oceny kontekstu i celu przetwarzania.

Technologie OCR w ochronie prywatności

Nowoczesne OCR dla obrazu naturalnego (scene text) opiera się na głębokim uczeniu. Pipeline zwykle rozdziela detekcję i rozpoznanie. Dobór technologii wpływa na jakość, szybkość i stabilność procesu anonimizacji zdjęć i wideo.

Detekcja tekstu - popularne są modele jednokrokowe i dwukrokowe, m.in. EAST (CVPR 2017), CRAFT (CVPR 2019) oraz DBNet. Zapewniają wykrywanie tekstu o różnych orientacjach i deformacjach (Zhou et al., 2017; Baek et al., 2019).
Rozpoznawanie sekwencji znaków - podejścia CRNN z CTC oraz modele atencyjne i transformerowe, takie jak TrOCR, przetwarzają znormalizowane wycinki na ciąg znaków (Shi et al., 2017; Li et al., TrOCR 2021).
Przetwarzanie wideo - stabilizacja międzyklatkowa, odszumianie i normalizacja ekspozycji poprawiają spójność rozpoznania przy ruchu i niskim oświetleniu. Wspomagają je klasyczne filtry i biblioteki przetwarzania obrazu (np. OpenCV).
Walidacja domenowa - reguły oparte na wyrażeniach regularnych i listach dozwolonych znaków dla formatów tablic wzmacniają decyzje o anonimizacji.

Kluczowe parametry i metryki OCR

Skuteczność OCR w anonimizacji powinna być oceniana na metrykach identyfikujących ryzyko niezamazania i nadzamazania. Poniżej zebrano podstawowe wielkości, powszechnie stosowane w badaniach i benchmarkach ICDAR i pokrewnych konkursach.

Metryka	Definicja	Zastosowanie w anonimizacji
CER - Character Error Rate	CER = Levenshtein(pred, ref) / length(ref)	Ocena dokładności rozpoznania znaków na tablicach rejestracyjnych.
WER - Word Error Rate	WER = (S + D + I) / N, gdzie S - podstawienia, D - usunięcia, I - wstawienia, N - liczba słów	Przydatne dla krótkich napisów; niższe wartości zmniejszają ryzyko błędnej decyzji.
Precision/Recall (detekcja tekstu)	Precision = TP/(TP+FP), Recall = TP/(TP+FN)	Recall jest krytyczny, gdy niezamazanie stanowi większe ryzyko niż zamazanie.
F1-score	F1 = 2·(Precision·Recall)/(Precision+Recall)	Równoważenie fałszywych alarmów i przeoczeń przy wyborze progów.
IoU dla ramek	IoU = area(intersection)/area(union)	Weryfikacja pokrycia obszaru zamazania z obszarem tekstu.
Opóźnienie przetwarzania	Średni czas na klatkę lub obraz, end-to-end	Planowanie przepustowości batchowej, bez wymogu pracy w czasie rzeczywistym.

Wyniki badań i konkursów dostępne są w materiałach konferencyjnych, np. serię Robust Reading Competitions organizowanych w ramach ICDAR opisują raporty przeglądowe z lat 2015-2019, które definiują i stosują powyższe metryki w ocenie detektorów i rozpoznawania tekstu w scenie.

Wyzwania i ograniczenia OCR w anonimizacji

Środowisko rzeczywiste generuje liczne zniekształcenia. Ich ograniczanie wymaga doboru modeli i polityk przetwarzania zgodnych z celem anonimizacji oraz zasadą minimalizacji danych.

Warunki obrazowania - poruszenie, niski kontrast, odbicia i warianty fontów obniżają recall detekcji i podnoszą CER.
Ujęcia pod kątem i zakrycia - deformacje perspektywiczne i częściowe przesłonięcia wymagają detektorów odpornych na rotację i nieregularne kształty.
Różnorodność formatów tablic - formaty krajowe i regionalne różnią się zestawem znaków i układem, co wymaga reguł walidacji zależnych od jurysdykcji.
Ryzyko nadmiernego przetwarzania - zgodnie z art. 5 ust. 1 lit. c RODO należy minimalizować zakres i czas przetwarzania, a także unikać zbędnego gromadzenia wyników OCR.

Przykłady zastosowań w kontekście Gallio PRO

Gallio PRO wykorzystuje detekcję obiektów i rozmywanie do anonimizacji twarzy oraz tablic rejestracyjnych na zdjęciach i nagraniach. Oprogramowanie nie wykonuje anonimizacji w czasie rzeczywistym i działa w modelu on-premise. OCR w tym kontekście ma zastosowanie pomocnicze.

Twarze - OCR nie jest stosowany. Anonimizacja polega na wykryciu i rozmyciu twarzy.
Tablice rejestracyjne - OCR może weryfikować, czy rozmywany obszar odpowiada wzorcowi znaków tablicy. Minimalizuje to fałszywe trafienia.
Elementy niewspierane automatycznie - logotypy, tatuaże, tabliczki z imionami czy obraz z ekranów nie są wykrywane automatycznie. Mogą być zamazane ręcznie wbudowanym edytorem.
Prywatność i logi - narzędzie nie gromadzi logów zawierających wyniki detekcji twarzy ani tablic. Wyniki OCR, gdy są użyte, podlegają zasadzie minimalizacji i nie są utrwalane jako dane osobowe.

Zamazywanie tablic rejestracyjnych jest częstą praktyką w wielu państwach Europy Zachodniej i bywa rekomendowane lub oczekiwane w zależności od kontekstu publikacji, zgodnie z podejściem organów ochrony danych i praktyką rynkową. W Polsce występują rozbieżności interpretacyjne co do statusu tablic jako danych osobowych, przy czym UODO i EDPB podkreślają ocenę kontekstu i ryzyka. Taki stan rzeczy przemawia za stosowaniem OCR jako warstwy kontrolnej, aby ograniczać ryzyko ujawnienia identyfikowalnych napisów w obrazie.

Odniesienia normatywne i źródła

Poniższe materiały dokumentują definicje, metryki i dobre praktyki techniczne oraz regulacyjne dotyczące OCR i przetwarzania obrazu w kontekście ochrony danych.

ISO/IEC 2382:2015 - Information technology - Vocabulary. Definicje pojęć związanych z rozpoznawaniem wzorców i przetwarzaniem informacji.
EDPB, Guidelines 3/2019 on processing of personal data through video devices, Version 2.0, 29.01.2020 - wytyczne dot. wideo a RODO.
RODO - art. 4 pkt 1, art. 5 ust. 1 lit. c, art. 25, art. 32 - definicje, minimalizacja, privacy by design, bezpieczeństwo przetwarzania.
ICO, What is personal data - guidance, sekcja z przykładami, w tym numer rejestracyjny pojazdu jako potencjalne dane osobowe.
Zhou et al., EAST: An Efficient and Accurate Scene Text Detector, CVPR 2017 - detekcja tekstu.
Baek et al., Character Region Awareness for Text Detection (CRAFT), CVPR 2019 - detekcja nieregularnego tekstu.
Shi et al., An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition, TPAMI 2017 - CRNN i CTC.
Li et al., TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models, 2021 - rozpoznawanie oparte na transformerach.
ICDAR Robust Reading Competitions - raporty techniczne organizatorów z lat 2015-2019 - metryki i zestawy danych dla detekcji i rozpoznawania tekstu w scenie.

Zobacz także

Powrót do słownika