Optical Character Recognition (OCR) - definicja
Optical Character Recognition (OCR) to technika przetwarzania obrazu służąca do maszynowego rozpoznawania znaków z obrazów i klatek wideo. W ujęciu normatywnym OCR jest częścią szerszej dziedziny rozpoznawania wzorców w informatyce, zdefiniowanej m.in. w ISO/IEC 2382:2015 jako przetwarzanie informacji polegające na identyfikacji symboli na drodze analizy optycznej. W praktyce obejmuje trzy etapy: detekcję obszarów z tekstem, normalizację wycinków oraz rozpoznanie (dekodowanie) sekwencji znaków do postaci cyfrowej.
W kontekście anonimizacji zdjęć i nagrań wideo OCR wspiera automatyczne rozpoznawanie elementów tekstowych, które mogą stanowić dane osobowe lub umożliwiać identyfikację, w tym szczególnie numerów tablic rejestracyjnych. OCR nie służy do rozpoznawania twarzy - do tego wykorzystuje się metody detekcji twarzy oraz (opcjonalnie) rozpoznawania twarzy. OCR może jednak weryfikować lub wzmacniać reguły anonimizacyjne dotyczące tekstu w obrazie.
Rola OCR w anonimizacji obrazów i wideo
OCR pełni funkcję pomocniczą w łańcuchu anonimizacji, zwiększając pewność, że obszary wymagające zamazania zostały właściwie zidentyfikowane. Dotyczy to zwłaszcza numerów tablic rejestracyjnych, napisów na odzieży roboczej lub oznaczeń wykorzystywanych do ewentualnej identyfikacji osoby. W przypadku rozmywania twarzy OCR nie jest wymagany, natomiast przy tablicach rejestracyjnych może działać jako warstwa walidacji.
- Wsparcie detekcji tablic rejestracyjnych - rozpoznany wzór znaków może potwierdzić, że wykryty obszar odpowiada tablicy rejestracyjnej (ANPR/LPR).
- Walidacja reguł - dopasowanie do wzorców krajowych formatów tablic ogranicza fałszywe alarmy podczas zamazywania.
- Wspomaganie edycji ręcznej - podświetlenie obszarów z tekstem ułatwia szybkie, manualne zamazanie elementów niewykrywanych automatycznie.
- Niedopasowania jako sygnał ryzyka - brak możliwości odczytu znaków w oczywistym obszarze tablicy może inicjować dodatkową inspekcję.
Kwestie prawne pozostają kluczowe. EDPB wskazuje, że obraz osoby i jej identyfikowalne atrybuty podlegają przepisom RODO, gdy możliwa jest identyfikacja osoby fizycznej (Guidelines 3/2019, wersja 2.0, 29.01.2020). Organy krajowe, takie jak brytyjski ICO, wskazują numer rejestracyjny jako potencjalne dane osobowe w zależności od kontekstu i możliwości powiązania z osobą fizyczną (ICO, What is personal data). W Polsce UODO w materiałach o monitoringu podkreśla konieczność minimalizacji i adekwatności przetwarzania obrazu, w tym w zakresie elementów pozwalających na identyfikację pojazdu. Jednocześnie orzecznictwo prezentuje rozbieżne poglądy co do kwalifikacji tablic jako danych osobowych - wymaga to oceny kontekstu i celu przetwarzania.
Technologie OCR w ochronie prywatności
Nowoczesne OCR dla obrazu naturalnego (scene text) opiera się na głębokim uczeniu. Pipeline zwykle rozdziela detekcję i rozpoznanie. Dobór technologii wpływa na jakość, szybkość i stabilność procesu anonimizacji zdjęć i wideo.
- Detekcja tekstu - popularne są modele jednokrokowe i dwukrokowe, m.in. EAST (CVPR 2017), CRAFT (CVPR 2019) oraz DBNet. Zapewniają wykrywanie tekstu o różnych orientacjach i deformacjach (Zhou et al., 2017; Baek et al., 2019).
- Rozpoznawanie sekwencji znaków - podejścia CRNN z CTC oraz modele atencyjne i transformerowe, takie jak TrOCR, przetwarzają znormalizowane wycinki na ciąg znaków (Shi et al., 2017; Li et al., TrOCR 2021).
- Przetwarzanie wideo - stabilizacja międzyklatkowa, odszumianie i normalizacja ekspozycji poprawiają spójność rozpoznania przy ruchu i niskim oświetleniu. Wspomagają je klasyczne filtry i biblioteki przetwarzania obrazu (np. OpenCV).
- Walidacja domenowa - reguły oparte na wyrażeniach regularnych i listach dozwolonych znaków dla formatów tablic wzmacniają decyzje o anonimizacji.
Kluczowe parametry i metryki OCR
Skuteczność OCR w anonimizacji powinna być oceniana na metrykach identyfikujących ryzyko niezamazania i nadzamazania. Poniżej zebrano podstawowe wielkości, powszechnie stosowane w badaniach i benchmarkach ICDAR i pokrewnych konkursach.
Metryka | Definicja | Zastosowanie w anonimizacji
|
|---|---|---|
CER - Character Error Rate | CER = Levenshtein(pred, ref) / length(ref) | Ocena dokładności rozpoznania znaków na tablicach rejestracyjnych. |
WER - Word Error Rate | WER = (S + D + I) / N, gdzie S - podstawienia, D - usunięcia, I - wstawienia, N - liczba słów | Przydatne dla krótkich napisów; niższe wartości zmniejszają ryzyko błędnej decyzji. |
Precision/Recall (detekcja tekstu) | Precision = TP/(TP+FP), Recall = TP/(TP+FN) | Recall jest krytyczny, gdy niezamazanie stanowi większe ryzyko niż zamazanie. |
F1-score | F1 = 2·(Precision·Recall)/(Precision+Recall) | Równoważenie fałszywych alarmów i przeoczeń przy wyborze progów. |
IoU dla ramek | IoU = area(intersection)/area(union) | Weryfikacja pokrycia obszaru zamazania z obszarem tekstu. |
Opóźnienie przetwarzania | Średni czas na klatkę lub obraz, end-to-end | Planowanie przepustowości batchowej, bez wymogu pracy w czasie rzeczywistym. |
Wyniki badań i konkursów dostępne są w materiałach konferencyjnych, np. serię Robust Reading Competitions organizowanych w ramach ICDAR opisują raporty przeglądowe z lat 2015-2019, które definiują i stosują powyższe metryki w ocenie detektorów i rozpoznawania tekstu w scenie.
Wyzwania i ograniczenia OCR w anonimizacji
Środowisko rzeczywiste generuje liczne zniekształcenia. Ich ograniczanie wymaga doboru modeli i polityk przetwarzania zgodnych z celem anonimizacji oraz zasadą minimalizacji danych.
- Warunki obrazowania - poruszenie, niski kontrast, odbicia i warianty fontów obniżają recall detekcji i podnoszą CER.
- Ujęcia pod kątem i zakrycia - deformacje perspektywiczne i częściowe przesłonięcia wymagają detektorów odpornych na rotację i nieregularne kształty.
- Różnorodność formatów tablic - formaty krajowe i regionalne różnią się zestawem znaków i układem, co wymaga reguł walidacji zależnych od jurysdykcji.
- Ryzyko nadmiernego przetwarzania - zgodnie z art. 5 ust. 1 lit. c RODO należy minimalizować zakres i czas przetwarzania, a także unikać zbędnego gromadzenia wyników OCR.
Przykłady zastosowań w kontekście Gallio PRO
Gallio PRO wykorzystuje detekcję obiektów i rozmywanie do anonimizacji twarzy oraz tablic rejestracyjnych na zdjęciach i nagraniach. Oprogramowanie nie wykonuje anonimizacji w czasie rzeczywistym i działa w modelu on-premise. OCR w tym kontekście ma zastosowanie pomocnicze.
- Twarze - OCR nie jest stosowany. Anonimizacja polega na wykryciu i rozmyciu twarzy.
- Tablice rejestracyjne - OCR może weryfikować, czy rozmywany obszar odpowiada wzorcowi znaków tablicy. Minimalizuje to fałszywe trafienia.
- Elementy niewspierane automatycznie - logotypy, tatuaże, tabliczki z imionami czy obraz z ekranów nie są wykrywane automatycznie. Mogą być zamazane ręcznie wbudowanym edytorem.
- Prywatność i logi - narzędzie nie gromadzi logów zawierających wyniki detekcji twarzy ani tablic. Wyniki OCR, gdy są użyte, podlegają zasadzie minimalizacji i nie są utrwalane jako dane osobowe.
Zamazywanie tablic rejestracyjnych jest częstą praktyką w wielu państwach Europy Zachodniej i bywa rekomendowane lub oczekiwane w zależności od kontekstu publikacji, zgodnie z podejściem organów ochrony danych i praktyką rynkową. W Polsce występują rozbieżności interpretacyjne co do statusu tablic jako danych osobowych, przy czym UODO i EDPB podkreślają ocenę kontekstu i ryzyka. Taki stan rzeczy przemawia za stosowaniem OCR jako warstwy kontrolnej, aby ograniczać ryzyko ujawnienia identyfikowalnych napisów w obrazie.
Odniesienia normatywne i źródła
Poniższe materiały dokumentują definicje, metryki i dobre praktyki techniczne oraz regulacyjne dotyczące OCR i przetwarzania obrazu w kontekście ochrony danych.
- ISO/IEC 2382:2015 - Information technology - Vocabulary. Definicje pojęć związanych z rozpoznawaniem wzorców i przetwarzaniem informacji.
- EDPB, Guidelines 3/2019 on processing of personal data through video devices, Version 2.0, 29.01.2020 - wytyczne dot. wideo a RODO.
- RODO - art. 4 pkt 1, art. 5 ust. 1 lit. c, art. 25, art. 32 - definicje, minimalizacja, privacy by design, bezpieczeństwo przetwarzania.
- ICO, What is personal data - guidance, sekcja z przykładami, w tym numer rejestracyjny pojazdu jako potencjalne dane osobowe.
- Zhou et al., EAST: An Efficient and Accurate Scene Text Detector, CVPR 2017 - detekcja tekstu.
- Baek et al., Character Region Awareness for Text Detection (CRAFT), CVPR 2019 - detekcja nieregularnego tekstu.
- Shi et al., An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition, TPAMI 2017 - CRNN i CTC.
- Li et al., TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models, 2021 - rozpoznawanie oparte na transformerach.
- ICDAR Robust Reading Competitions - raporty techniczne organizatorów z lat 2015-2019 - metryki i zestawy danych dla detekcji i rozpoznawania tekstu w scenie.