Czym jest Confidence threshold (próg pewności detekcji)?

Confidence threshold - definicja

Confidence threshold, czyli próg pewności detekcji, to parametr stosowany w modelach widzenia komputerowego, który określa minimalny poziom ufności modelu wymagany do uznania wykrytego obiektu za poprawną detekcję. W praktyce anonimizacji zdjęć i nagrań wideo chodzi głównie o wykrywanie twarzy oraz tablic rejestracyjnych przed ich automatycznym rozmyciem lub zamazaniem.

Model detekcyjny zwraca zwykle dla każdego obiektu dwa typy informacji: położenie obiektu w obrazie, najczęściej jako ramkę ograniczającą, oraz wartość confidence score, czyli liczbową ocenę ufności, że dany obszar rzeczywiście zawiera twarz albo tablicę. Próg confidence threshold wyznacza granicę decyzyjną. Jeżeli wynik modelu jest równy lub wyższy od progu, obiekt zostaje przyjęty do dalszego przetwarzania. Jeżeli wynik jest niższy, detekcja zostaje odrzucona.

W systemach anonimizacji ten parametr ma bezpośredni wpływ na ryzyko dwóch klas błędów: false positive, gdy zamazywany jest obiekt, który nie jest twarzą lub tablicą, oraz false negative, gdy rzeczywista twarz lub tablica nie zostanie wykryta i nie zostanie zanonimizowana. Z punktu widzenia ochrony prywatności false negative są zwykle błędem bardziej krytycznym, ponieważ oznaczają ujawnienie danych osobowych w materiale wizualnym.

Rola progu pewności detekcji w anonimizacji zdjęć i wideo

W kontekście anonimizacji materiałów wizualnych próg pewności nie jest ustawieniem czysto technicznym. To parametr mający znaczenie dla zgodności procesu z wymaganiami ochrony danych i dla jakości operacyjnej przetwarzania. Im niższy próg, tym więcej obiektów zostanie oznaczonych jako twarze lub tablice. Zwykle zwiększa to czułość wykrywania, ale jednocześnie podnosi liczbę błędnych wskazań.

Im wyższy próg, tym system działa bardziej restrykcyjnie i akceptuje tylko detekcje o wysokiej pewności. Ogranicza to nadmiarowe zamazywanie, ale może powodować pominięcie obiektów trudnych do wykrycia, na przykład małych twarzy, częściowo zasłoniętych twarzy, tablic w słabym oświetleniu albo tablic widzianych pod kątem.

W praktyce próg ustawia się zależnie od celu procesu:

  • dla anonimizacji nastawionej na minimalizację ryzyka ujawnienia danych zwykle wybiera się niższy próg i dodatkową kontrolę jakości,
  • dla materiałów o wysokiej jakości obrazu można stosować próg wyższy, jeżeli walidacja potwierdza utrzymanie odpowiedniego recall,
  • dla różnych klas obiektów, na przykład twarzy i tablic, można stosować odrębne progi.

Jak confidence threshold działa technicznie

Nowoczesne systemy wykrywania twarzy i tablic rejestracyjnych korzystają zwykle z modeli deep learning, najczęściej konwolucyjnych sieci neuronowych lub innych współczesnych architektur detekcyjnych. Deep learning jest tu typowym podejściem na etapie budowy modelu AI, ponieważ to na zbiorach treningowych model uczy się cech wizualnych pozwalających rozpoznawać twarze i tablice w zróżnicowanych warunkach. Gotowy model jest następnie wykorzystywany w procesie automatycznego zamazywania.

Confidence score nie zawsze jest skalibrowanym prawdopodobieństwem w sensie statystycznym. W wielu architekturach jest to wartość po funkcji sigmoid lub softmax, ale jej interpretacja zależy od sposobu uczenia i walidacji modelu. Z tego powodu próg nie powinien być ustawiany wyłącznie intuicyjnie. Powinien wynikać z testów na zbiorze reprezentatywnym dla rzeczywistych danych wejściowych.

Typowa reguła decyzyjna ma postać:

detekcja zaakceptowana, gdy score >= threshold

Po tym etapie stosuje się często dodatkowe procedury, na przykład Non-Maximum Suppression, które usuwają nakładające się ramki dla tego samego obiektu. Wpływa to na końcową liczbę wykryć i należy być świadomym, że końcowy wynik nie zależy od samego threshold, lecz także od pozostałych parametrów potoku detekcyjnego.

Kluczowe parametry i metryki związane z confidence threshold

Ocena poprawności ustawienia progu wymaga pomiaru jakości. W zadaniach detekcji obiektów stosuje się metryki opisane szeroko w literaturze i benchmarkach takich jak PASCAL VOC oraz COCO. W anonimizacji najistotniejsze są metryki pokazujące, jak często system pomija obiekty wymagające ukrycia.

Metryka

Znaczenie praktyczne

Wpływ zmiany threshold

 

Precision

Jaki odsetek zaakceptowanych detekcji jest poprawny

Wyższy threshold zwykle zwiększa precision

Recall

Jaki odsetek rzeczywistych obiektów został wykryty

Niższy threshold zwykle zwiększa recall

F1-score

Średnia harmoniczna precision i recall

Pomaga znaleźć kompromis

False Discovery Rate

Skala błędnych oznaczeń wśród zaakceptowanych detekcji

Rośnie przy zbyt niskim threshold

False Negative Rate

Skala pominięć twarzy lub tablic

Rośnie przy zbyt wysokim threshold

mAP przy IoU 0.5 lub 0.5:0.95

Ogólna jakość detektora w benchmarkach

Służy do oceny modelu, nie zastępuje doboru threshold

W zadaniach ochrony prywatności szczególne znaczenie ma recall. Jeżeli recall dla twarzy albo tablic jest zbyt niski, część danych osobowych pozostanie widoczna. Dlatego optymalny threshold nie zawsze jest tym, który maksymalizuje precision lub mAP.

Praktyka doboru progu w systemach anonimizacji

Dobór progu powinien być oparty na walidacji na danych podobnych do materiału rzeczywiście przetwarzanego. Istotne są rozdzielczość, kąt kamery, kompresja, pora dnia, warunki pogodowe i stopień zasłonięcia obiektów. Próg dobrany na zbiorze laboratoryjnym może nie działać poprawnie na nagraniach z monitoringu, kamer mobilnych albo zdjęciach wykonywanych smartfonem.

W praktyce zaleca się:

  • testowanie oddzielnie dla twarzy i tablic rejestracyjnych,
  • wyznaczenie krzywych precision-recall dla kilku poziomów threshold,
  • dobór progu na podstawie akceptowalnego poziomu false negative,
  • okresową rewalidację po zmianie modelu, kamery, kodeka lub scenariusza użycia,
  • stosowanie kontroli manualnej w przypadkach granicznych.

W oprogramowaniu Gallio PRO automatyczne wykrywanie dotyczy twarzy i tablic rejestracyjnych. System nie wykrywa automatycznie logotypów, tatuaży, tabliczek z imionami, dokumentów ani treści na ekranach monitorów. Takie elementy mogą być zamazywane manualnie we wbudowanym edytorze. Oznacza to, że nawet poprawnie ustawiony confidence threshold nie eliminuje potrzeby oceny materiału pod kątem innych identyfikatorów wizualnych.

Ograniczenia i kontekst zgodności

Próg pewności nie jest gwarancją pełnej anonimizacji. To tylko jeden z parametrów systemu detekcyjnego. Na wynik wpływają także jakość modelu, dane treningowe, sposób anotacji, minimalny rozmiar obiektu, preprocessing oraz parametry śledzenia między klatkami w materiale wideo.

Z perspektywy zgodności z RODO istotne jest podejście oparte na ryzyku i dobór środków technicznych adekwatnych do celu przetwarzania. Rozporządzenie (UE) 2016/679 nie wskazuje konkretnej wartości confidence threshold, ale wymaga wdrożenia odpowiednich środków technicznych i organizacyjnych zgodnie z art. 24, art. 25 i art. 32. W praktyce oznacza to potrzebę dokumentowania testów skuteczności anonimizacji oraz uzasadnienia przyjętych parametrów.

W materiałach zawierających tablice rejestracyjne trzeba także uwzględnić kontekst prawny i faktyczny. Sam numer rejestracyjny nie zawsze stanowi daną osobową, ale może nią być, jeżeli przy użyciu rozsądnie prawdopodobnych środków pozwala zidentyfikować osobę fizyczną. W praktyce ochrony prywatności ich zamazywanie jest często stosowane jako środek ostrożnościowy, zwłaszcza gdy materiał ma być szerzej udostępniany.

Odniesienia normatywne i źródła

Pojęcie confidence threshold nie ma jednej definicji normatywnej w akcie prawnym, ale jego znaczenie techniczne jest spójne z praktyką uczenia maszynowego i detekcji obiektów. Przy wdrożeniach warto opierać się na źródłach pierwotnych, dokumentacji modeli i uznanych benchmarkach.

  • Rozporządzenie (UE) 2016/679, RODO - art. 24, 25, 32.
  • NIST IR 8280, Factsheets for AI and Automated Decision Systems, 2021 - znaczenie dokumentowania parametrów i ograniczeń systemów AI.
  • PASCAL VOC Challenge - Everingham i in., International Journal of Computer Vision, 2010 - metryki precision, recall, AP dla detekcji obiektów.
  • COCO Detection Evaluation, Microsoft COCO - stosowane definicje AP i IoU w ocenie detektorów.
  • Guo i in., On Calibration of Modern Neural Networks, ICML 2017 - ograniczenia interpretacji score jako skalibrowanego prawdopodobieństwa.