Czym jest image segmentation (segmentacja obrazu)?

Spis treści

Image segmentation - definicja
Rola segmentacji w anonimizacji twarzy i tablic rejestracyjnych
Technologie i modele segmentacyjne w ochronie prywatności
Kluczowe parametry i metryki segmentacji
Wyzwania i ograniczenia w zastosowaniach compliance
Odniesienia normatywne i źródła

Image segmentation - definicja

Image segmentation, po polsku segmentacja obrazu, to proces przypisywania etykiet do pikseli obrazu lub klatek wideo w celu wydzielenia obszarów należących do konkretnych obiektów lub klas. Wyróżnia się segmentację semantyczną (wszystkie piksele danej klasy, np. twarz), segmentację instancji (oddzielne maski dla poszczególnych egzemplarzy, np. wielu twarzy) oraz segmentację panoptyczną (połączenie obu podejść). Fundamentalną zmianę w jakości przyniosły konwolucyjne sieci neuronowe i architektury typu FCN i U-Net, a następnie metody detekcyjno-segmentacyjne, jak Mask R-CNN, oraz nowsze podejścia z wykorzystaniem transformerów i segmentacji interaktywnej.

W kontekście anonimizacji zdjęć i nagrań wideo segmentacja obrazu służy do tworzenia precyzyjnych masek pikselowych dla wrażliwych obiektów. Maski te stanowią podstawę do nałożenia rozmycia, pikselizacji lub innej formy zaciemnienia w taki sposób, aby zminimalizować ryzyko ujawnienia wizerunku lub numerów rejestracyjnych przy jednoczesnym zachowaniu kontekstu sceny.

Rola segmentacji w anonimizacji twarzy i tablic rejestracyjnych

W praktyce anonimizacja wideo i zdjęć łączy detekcję obiektów z segmentacją. Detektor lokalizuje twarze i tablice rejestracyjne, a segmentacja instancji doprecyzowuje kształt obiektu, dzięki czemu rozmycie nie obejmuje zbędnych fragmentów tła i nie pozostawia luk na granicach obiektu. Przy sekwencjach wideo maski są propagowane między klatkami z użyciem śledzenia i optymalizacji czasoprzestrzennej, co redukuje migotanie i utratę obiektu.

W kontekście zgodności z RODO maskowanie wizerunku i identyfikatorów wizualnych wpisuje się w zasadę minimalizacji danych i integralności oraz poufności (art. 5 ust. 1 lit. c i f Rozporządzenia 2016/679). Europejska Rada Ochrony Danych w Wytycznych 3/2019 dotyczących urządzeń wizyjnych wskazuje na stosowanie środków ograniczających zakres przetwarzania, w tym technik takich jak maskowanie/zaciemnianie wrażliwych obszarów. W państwach Europy Zachodniej zasady dotyczące publikowania lub udostępniania materiałów z widocznymi tablicami rejestracyjnymi wynikają z przepisów krajowych i praktyki organów ochrony danych, a nie z jednolitego wymogu „UE” obowiązującego we wszystkich państwach. W Polsce występują rozbieżności interpretacyjne, jednak wytyczne UODO oraz stanowiska EROD akcentują konieczność ograniczania identyfikowalności w materiałach publikowanych.

W Gallio PRO segmentacja jest stosowana do tworzenia masek twarzy i tablic rejestracyjnych jako kroku przygotowującego do rozmycia. Oprogramowanie automatycznie obejmuje te dwie kategorie i nie wykonuje anonimizacji w czasie rzeczywistym ani przetwarzania strumienia wideo. Inne elementy, jak logotypy czy tatuaże, mogą być zamaskowane manualnie w edytorze.

Technologie i modele segmentacyjne w ochronie prywatności

Do segmentacji w anonimizacji stosuje się głównie metody głębokiego uczenia, ponieważ zapewniają wysoką jakość masek przy złożonych warunkach oświetleniowych i ruchu. Tradycyjne techniki, jak graph-cuts czy superpiksele, są dziś rzadziej używane samodzielnie, ale bywają elementem postprocessingu.

FCN i U-Net - architektury end-to-end dla segmentacji semantycznej. U-Net bywa użyteczny przy ograniczonych danych, dzięki ścieżkom skip i treningowi z silną augmentacją.
Mask R-CNN - rozszerza detekcję o głowę mask, co ułatwia niezależne maskowanie wielu obiektów w jednej scenie, w tym wielu twarzy.
DeepLabv3+ i pokrewne - stosują atrous convolutions i dekodery do poprawy granic obiektów.
Transformery segmentacyjne i narzędzia interaktywne - np. modele klasy SegFormer oraz podejścia wspomagane punktami/ramkami użytkownika. Modele pokroju Segment Anything wspierają szybkie pozyskanie maski od luźnej wskazówki.

Trenowanie modeli na potrzeby anonimizacji wymaga danych z anotacjami masek dla twarzy i tablic. W praktyce używa się zbiorów z maskami segmentacyjnymi lub łączy detekcję z dopasowaniem kształtu. Źródła danych obejmują m.in. COCO i Open Images dla segmentacji instancji, a dla twarzy zbiory z maskami semantycznymi typu CelebAMask-HQ. Dla tablic rejestracyjnych wykorzystuje się zbiory detekcyjne i własne anotacje instancji przy zachowaniu zgodności prawnej procesu adnotacji.

Kluczowe parametry i metryki segmentacji

Dobór i ocena modeli segmentacyjnych powinny być oparte na mierzalnych wskaźnikach. W kontekście anonimizacji szczególnie istotne są metryki jakości maski oraz parametry wydajności obliczeniowej, które wpływają na czas przetwarzania materiałów.

Metryka/parametr	Definicja	Wzór lub opis	Źródło
IoU (Intersection over Union)	Pokrycie między maską przewidywaną i referencyjną	\|A ∩ B\| / \|A ∪ B\|	COCO evaluation protocol, Lin et al., 2014
mIoU	Średnia IoU po klasach	Średnia IoU obliczona dla klas w zbiorze	Cityscapes; Cordts et al., 2016
Dice (F1 dla pikseli)	Miara podobna do IoU, kładzie nacisk na pokrycie	2\|A ∩ B\| / (\|A\| + \|B\|)	Sørensen-Dice; por. Ronneberger et al., 2015
APmask	Average Precision dla masek przy progach IoU	Średnia precyzji dla IoU ∈ [0.5, 0.95]	COCO, Lin et al., 2014
Latency	Czas przetworzenia obrazu/klatki	ms na obraz lub ms na klatkę	Specyfikacje wdrożeniowe
Throughput	Przepustowość systemu	FPS = liczba klatek/s	Specyfikacje wdrożeniowe
Zużycie pamięci	Pamięć GPU/CPU podczas inferencji	MB lub GB	Specyfikacje wdrożeniowe
FN rate	Odsetek niewykrytych pikseli klasy	1 - recall pikselowy	Prace porównawcze

W anonimizacji kluczowe jest obniżenie ryzyka błędów FN na granicach obiektów. Stosuje się poszerzanie masek (dilation) oraz filtrowanie krawędzi, aby ograniczyć nieszczelności rozmycia.

Wyzwania i ograniczenia w zastosowaniach compliance

Skuteczna segmentacja w projektach ochrony danych napotyka na bariery techniczne i prawne. Poniżej zebrano najczęstsze wyzwania wraz z ich konsekwencjami dla jakości anonimizacji.

Zmienne warunki obrazowania - niski kontrast, noc, ruch i zanieczyszczenia wpływają na granice masek.
Różnorodność domen - inne typy kamer, kraje, formaty tablic rejestracyjnych i nakrycia twarzy powodują spadek jakości poza domeną treningową.
Ryzyko błędów FN - niezamazane fragmenty wizerunku lub znaków mogą naruszać prywatność i wymogi RODO.
Zasoby obliczeniowe - segmentacja instancji jest kosztowna. W praktyce często preferuje się przetwarzanie on-premise dla danych wrażliwych, co ogranicza transfer do chmury.
Zarządzanie danymi - przechowywanie masek i metadanych powinno minimalizować reidentyfikowalność. Gallio PRO nie gromadzi logów zawierających dane o detekcjach twarzy i tablic.
Granice automatyzacji - automatyczne wykrywanie jest w Gallio PRO ograniczone do twarzy i tablic rejestracyjnych. Inne elementy maskuje się manualnie w edytorze.

Odniesienia normatywne i źródła

Poniższe dokumenty i publikacje stanowią podstawę definicji, metryk i zaleceń dotyczących segmentacji oraz przetwarzania danych wizualnych w kontekście ochrony danych.

Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 z 27.04.2016 r. (RODO).
European Data Protection Board, Guidelines 3/2019 on processing of personal data through video devices, wersja po konsultacjach przyjęta 29.01.2020.
ISO/IEC 27001:2022 - Information security, cybersecurity and privacy protection - Information security management systems.
ISO/IEC 23894:2023 - Information technology - Artificial intelligence - Risk management.
Long, Shelhamer, Darrell, Fully Convolutional Networks for Semantic Segmentation, CVPR 2015.
Ronneberger, Fischer, Brox, U-Net: Convolutional Networks for Biomedical Image Segmentation, MICCAI 2015.
He, Gkioxari, Dollár, Girshick, Mask R-CNN, ICCV 2017.
Kirillov et al., Panoptic Segmentation, CVPR 2019.
Lin et al., Microsoft COCO: Common Objects in Context, ECCV 2014.
Cordts et al., The Cityscapes Dataset for Semantic Urban Scene Understanding, CVPR 2016.
Kuznetsova et al., The Open Images Dataset V6, IJCV 2020.
Lee et al., CelebAMask-HQ: A Large-Scale Face Parsing Dataset, CVPR Workshops 2020.
Kirillov et al., Segment Anything, arXiv 2023.

Zobacz także

Powrót do słownika