Trenowanie modeli AI na zbiorach zdjęć i wideo: anonimizacja oraz workflow rozmywania twarzy

Mateusz Zimoch

Opublikowano: 2.12.2025

Zaktualizowano: 10.03.2026

Spis treści

Kontekst regulacyjny trenowania modeli na zdjęciach i wideo
Kiedy anonimizacja i zgoda mogą nie być wymagane
Najczęstsze punkty ryzyka w anonimizacji danych wizualnych
Praktyczny workflow rozmywania twarzy i tablic rejestracyjnych
RODO vs UK GDPR w publikacji zdjęć i wideo
Kontrola jakości zanonimizowanych zbiorów danych
FAQ: trenowanie modeli AI na zdjęciach i wideo

Anonimizacja danych wizualnych polega na przekształcaniu zdjęć i nagrań wideo w taki sposób, aby osoby fizyczne nie były możliwe do zidentyfikowania. W praktyce najczęściej obejmuje to rozmywanie twarzy oraz rozmywanie tablic rejestracyjnych, połączone z usuwaniem metadanych i zabezpieczeniami przed ponowną identyfikacją. W kontekście trenowania modeli AI na zdjęciach i wideo anonimizacja umożliwia wykorzystanie bogatych zbiorów danych przy jednoczesnym ograniczeniu ryzyka związanego z danymi osobowymi oraz wsparciu zasad ochrony danych „privacy by design” i „privacy by default”.

czarno-białe zdjęcie telefonu z chatem AI na tle monitora

Kontekst regulacyjny trenowania modeli na zdjęciach i wideo

Zgodnie z RODO oraz UK GDPR zdjęcie lub nagranie wideo stanowi dane osobowe, jeżeli możliwa jest bezpośrednia lub pośrednia identyfikacja osoby, w tym poprzez połączenie elementów takich jak otoczenie, ubiór czy unikalne przedmioty [1][2]. Jeżeli osoby są identyfikowalne, trenowanie modeli AI wymaga istnienia podstawy prawnej i musi spełniać zasady ograniczenia celu, minimalizacji danych oraz ograniczenia przechowywania [1]. Dane zanonimizowane wypadają poza zakres RODO wyłącznie wtedy, gdy identyfikacja osoby nie jest już możliwa przy użyciu środków, które można racjonalnie uznać za dostępne, z uwzględnieniem technologii i kosztów (motyw 26) [1].

Akt o sztucznej inteligencji UE (EU AI Act) wprowadza ramy zarządzania w całym cyklu życia systemów AI. Obejmuje on m.in. wymagania dotyczące zarządzania ryzykiem, ładu danych i dokumentacji technicznej dla określonych systemów AI oraz współistnieje z obowiązującym prawem ochrony danych, a nie je zastępuje. Anonimizacja i solidna redakcja danych mogą wspierać minimalizację danych oraz ograniczać ryzyka takie jak niezamierzone zapamiętywanie danych czy ataki typu model inversion, ale nie czynią automatycznie danego przypadku zgodnym z przepisami, jeśli osoby pozostają identyfikowalne [5].

Organy nadzorcze zwracają szczególną uwagę na obrazy z monitoringu CCTV oraz przestrzeni publicznych, zwłaszcza gdy są wykorzystywane poza celami bezpieczeństwa - np. do analityki lub publikacji [2][3]. Organizacje często przeprowadzają ocenę skutków dla ochrony danych (DPIA), gdy dochodzi do monitorowania na dużą skalę lub systematycznego monitorowania miejsc publicznych albo gdy nowe technologie mogą zwiększać ryzyko [1][3].

Kiedy anonimizacja i zgoda mogą nie być wymagane

Choć w wielu scenariuszach publikacji i trenowania modeli wymagane są podstawa prawna lub anonimizacja, w praktyce prawa do wizerunku często wskazuje się trzy znane wyjątki. Mają one charakter kontekstowy i różnią się w zależności od jurysdykcji:

Osoba jest powszechnie znana (osoba publiczna), a zdjęcie wykonano w związku z jej rolą publiczną.
Osoba stanowi jedynie element większej całości, np. zebrania, krajobrazu lub wydarzenia publicznego.
Osoba otrzymała wynagrodzenie za pozowanie, o ile wyraźnie nie zastrzegła braku zgody na rozpowszechnianie wizerunku.

Wyjątki te nie znoszą obowiązków wynikających z ochrony danych, jeżeli osoby pozostają identyfikowalne. Często rozpatruje się je równolegle z testem prawnie uzasadnionego interesu, wyjątkami dotyczącymi wolności wypowiedzi oraz lokalnymi przepisami o prawach do wizerunku. W przypadku trenowania modeli AI poleganie na takich wyjątkach jest mniej przewidywalne niż anonimizacja, ponieważ trenowanie zwykle stanowi nowe wykorzystanie danych poza pierwotnym kontekstem ich pozyskania.

czarno-białe zdjęcie laptopa z wygenerowanym modelem 3d

Najczęstsze punkty ryzyka w anonimizacji danych wizualnych

Ryzyko ponownej identyfikacji. Nawet przy rozmyciu twarzy połączenie charakterystycznego ubioru, tatuaży, punktów orientacyjnych czy znaczników czasu może umożliwić identyfikację osoby. Dlatego rozmywanie traktuje się zwykle jako jedną z warstw szerszej strategii, obejmującej także kadrowanie, maskowanie lub redakcję tła w scenach wysokiego ryzyka, zgodnie ze standardem „racjonalnie prawdopodobnych środków” z motywu 26 [1].

Identyfikatory w tle. Tablice, ekrany, dokumenty czy oznakowanie budynków widoczne w kadrze mogą ujawniać imiona, adresy e-mail lub adresy fizyczne. Tablice rejestracyjne w tle są szczególnie łatwe do przeoczenia bez detekcji wieloskalowej.

Metadane. Dane EXIF mogą zawierać współrzędne GPS, identyfikatory urządzeń i daty wykonania. Usuwanie lub minimalizacja metadanych przed udostępnieniem lub publikacją znacząco redukuje ryzyko powiązań [2].

Błędy detekcji. Algorytmy wykrywania twarzy i tablic rejestracyjnych generują fałszywe negatywy i pozytywy. Pominięte detekcje narażają na ujawnienie tożsamości, a nadmierne rozmywanie obniża użyteczność zbioru danych. Skuteczność silnie zależy od kontekstu: oświetlenia, kąta, zasłonięcia czy typu kamery. Wrażliwe publikacje nadal często wymagają kontroli człowieka (human-in-the-loop).

Robot 3D w słuchawkach trzyma ikony obrazów pod dymkiem z napisem „Prompt... Generate” na ciemnym tle.

Praktyczny workflow rozmywania twarzy i tablic rejestracyjnych

Określenie celu. Zdefiniuj, czy obrazy będą publikowane, używane do analityki wewnętrznej czy do trenowania modeli AI. Cel determinuje siłę anonimizacji i okresy retencji.
Wybór podstawy prawnej i kontroli ryzyka. Gdy osoby są identyfikowalne, organizacje oceniają właściwą podstawę prawną (np. prawnie uzasadniony interes lub zgodę) i decydują, czy wymagana jest DPIA [1][3]. W razie wątpliwości warto dążyć do anonimizacji spełniającej standard motywu 26.
Pobranie i klasyfikacja zasobów. Podziel zdjęcia i wideo według scenariusza, typu kamery i wrażliwości lokalizacji. Śledź pochodzenie danych i prawa, w tym zgody modeli w przypadku płatnego pozowania.
Wybór oprogramowania on-premise (jeśli zasadne). Oprogramowanie instalowane lokalnie pozwala utrzymać zbiory danych w infrastrukturze organizacji i ograniczyć ryzyko transferów zewnętrznych. Ułatwia to szyfrowanie danych, kontrolę dostępu i audyt zgodnie z zasadą rozliczalności i ochrony danych w fazie projektowania [1].
Konfiguracja detektorów i progów. Skonfiguruj modele wykrywania twarzy i tablic rejestracyjnych, minimalny rozmiar obiektu, progi ufności oraz detekcję opartą o ruch w wideo. W zatłoczonych scenach włącz detekcję wieloskalową.
Automatyczna redakcja. Zastosuj rozmywanie twarzy i tablic rejestracyjnych. W kontekstach wysokiego ryzyka dodaj maskowanie sylwetki lub tła. Używaj spójnych parametrów rozmycia (pikselizacja, rozmycie Gaussa), które uniemożliwiają praktyczne odwrócenie przy racjonalnie dostępnych środkach.
Kontrola z udziałem człowieka. Próbkuj klatki, wyszukuj pominięte detekcje i koryguj je narzędziami do anotacji. Twórz procedury dla typowych przypadków brzegowych, takich jak odbicia, plakaty z twarzami czy ekrany z wideokonferencjami.
Usuwanie metadanych i przygotowanie wyników. Usuń EXIF i identyfikatory urządzeń. Eksportuj pliki tylko w niezbędnej rozdzielczości. Dla zbiorów treningowych przechowuj mapowanie oryginałów do wersji zanonimizowanych tylko, gdy to konieczne, i ogranicz do niego dostęp.
Test ryzyka reidentyfikacji. Próbuj powiązań na podstawie kontekstu i wyszukiwania obrazem. Dokumentuj ryzyko rezydualne i działania korygujące.
Rejestrowanie, retencja i usuwanie. Przechowuj logi i raporty redakcji tylko w minimalnym zakresie niezbędnym do rozliczalności. Określ okresy przechowywania i usuwaj zbędne oryginały lub archiwizuj je w ściśle kontrolowany sposób.

Oprogramowanie on-premise - kluczowe aspekty

Rozwiązania on-premise ograniczają przekazywanie danych osobowych do podmiotów zewnętrznych i mogą pomóc w zarządzaniu ryzykiem dostępu z państw trzecich. Ułatwiają również audytowalność, wspierając zasadę rozliczalności RODO oraz oczekiwania EU AI Act dotyczące zarządzania cyklem życia systemów AI [1][5]. Sprawdź Gallio PRO, aby poznać opcje przetwarzania on-premise dopasowane do tego workflow.

Cyfrowa grafika koncepcyjna przedstawiająca proces generowania obrazu na podstawie tekstu, pokazująca urządzenie z przyciskami „Wprowadź obraz” i „Generuj”.

Poniższa tabela przedstawia najczęstsze punkty praktyczne. Nie zastępuje analizy prawnej i stanowi ogólne, kontekstowe wskazówki oparte na publicznie dostępnych źródłach.

Temat	RODO (UE)	UK GDPR + Data Protection Act 2018
Obrazy jako dane osobowe	Zdjęcia i wideo są danymi osobowymi, jeśli osoba jest identyfikowalna bezpośrednio lub pośrednio [1].	Takie samo podejście. Wytyczne ICO zawierają praktyczne przykłady dla zdjęć i CCTV [2][3].
Podstawa prawna publikacji	Często prawnie uzasadniony interes dla publikacji operacyjnych, po teście równowagi. Zgoda bywa stosowana np. w marketingu portretowym. Zależne od kontekstu.	Podobnie. ICO podkreśla przejrzystość, uzasadnione oczekiwania i prawo sprzeciwu [2].
Sygnały DPIA	Systematyczne monitorowanie przestrzeni publicznych na dużą skalę lub nowe technologie zwiększające ryzyko [1].	Wytyczne ICO wskazują podobne przesłanki, zależne od skali i ryzyka [3].
Standard anonimizacji	Dane są anonimowe, jeśli identyfikacja nie jest racjonalnie prawdopodobna (motyw 26) [1].	Taki sam standard. ICO omawia solidną anonimizację i ryzyko rezydualne [2].
Wyjątki wolności wypowiedzi	Zależne od przepisów krajowych (dziennikarstwo, działalność artystyczna, naukowa).	DPA 2018 przewiduje wyjątki m.in. dla dziennikarstwa i badań, zależne od warunków [4].

Zespoły planujące regularną publikację lub udostępnianie zbiorów danych mogą wdrożyć te zasady w checklistach DPIA, profilach redakcji i procedurach publikacji. Pobierz demo, aby zobaczyć, jak wygląda to w środowisku on-premise.

zdjęcie monitora komputerowego z napisem OpenAI

Kontrola jakości zanonimizowanych zbiorów danych

Kontrola jakości powinna koncentrować się na mierzalnym pokryciu i poziomie błędów. Twórz próbki referencyjne z ręcznymi anotacjami i porównuj automatyczne rozmywanie twarzy oraz tablic rejestracyjnych z danymi wzorcowymi. Monitoruj skuteczność według scenariuszy, takich jak nagrania nocne, kaski, maski czy kamery typu fisheye. Raportuj wyniki jako metryki zależne od kontekstu, a nie uniwersalne deklaracje dokładności. W publikacji stosuj ostrzejsze progi i kontrole ręczne. W trenowaniu modeli AI równoważ siłę anonimizacji z użytecznością danych.

Organizacje chcące wdrożyć ten workflow operacyjnie mogą powiązać go z politykami wewnętrznymi i oceną dostawców. Skontaktuj się z nami, aby omówić kontrolę przetwarzania on-premise, role użytkowników i logi audytowe.

biały znak zapytania nasprejowany na asfalcie

FAQ: trenowanie modeli AI na zdjęciach i wideo

Czy samo rozmywanie twarzy czyni zbiór danych anonimowym w świetle RODO?

Nie zawsze. Jeżeli osoba pozostaje identyfikowalna przy użyciu racjonalnie dostępnych środków, np. poprzez ubiór lub lokalizację, zbiór nadal zawiera dane osobowe. W zależności od kontekstu konieczne może być połączenie rozmywania twarzy, rozmywania tablic rejestracyjnych, redakcji tła i usuwania metadanych [1][2].

Kiedy należy stosować rozmywanie tablic rejestracyjnych?

Zawsze, gdy pojazdy mogą prowadzić do identyfikacji kierowcy lub właściciela - np. w scenach ulicznych, na parkingach czy przy wejściach do budynków. W trenowaniu modeli AI warto stosować detekcję wieloskalową.

Czy przetwarzanie w chmurze jest dopuszczalne?

Zależy od ryzyka, architektury i umów. Oprogramowanie on-premise ogranicza transfery zewnętrzne i daje większą kontrolę nad dostępem i retencją. Przy chmurze konieczne są odpowiednie zabezpieczenia i zgodne relacje administrator-procesor, w tym wymogi transferów międzynarodowych.

Jak postępować z metadanymi?

Usuwaj współrzędne GPS i identyfikatory urządzeń z kopii publikowanych. Zachowuj jedynie minimalne logi techniczne niezbędne do rozliczalności i diagnostyki [2].

Jaki poziom rozmycia jest wystarczający?

Nie ma jednego uniwersalnego poziomu. Dobierz pikselizację lub rozmycie Gaussa tak, aby uniemożliwiały praktyczną identyfikację i były odporne na typowe próby poprawy obrazu. Testuj w różnych warunkach.

Jak EU AI Act wpływa na zbiory wizualne?

Wzmacnia wymagania dotyczące zarządzania cyklem życia systemów AI, w tym zarządzania ryzykiem i ładu danych. Anonimizacja pomaga ograniczyć ryzyka, ale nie znosi obowiązków RODO, jeśli osoby są identyfikowalne [5].

Czy trzy wyjątki są bezpieczne dla trenowania AI?

Są silnie zależne od kontekstu i zwykle odnoszą się do publikacji wizerunku, a nie do szerokiego ponownego wykorzystania danych w trenowaniu modeli. Anonimizacja lub inna jednoznaczna podstawa prawna daje zwykle bardziej przewidywalne rezultaty.

Pobierz darmowe demo