Trenowanie modeli AI na zbiorach zdjęć i wideo: anonimizacja oraz workflow rozmywania twarzy

Mateusz Zimoch
Opublikowano: 2.12.2025
Zaktualizowano: 10.03.2026

Anonimizacja danych wizualnych polega na przekształcaniu zdjęć i nagrań wideo w taki sposób, aby osoby fizyczne nie były możliwe do zidentyfikowania. W praktyce najczęściej obejmuje to rozmywanie twarzy oraz rozmywanie tablic rejestracyjnych, połączone z usuwaniem metadanych i zabezpieczeniami przed ponowną identyfikacją. W kontekście trenowania modeli AI na zdjęciach i wideo anonimizacja umożliwia wykorzystanie bogatych zbiorów danych przy jednoczesnym ograniczeniu ryzyka związanego z danymi osobowymi oraz wsparciu zasad ochrony danych „privacy by design” i „privacy by default”.

czarno-białe zdjęcie telefonu z chatem AI na tle monitora

Kontekst regulacyjny trenowania modeli na zdjęciach i wideo

Zgodnie z RODO oraz UK GDPR zdjęcie lub nagranie wideo stanowi dane osobowe, jeżeli możliwa jest bezpośrednia lub pośrednia identyfikacja osoby, w tym poprzez połączenie elementów takich jak otoczenie, ubiór czy unikalne przedmioty [1][2]. Jeżeli osoby są identyfikowalne, trenowanie modeli AI wymaga istnienia podstawy prawnej i musi spełniać zasady ograniczenia celu, minimalizacji danych oraz ograniczenia przechowywania [1]. Dane zanonimizowane wypadają poza zakres RODO wyłącznie wtedy, gdy identyfikacja osoby nie jest już możliwa przy użyciu środków, które można racjonalnie uznać za dostępne, z uwzględnieniem technologii i kosztów (motyw 26) [1].

Akt o sztucznej inteligencji UE (EU AI Act) wprowadza ramy zarządzania w całym cyklu życia systemów AI. Obejmuje on m.in. wymagania dotyczące zarządzania ryzykiem, ładu danych i dokumentacji technicznej dla określonych systemów AI oraz współistnieje z obowiązującym prawem ochrony danych, a nie je zastępuje. Anonimizacja i solidna redakcja danych mogą wspierać minimalizację danych oraz ograniczać ryzyka takie jak niezamierzone zapamiętywanie danych czy ataki typu model inversion, ale nie czynią automatycznie danego przypadku zgodnym z przepisami, jeśli osoby pozostają identyfikowalne [5].

Organy nadzorcze zwracają szczególną uwagę na obrazy z monitoringu CCTV oraz przestrzeni publicznych, zwłaszcza gdy są wykorzystywane poza celami bezpieczeństwa - np. do analityki lub publikacji [2][3]. Organizacje często przeprowadzają ocenę skutków dla ochrony danych (DPIA), gdy dochodzi do monitorowania na dużą skalę lub systematycznego monitorowania miejsc publicznych albo gdy nowe technologie mogą zwiększać ryzyko [1][3].

czarno-białe zdjęcie telefonu z chatem AI na tle monitora

Kiedy anonimizacja i zgoda mogą nie być wymagane

Choć w wielu scenariuszach publikacji i trenowania modeli wymagane są podstawa prawna lub anonimizacja, w praktyce prawa do wizerunku często wskazuje się trzy znane wyjątki. Mają one charakter kontekstowy i różnią się w zależności od jurysdykcji:

  • Osoba jest powszechnie znana (osoba publiczna), a zdjęcie wykonano w związku z jej rolą publiczną.
  • Osoba stanowi jedynie element większej całości, np. zebrania, krajobrazu lub wydarzenia publicznego.
  • Osoba otrzymała wynagrodzenie za pozowanie, o ile wyraźnie nie zastrzegła braku zgody na rozpowszechnianie wizerunku.

Wyjątki te nie znoszą obowiązków wynikających z ochrony danych, jeżeli osoby pozostają identyfikowalne. Często rozpatruje się je równolegle z testem prawnie uzasadnionego interesu, wyjątkami dotyczącymi wolności wypowiedzi oraz lokalnymi przepisami o prawach do wizerunku. W przypadku trenowania modeli AI poleganie na takich wyjątkach jest mniej przewidywalne niż anonimizacja, ponieważ trenowanie zwykle stanowi nowe wykorzystanie danych poza pierwotnym kontekstem ich pozyskania.

czarno-białe zdjęcie laptopa z wygenerowanym modelem 3d

Najczęstsze punkty ryzyka w anonimizacji danych wizualnych

Ryzyko ponownej identyfikacji. Nawet przy rozmyciu twarzy połączenie charakterystycznego ubioru, tatuaży, punktów orientacyjnych czy znaczników czasu może umożliwić identyfikację osoby. Dlatego rozmywanie traktuje się zwykle jako jedną z warstw szerszej strategii, obejmującej także kadrowanie, maskowanie lub redakcję tła w scenach wysokiego ryzyka, zgodnie ze standardem „racjonalnie prawdopodobnych środków” z motywu 26 [1].

Identyfikatory w tle. Tablice, ekrany, dokumenty czy oznakowanie budynków widoczne w kadrze mogą ujawniać imiona, adresy e-mail lub adresy fizyczne. Tablice rejestracyjne w tle są szczególnie łatwe do przeoczenia bez detekcji wieloskalowej.

Metadane. Dane EXIF mogą zawierać współrzędne GPS, identyfikatory urządzeń i daty wykonania. Usuwanie lub minimalizacja metadanych przed udostępnieniem lub publikacją znacząco redukuje ryzyko powiązań [2].

Błędy detekcji. Algorytmy wykrywania twarzy i tablic rejestracyjnych generują fałszywe negatywy i pozytywy. Pominięte detekcje narażają na ujawnienie tożsamości, a nadmierne rozmywanie obniża użyteczność zbioru danych. Skuteczność silnie zależy od kontekstu: oświetlenia, kąta, zasłonięcia czy typu kamery. Wrażliwe publikacje nadal często wymagają kontroli człowieka (human-in-the-loop).

Robot 3D w słuchawkach trzyma ikony obrazów pod dymkiem z napisem „Prompt... Generate” na ciemnym tle.

Praktyczny workflow rozmywania twarzy i tablic rejestracyjnych

  1. Określenie celu. Zdefiniuj, czy obrazy będą publikowane, używane do analityki wewnętrznej czy do trenowania modeli AI. Cel determinuje siłę anonimizacji i okresy retencji.
  2. Wybór podstawy prawnej i kontroli ryzyka. Gdy osoby są identyfikowalne, organizacje oceniają właściwą podstawę prawną (np. prawnie uzasadniony interes lub zgodę) i decydują, czy wymagana jest DPIA [1][3]. W razie wątpliwości warto dążyć do anonimizacji spełniającej standard motywu 26.
  3. Pobranie i klasyfikacja zasobów. Podziel zdjęcia i wideo według scenariusza, typu kamery i wrażliwości lokalizacji. Śledź pochodzenie danych i prawa, w tym zgody modeli w przypadku płatnego pozowania.
  4. Wybór oprogramowania on-premise (jeśli zasadne). Oprogramowanie instalowane lokalnie pozwala utrzymać zbiory danych w infrastrukturze organizacji i ograniczyć ryzyko transferów zewnętrznych. Ułatwia to szyfrowanie danych, kontrolę dostępu i audyt zgodnie z zasadą rozliczalności i ochrony danych w fazie projektowania [1].
  5. Konfiguracja detektorów i progów. Skonfiguruj modele wykrywania twarzy i tablic rejestracyjnych, minimalny rozmiar obiektu, progi ufności oraz detekcję opartą o ruch w wideo. W zatłoczonych scenach włącz detekcję wieloskalową.
  6. Automatyczna redakcja. Zastosuj rozmywanie twarzy i tablic rejestracyjnych. W kontekstach wysokiego ryzyka dodaj maskowanie sylwetki lub tła. Używaj spójnych parametrów rozmycia (pikselizacja, rozmycie Gaussa), które uniemożliwiają praktyczne odwrócenie przy racjonalnie dostępnych środkach.
  7. Kontrola z udziałem człowieka. Próbkuj klatki, wyszukuj pominięte detekcje i koryguj je narzędziami do anotacji. Twórz procedury dla typowych przypadków brzegowych, takich jak odbicia, plakaty z twarzami czy ekrany z wideokonferencjami.
  8. Usuwanie metadanych i przygotowanie wyników. Usuń EXIF i identyfikatory urządzeń. Eksportuj pliki tylko w niezbędnej rozdzielczości. Dla zbiorów treningowych przechowuj mapowanie oryginałów do wersji zanonimizowanych tylko, gdy to konieczne, i ogranicz do niego dostęp.
  9. Test ryzyka reidentyfikacji. Próbuj powiązań na podstawie kontekstu i wyszukiwania obrazem. Dokumentuj ryzyko rezydualne i działania korygujące.
  10. Rejestrowanie, retencja i usuwanie. Przechowuj logi i raporty redakcji tylko w minimalnym zakresie niezbędnym do rozliczalności. Określ okresy przechowywania i usuwaj zbędne oryginały lub archiwizuj je w ściśle kontrolowany sposób.

Oprogramowanie on-premise - kluczowe aspekty

Rozwiązania on-premise ograniczają przekazywanie danych osobowych do podmiotów zewnętrznych i mogą pomóc w zarządzaniu ryzykiem dostępu z państw trzecich. Ułatwiają również audytowalność, wspierając zasadę rozliczalności RODO oraz oczekiwania EU AI Act dotyczące zarządzania cyklem życia systemów AI [1][5]. Sprawdź Gallio PRO, aby poznać opcje przetwarzania on-premise dopasowane do tego workflow.

Cyfrowa grafika koncepcyjna przedstawiająca proces generowania obrazu na podstawie tekstu, pokazująca urządzenie z przyciskami „Wprowadź obraz” i „Generuj”.

RODO vs UK GDPR w publikacji zdjęć i wideo

Poniższa tabela przedstawia najczęstsze punkty praktyczne. Nie zastępuje analizy prawnej i stanowi ogólne, kontekstowe wskazówki oparte na publicznie dostępnych źródłach.

Temat

RODO (UE)

UK GDPR + Data Protection Act 2018

 

Obrazy jako dane osobowe

Zdjęcia i wideo są danymi osobowymi, jeśli osoba jest identyfikowalna bezpośrednio lub pośrednio [1].

Takie samo podejście. Wytyczne ICO zawierają praktyczne przykłady dla zdjęć i CCTV [2][3].

Podstawa prawna publikacji

Często prawnie uzasadniony interes dla publikacji operacyjnych, po teście równowagi. Zgoda bywa stosowana np. w marketingu portretowym. Zależne od kontekstu.

Podobnie. ICO podkreśla przejrzystość, uzasadnione oczekiwania i prawo sprzeciwu [2].

Sygnały DPIA

Systematyczne monitorowanie przestrzeni publicznych na dużą skalę lub nowe technologie zwiększające ryzyko [1].

Wytyczne ICO wskazują podobne przesłanki, zależne od skali i ryzyka [3].

Standard anonimizacji

Dane są anonimowe, jeśli identyfikacja nie jest racjonalnie prawdopodobna (motyw 26) [1].

Taki sam standard. ICO omawia solidną anonimizację i ryzyko rezydualne [2].

Wyjątki wolności wypowiedzi

Zależne od przepisów krajowych (dziennikarstwo, działalność artystyczna, naukowa).

DPA 2018 przewiduje wyjątki m.in. dla dziennikarstwa i badań, zależne od warunków [4].

Zespoły planujące regularną publikację lub udostępnianie zbiorów danych mogą wdrożyć te zasady w checklistach DPIA, profilach redakcji i procedurach publikacji. Pobierz demo, aby zobaczyć, jak wygląda to w środowisku on-premise.

zdjęcie monitora komputerowego z napisem OpenAI

Kontrola jakości zanonimizowanych zbiorów danych

Kontrola jakości powinna koncentrować się na mierzalnym pokryciu i poziomie błędów. Twórz próbki referencyjne z ręcznymi anotacjami i porównuj automatyczne rozmywanie twarzy oraz tablic rejestracyjnych z danymi wzorcowymi. Monitoruj skuteczność według scenariuszy, takich jak nagrania nocne, kaski, maski czy kamery typu fisheye. Raportuj wyniki jako metryki zależne od kontekstu, a nie uniwersalne deklaracje dokładności. W publikacji stosuj ostrzejsze progi i kontrole ręczne. W trenowaniu modeli AI równoważ siłę anonimizacji z użytecznością danych.

Organizacje chcące wdrożyć ten workflow operacyjnie mogą powiązać go z politykami wewnętrznymi i oceną dostawców. Skontaktuj się z nami, aby omówić kontrolę przetwarzania on-premise, role użytkowników i logi audytowe.

biały znak zapytania nasprejowany na asfalcie

FAQ: trenowanie modeli AI na zdjęciach i wideo

Czy samo rozmywanie twarzy czyni zbiór danych anonimowym w świetle RODO?

Nie zawsze. Jeżeli osoba pozostaje identyfikowalna przy użyciu racjonalnie dostępnych środków, np. poprzez ubiór lub lokalizację, zbiór nadal zawiera dane osobowe. W zależności od kontekstu konieczne może być połączenie rozmywania twarzy, rozmywania tablic rejestracyjnych, redakcji tła i usuwania metadanych [1][2].

Kiedy należy stosować rozmywanie tablic rejestracyjnych?

Zawsze, gdy pojazdy mogą prowadzić do identyfikacji kierowcy lub właściciela - np. w scenach ulicznych, na parkingach czy przy wejściach do budynków. W trenowaniu modeli AI warto stosować detekcję wieloskalową.

Czy przetwarzanie w chmurze jest dopuszczalne?

Zależy od ryzyka, architektury i umów. Oprogramowanie on-premise ogranicza transfery zewnętrzne i daje większą kontrolę nad dostępem i retencją. Przy chmurze konieczne są odpowiednie zabezpieczenia i zgodne relacje administrator-procesor, w tym wymogi transferów międzynarodowych.

Jak postępować z metadanymi?

Usuwaj współrzędne GPS i identyfikatory urządzeń z kopii publikowanych. Zachowuj jedynie minimalne logi techniczne niezbędne do rozliczalności i diagnostyki [2].

Jaki poziom rozmycia jest wystarczający?

Nie ma jednego uniwersalnego poziomu. Dobierz pikselizację lub rozmycie Gaussa tak, aby uniemożliwiały praktyczną identyfikację i były odporne na typowe próby poprawy obrazu. Testuj w różnych warunkach.

Jak EU AI Act wpływa na zbiory wizualne?

Wzmacnia wymagania dotyczące zarządzania cyklem życia systemów AI, w tym zarządzania ryzykiem i ładu danych. Anonimizacja pomaga ograniczyć ryzyka, ale nie znosi obowiązków RODO, jeśli osoby są identyfikowalne [5].

Czy trzy wyjątki są bezpieczne dla trenowania AI?

Są silnie zależne od kontekstu i zwykle odnoszą się do publikacji wizerunku, a nie do szerokiego ponownego wykorzystania danych w trenowaniu modeli. Anonimizacja lub inna jednoznaczna podstawa prawna daje zwykle bardziej przewidywalne rezultaty.

Bibliografia

  1. [1] Rozporządzenie (UE) 2016/679 (RODO), w szczególności motyw 26 oraz art. 4, 5, 25, 35.
  2. [2] ICO, Guide to the UK GDPR - What is personal data - photographs and video. https://ico.org.uk/for-organisations/uk-gdpr-guidance-and-resources/personal-information-what-is-it/what-is-personal-data/
  3. [3] ICO, Video surveillance (including CCTV) guidance. https://ico.org.uk/for-organisations/guide-to-data-protection/ico-codes-of-practice/video-surveillance-cctv/
  4. [4] Data Protection Act 2018 (UK) - wyjątki m.in. dla dziennikarstwa i badań.
  5. [5] Komisja Europejska, Artificial Intelligence Act (AI Act). https://digital-strategy.ec.europa.eu/en/policies/european-approach-artificial-intelligence