Czym jest Video redaction API?

Video redaction API - definicja

Video redaction API to interfejs programistyczny służący do automatyzacji anonimizacji materiałów wideo i sekwencji obrazów przez wykrywanie oraz maskowanie określonych kategorii danych wizualnych. W praktyce, w kontekście ochrony prywatności, chodzi głównie o twarze i tablice rejestracyjne. API udostępnia funkcje, które można wywołać z poziomu innych systemów, aby przesłać plik wejściowy, uruchomić detekcję obiektów, zastosować reguły redakcji obrazu i odebrać wynikowy materiał po przetworzeniu.

W zastosowaniach związanych z anonimizacją zdjęć i nagrań wideo taki interfejs nie jest samym modelem AI, lecz warstwą integracyjną nad silnikiem przetwarzania. Silnik zwykle korzysta z metod computer vision i deep learning, ponieważ skuteczne wykrywanie twarzy i tablic rejestracyjnych w różnych ujęciach, warunkach oświetlenia i rozdzielczościach wymaga modeli uczonych na oznaczonych zbiorach danych. Samo API odpowiada za przyjęcie zadania, walidację parametrów, obsługę plików, kontrolę dostępu, zwrot statusu oraz dostarczenie rezultatu w ustalonym formacie.

Z technicznego punktu widzenia Video redaction API jest zwykle usługą typu batch, a nie systemem czasu rzeczywistego, choć niektóre rozwiązania mogą obsługiwać także scenariusze bliskie czasu rzeczywistego. To istotne rozróżnienie. Interfejs tego typu najczęściej obsługuje pliki wideo lub obrazy zapisane na nośniku i uruchamia przetwarzanie asynchroniczne. W środowiskach on-premise API może działać wewnątrz infrastruktury organizacji, co ogranicza transfer danych poza środowisko kontrolowane przez administratora. Taki model jest zgodny z wymaganiami organizacji, które przetwarzają materiały zawierające dane osobowe i muszą wykazać kontrolę nad dostępem, retencją oraz bezpieczeństwem danych.

Rola Video redaction API w anonimizacji zdjęć i nagrań wideo

Najważniejszą funkcją API jest standaryzacja procesu anonimizacji w systemach, które generują lub archiwizują duże wolumeny materiałów. Dotyczy to między innymi monitoringu, dokumentacji szkód, nagrań z kamer nasobnych, materiałów dowodowych, audytów terenowych i treści publikowanych online. Interfejs pozwala uruchamiać ten sam proces w sposób powtarzalny, mierzalny i możliwy do audytu.

W praktyce integracja z API zmniejsza liczbę operacji wykonywanych ręcznie i ogranicza ryzyko pominięcia twarzy lub tablicy rejestracyjnej. Jednocześnie trzeba pamiętać, że zakres automatycznej redakcji zależy od konkretnego rozwiązania. W środowisku Gallio PRO automatyczne wykrywanie i zamazywanie dotyczy twarzy oraz tablic rejestracyjnych. Logotypy, tatuaże, tabliczki z imionami, dokumenty oraz obraz na ekranach monitorów nie są wykrywane automatycznie i wymagają redakcji manualnej z użyciem edytora.

  • ujednolicenie procesu anonimizacji w różnych systemach źródłowych,
  • obsługa zadań wsadowych dla wielu plików,
  • redukcja ryzyka ujawnienia danych osobowych w publikowanych materiałach,
  • łatwiejsze dokumentowanie procesu na potrzeby zgodności i audytu.

Jak działa Video redaction API - architektura i technologie

Typowy przepływ przetwarzania składa się z kilku etapów. Najpierw system przyjmuje plik wejściowy i odczytuje jego parametry techniczne, takie jak kontener, kodek, liczba klatek na sekundę, rozdzielczość i długość nagrania. Następnie silnik ekstraktuje klatki lub pracuje na strumieniu dekodowanym, uruchamia detekcję obiektów na kolejnych klatkach, śledzi obiekty między klatkami i nakłada maskę redakcyjną. Na końcu materiał jest ponownie kodowany do formatu wyjściowego.

W nowoczesnych systemach detekcja opiera się na sieciach neuronowych. Dla twarzy stosuje się modele detekcyjne i tracking, a dla tablic rejestracyjnych dodatkowo modele lokalizacji obiektów o małej powierzchni obrazu. Deep learning jest tu powszechnie stosowany, ponieważ klasyczne metody oparte tylko na cechach ręcznie definiowanych mają zwykle niższą odporność na zmienne tło, kąt ustawienia kamery, częściowe zasłonięcie i kompresję stratną. Model AI jest trenowany wcześniej, a w środowisku produkcyjnym API korzysta już z gotowego modelu inferencyjnego.

Najczęściej spotykane elementy architektury to:

  • warstwa REST API lub lokalne API aplikacyjne,
  • kolejka zadań asynchronicznych,
  • moduł dekodowania i kodowania wideo, często oparty o FFmpeg,
  • silnik inferencji AI dla detekcji twarzy i tablic rejestracyjnych,
  • moduł śledzenia obiektów między klatkami,
  • repozytorium plików wejściowych i wyjściowych,
  • mechanizm uwierzytelniania, autoryzacji i kontroli dostępu.

Formaty wejścia i wyjścia oraz wymagania integracyjne Video redaction API

Przy integracji kluczowe są formaty multimedialne oraz sposób wymiany danych sterujących. API powinno jasno definiować, jakie kontenery i kodeki przyjmuje, jakie limity rozmiaru obowiązują oraz czy przetwarzanie jest synchroniczne czy asynchroniczne. W zastosowaniach korporacyjnych częstszy jest model asynchroniczny ze statusem zadania, ponieważ czas przetwarzania zależy od długości nagrania, rozdzielczości i dostępnych zasobów GPU lub CPU.

Przykładowe parametry integracyjne przedstawia tabela.

Atrybut

Typowe wartości

Znaczenie praktyczne

 

Format wejściowy

MP4, MOV, AVI, JPEG, PNG

Wpływa na zgodność z systemem źródłowym

Kodek wejściowy

H.264, H.265/HEVC, MPEG-4 Part 2

Wpływa na dekodowanie i wydajność

Format wyjściowy

MP4, obraz po redakcji, metadane JSON

Umożliwia dalsze archiwizowanie lub publikację

Tryb pracy

batch, asynchroniczny

Istotny dla kolejkowania i SLA

Uwierzytelnianie

token API, OAuth 2.0, klucz lokalny

Kontrola dostępu do danych osobowych

Środowisko

on-premise, private cloud

Wpływa na model bezpieczeństwa danych

Kluczowe parametry i metryki Video redaction API

Ocena jakości API nie powinna opierać się wyłącznie na deklaracji, że materiał został zamazany. Dla inspektora ochrony danych i zespołu technicznego ważne są mierzalne parametry skuteczności i wydajności. W systemach detekcji twarzy i tablic rejestracyjnych zwykle analizuje się precyzję, czułość oraz liczbę pominięć. Dla środowisk operacyjnych znaczenie mają też przepustowość i stabilność przetwarzania.

Najczęściej używane wskaźniki to:

  • precision - odsetek poprawnych detekcji wśród wszystkich detekcji,
  • recall - odsetek wykrytych obiektów spośród wszystkich obiektów obecnych w materiale,
  • F1-score - średnia harmoniczna precision i recall,
  • latency zadania - czas od przyjęcia pliku do wygenerowania wyniku,
  • throughput - liczba minut materiału przetworzona na jednostkę czasu,
  • failure rate - udział zadań zakończonych błędem,
  • IoU - Intersection over Union dla oceny jakości lokalizacji obiektu.

Wzór na F1-score ma postać:

F1 = 2 × (precision × recall) / (precision + recall)

W praktyce wysoki recall ma szczególne znaczenie dla anonimizacji, ponieważ pominięta twarz lub tablica rejestracyjna może oznaczać ujawnienie danych osobowych. Jednocześnie zbyt duża liczba fałszywych trafień zwiększa koszt ręcznej korekty i może pogarszać czytelność materiału.

Bezpieczeństwo danych i zgodność regulacyjna

Video redaction API przetwarza dane, które mogą stanowić dane osobowe w rozumieniu art. 4 pkt 1 RODO, jeżeli umożliwiają identyfikację osoby fizycznej. Wizerunek twarzy najczęściej spełnia to kryterium. W przypadku tablic rejestracyjnych ocena zależy od porządku prawnego i kontekstu przetwarzania. W Polsce stanowiska są niejednolite. W praktyce organów nadzorczych i części orzecznictwa europejskiego dominuje podejście ostrożnościowe, natomiast w polskim orzecznictwie pojawia się teza, że sama tablica rejestracyjna nie zawsze jest daną osobową. Z perspektywy compliance organizacje zwykle przyjmują wariant bardziej konserwatywny.

Wymagania bezpieczeństwa dla API powinny obejmować co najmniej:

  • szyfrowanie transmisji zgodnie z aktualnie rekomendowaną wersją TLS, na przykład TLS 1.3 opisaną w RFC 8446,
  • kontrolę dostępu i rozdzielenie uprawnień,
  • retencję plików zgodną z polityką administratora,
  • minimalizację danych i brak zbędnych logów zawierających dane osobowe,
  • możliwość wdrożenia on-premise.

W środowisku Gallio PRO istotne jest to, że system nie wykonuje anonimizacji w czasie rzeczywistym i nie prowadzi anonimizacji strumienia wideo. Nie zbiera też logów zawierających detekcje twarzy i tablic rejestracyjnych ani logów zawierających dane osobowe lub szczególne kategorie danych osobowych.

Ograniczenia i praktyczne ryzyka Video redaction API

Nawet dobrze zaprojektowane API nie eliminuje całkowicie ryzyka błędów detekcji. Problemy pojawiają się przy niskiej jakości obrazu, silnym ruchu, zasłonięciu obiektu, nagraniach nocnych oraz materiałach o bardzo wysokiej kompresji. Ryzyko rośnie także wtedy, gdy zakres automatycznej redakcji jest szerszy niż możliwości modelu.

Dlatego w procesie operacyjnym należy przewidzieć kontrolę jakości wyniku, szczególnie dla materiałów publikowanych lub udostępnianych zewnętrznie. W praktyce oznacza to łączenie automatycznej anonimizacji z manualną korektą. Jest to ważne zwłaszcza dla elementów, których system nie wykrywa automatycznie.

Odniesienia normatywne i źródła dla Video redaction API

Pojęcie nie ma jednej, uniwersalnej definicji normatywnej w standardach ISO lub CEN, ale jego funkcjonowanie opiera się na zestawie dokumentów regulujących ochronę danych, bezpieczeństwo informacji i protokoły komunikacyjne. Dla praktyki wdrożeniowej istotne są w szczególności źródła pierwotne.

  • Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 z 27 kwietnia 2016 r. - RODO, zwłaszcza art. 4, art. 5, art. 25 i art. 32.
  • RFC 8446 - The Transport Layer Security (TLS) Protocol Version 1.3, IETF, 2018.
  • OAuth 2.0 Authorization Framework - RFC 6749, IETF, 2012, jeśli API używa tego modelu autoryzacji.
  • ISO/IEC 27001:2022 - wymagania dla systemu zarządzania bezpieczeństwem informacji.
  • ISO/IEC 23894:2023 - wytyczne dotyczące zarządzania ryzykiem związanym z AI.