Co to jest computer vision (wizja komputerowa)?

Definicja

Computer vision (wizja komputerowa) to interdyscyplinarna dziedzina sztucznej inteligencji i przetwarzania obrazów, której celem jest umożliwienie systemom komputerowym pozyskania, analizy, interpretacji i rozumienia danych wizualnych - takich jak obrazy statyczne, sekwencje wideo lub dane przestrzenne (np. chmury punktów 3D) - w taki sposób, aby wygenerować informacje numeryczne lub symboliczne umożliwiające podjęcie decyzji lub wykonanie działania. nvlpubs.nist.gov+3Wikipedia+3OpenCV+3

Istotnie, definicje wskazują, że:

  • celem jest automatyzacja zadań, które wykonuje system wzrokowy człowieka (np. rozpoznawanie obiektów, śledzenie ruchu). IBM+1
  • dane wizualne mogą przyjmować formy różnych modalności: obrazy, video, dane wielowymiarowe, skanery 3D. Wikipedia
  • wizja komputerowa nie ogranicza się jedynie do detekcji - również segmentacja, rekonstrukcja, klasyfikacja i wykrywanie zachowań są w jej zakresie. ScienceDirect+1

W kontekście anonimizacji zdjęć i wideo, wizja komputerowa stanowi fundament: umożliwia wykrycie elementów identyfikujących (np. twarze, tablice rejestracyjne), ich lokalizację i przygotowanie do dalszego przetwarzania (maskowanie, rozmycie, pikselizacja).

Przykłady zastosowań

Obszar

Zastosowanie

Związek z anonimizacją / uwagą dla IOD

Bezpieczeństwo publiczne

Rozpoznawanie twarzy, analiza tłumu, detekcja zdarzeń

Wymaga anonimizacji osób niezaangażowanych

Motoryzacja - systemy ADAS/autonomiczne pojazdy

Wykrywanie pieszych, przeszkód, linii drogowych

Rejestracja video wymaga ochrony prywatności

Medycyna i diagnostyka obrazowa

Automatyczna analiza obrazów medycznych, wykrywanie zmian

Dane wizualne pacjentów to dane osobowe

Przemysł i linie produkcyjne

Kontrola jakości, wizualna inspekcja defektów

Obrazy z kamer produkcyjnych mogą zawierać osoby/ID

Handel i retail

Rozpoznawanie produktów, zachowania klientów, systemy checkout

Wiele osób na monitoringu - konieczna anonimizacja

Technologie wykorzystywane w wizji komputerowej

Kluczowe komponenty technologiczne

Technologia

Funkcja

Uwagi techniczne

CNN (Convolutional Neural Networks)

Ekstrakcja cech z obrazów, klasyfikacja i detekcja

Modele takie jak ResNet, EfficientNet - fundamenty detekcji. DigitalOcean+1

Segmentacja semantyczna / instancyjna

Przypisywanie etykiet pikselom lub instancjom obiektów

U‑Net, DeepLab - umożliwia maskowanie obszarów, nie tylko prostokąty

Detekcja obiektów

Lokalizacja i klasyfikacja obiektów w obrazie

YOLO, SSD, Faster R‑CNN - generują bounding boxes lub maski

Śledzenie obiektów (object tracking)

Rekonstrukcja ruchu obiektów w sekwencji wideo

Deep SORT, ByteTrack - istotne w transmisjach i monitoringu

OCR / rozpoznawanie tekstu

Wyodrębnienie tekstu z obrazu lub wideo

Tesseract, PaddleOCR - np. numerów rejestracyjnych

Rekonstrukcja 3D i analiza głębi

Odzyskiwanie informacji o głębokości i strukturze sceny

Stereo‑wizja, Lidar, SLAM - przydatne w monitoringu przestrzennym

Przetwarzanie kontekstowe / uwaga (attention)

Modelowanie relacji przestrzennych i czasowych

Mechanizmy attention w wizji komputerowej. arXiv

Metryki jakościowe i wymagania

Metryka / wskaźnik

Typowe wartości / zakres

Zastosowanie

Dokładność klasyfikacji (Accuracy)

≥ 90 % (zakładane)

Ogólna skuteczność klasyfikacji

mAP (mean Average Precision) dla detekcji

0.5-0.9 w benchmarkach

Mierzy jakość detekcji obiektów

FPS (klatki na sekundę) w wideo

≥ 25 fps dla real‑time

Krytyczne w transmisjach na żywo

Latencja systemu

≤ 100-200 ms

Przy zastosowaniach live monitoring

False Positive Rate / False Negative Rate

< 5-10%

Ważne w systemach ochrony prywatności

Wymagania sprzętowe

GPU (np. NVIDIA RTX) / TPU / edge ASIC

Wpływ na koszt i wdrożenie

Wyzwania i ograniczenia

Wyzwanie

Charakterystyka

Konsekwencje dla anonimizacji

Warunki oświetleniowe i zakłócenia

Słabe światło, odbicia, cienie utrudniają detekcję

Zwiększone false negatives - twarze niezamaskowane

Złożone tło i tłumy

Wiele obiektów, zasłonięcia, ruch

Kolizje detekcji, ograniczona skuteczność

Różnorodność scenariuszy

Skalowanie, rotacja, perspektywa

Model może być „przetrenowany” na jedną sytuację

Niewystarczające lub stronnicze dane treningowe

Brak reprezentacji wszystkich scenariuszy

Słaba generalizacja - ryzyko biasu lub błędów

Wysoka złożoność obliczeniowa i infrastruktura

Real‑time wymaga GPU/TPU lub optymalizacji

Koszty wdrożenia i utrzymania zwiększone

Aspekty prawne, etyczne i prywatności

Dane wizualne osób wymagają ochrony, anonimowości

Konieczność anonimizacji, DPIA, dokumentacji

Problem odwrotny (inverse problem)

Przekształcenie 2D obrazu w zrozumienie 3D świata jest trudne Wikipedia

Może wpływać na błędy detekcji lub maskowania

Specyficzny kontekst: anonimizacja zdjęć i wideo

W środowiskach, w których wykorzystuje się wizję komputerową do anonimizacji, systemy muszą w szczególności uwzględniać:

  • identyfikację obiektów wymagających maskowania (np. twarze, sylwetki, tablice rejestracyjne),
  • lokalizację tych obiektów w każdej klatce wideo (lub obrazie) z wystarczającą precyzją (bounding boxes, masky),
  • synchronizację detekcji z przetwarzaniem (maskowanie, pikselizacja) w czasie rzeczywistym lub niemal czasie rzeczywistym,
  • minimalizację błędów typu false negative (niezamaskowane osoby) oraz false positive (nadmierne maskowanie),
  • zapewnienie dokumentacji działania oraz audytu (logi detekcji i anonimizacji) w ramach zgodności z regulacjami (np. RODO). W tym kontekście, wizja komputerowa pełni rolę technicznego silnika procesu anonimizacji - bez niej system byłby wysoce podatny na błędy lub nieefektywność.

Odniesienia normatywne i techniczne

  • ISO/IEC 22989:2022 - Artificial intelligence - Terminology and classification.
  • ISO/IEC 24029‑1:2021 - Assessment of the robustness of neural networks.
  • European Data Protection Board (EDPB) Guidelines 03/2019 on processing of personal data through video devices - wskazują m.in. konieczność oceny ryzyka i ujęcia technologii wizji komputerowej w DPIA.
  • W jednym z przeglądów literatury: „Computer vision is an interdisciplinary field that focuses on enabling computers to interpret and analyze visual data from the world around us.” ResearchGate
  • Archiwa badań: „Computer vision tasks include methods for acquiring, processing, analysing and understanding digital images, and extraction of high‑dimensional data…” Wikipedia

Wskazówki implementacyjne

  • Wybór modelu: dla detekcji twarzy/sylwetek zaleca się modele wyspecjalizowane (np. MTCNN) lub wielozadaniowe (np. YOLOv8) w połączeniu ze śledzeniem (Deep SORT) dla wideo.
  • Dane treningowe i walidacyjne: konieczne jest użycie zestawów danych reprezentujących docelowe scenariusze (np. tłumy, zmienne oświetlenie).
  • Testowanie w warunkach produkcyjnych: sprawdzenie latencji, FPS, efektywności maskowania w rzeczywistym środowisku z kamerami.
  • Audyt i logowanie: rejestrowanie wykrytych obiektów, zastosowanych masek, czasu reakcji - potrzebne dla inspektorów ochrony danych.
  • Optymalizacja infrastruktury: w przypadku strumieni 4K lub licznych kamer rozważyć edge computing lub dedykowane akceleratory (GPU, ASIC).
  • Zgodność z regulacjami: analiza DPIA, dokumentacja procesu, minimalizacja danych wejściowych, zabezpieczenie transmisji (TLS/DTLS) i magazynowania.