Was ist Image Segmentation?

Image Segmentation - Definition

Image Segmentation, auf Deutsch Bildsegmentierung, bezeichnet den Prozess der Zuweisung von Labels zu Bildpixeln oder Videoframes, um Bereiche zu identifizieren, die bestimmten Objekten oder Klassen zugeordnet sind. Man unterscheidet zwischen semantischer Segmentierung (alle Pixel einer Klasse, z. B. Gesicht), Instanzsegmentierung (separate Masken für einzelne Objekte, z. B. mehrere Gesichter) sowie panoptischer Segmentierung (Kombination beider Ansätze). Einen grundlegenden Qualitätssprung brachten konvolutionale neuronale Netze (CNN) und Architekturen wie FCN und U-Net, gefolgt von Detektions‑Segmentierungsverfahren wie Mask R-CNN sowie neueren transformerbasierten und interaktiven Segmentierungsansätzen.

Im Kontext der Anonymisierung von Fotos und Videos dient die Bildsegmentierung der Erstellung präziser Pixelmasken für sensible Objekte. Diese Masken bilden die Grundlage für das Anwenden von Unschärfe (Blur), Pixelierung oder anderen Formen der Verdeckung, um das Risiko der Offenlegung von Gesichtern oder Kfz-Kennzeichen zu minimieren und gleichzeitig den Szenenkontext zu erhalten.

Rolle der Bildsegmentierung bei der Anonymisierung von Gesichtern und Kfz-Kennzeichen

In der Praxis kombiniert die Videoanonymisierung und Bildanonymisierung die Objekterkennung mit der Segmentierung. Ein Detektor lokalisiert Gesichter und Kfz-Kennzeichen, während die Instanzsegmentierung die exakte Objektform bestimmt. Dadurch wird verhindert, dass unnötige Hintergrundbereiche unkenntlich gemacht oder an Objektgrenzen Lücken entstehen. In Videosequenzen werden Masken mithilfe von Tracking- und raumzeitlicher Optimierung zwischen Frames propagiert, wodurch Flackern und Objektverlust reduziert werden.

Im Hinblick auf die DSGVO-Konformität entspricht die Maskierung von Gesichtern und visuellen Identifikatoren dem Grundsatz der Datenminimierung sowie der Integrität und Vertraulichkeit (Art. 5 Abs. 1 lit. c und f der Verordnung (EU) 2016/679). Der Europäische Datenschutzausschuss (EDSA) empfiehlt in den Leitlinien 3/2019 zum Einsatz von Videoüberwachung technische Maßnahmen zur Einschränkung des Verarbeitungsumfangs, darunter das Maskieren oder Verpixeln sensibler Bereiche. In westeuropäischen Staaten ergeben sich Regelungen zur Veröffentlichung von Materialien mit sichtbaren Kennzeichen aus nationalem Recht und der Praxis der Datenschutzbehörden, nicht aus einer einheitlichen EU-weiten Verpflichtung. Auch in Polen bestehen unterschiedliche Auslegungen, wobei die Leitlinien der Datenschutzbehörden die Reduzierung der Identifizierbarkeit bei veröffentlichten Materialien betonen.

In Gallio PRO wird die Bildsegmentierung zur Erstellung von Masken für Gesichter und Kfz-Kennzeichen als vorbereitender Schritt für die Unschärfe eingesetzt. Die Software erkennt automatisch diese beiden Kategorien, bietet jedoch keine Echtzeit-Anonymisierung oder Live-Videoverarbeitung. Andere Elemente wie Logos oder Tätowierungen können manuell im Editor maskiert werden.

Segmentierungstechnologien und Modelle im Datenschutz

Für die Anonymisierung kommen überwiegend Deep-Learning-Methoden zum Einsatz, da sie auch unter schwierigen Licht- und Bewegungsbedingungen hochwertige Masken liefern. Klassische Verfahren wie Graph-Cuts oder Superpixel werden heute seltener eigenständig genutzt, finden jedoch teilweise im Postprocessing Anwendung.

  • FCN und U-Net - End-to-End-Architekturen für semantische Segmentierung. U-Net ist besonders bei begrenzten Datensätzen durch Skip-Connections und starke Datenaugmentation effektiv.
  • Mask R-CNN - erweitert die Objekterkennung um einen Masken-Head und ermöglicht die unabhängige Maskierung mehrerer Objekte in einer Szene, einschließlich mehrerer Gesichter.
  • DeepLabv3+ und verwandte Modelle - nutzen atrous (dilatierte) Convolutions und Decoderstrukturen zur Verbesserung der Objektgrenzen.
  • Transformerbasierte Segmentierung und interaktive Tools - z. B. Modelle wie SegFormer oder punkt-/rahmenbasierte Ansätze mit Nutzerunterstützung. Systeme wie Segment Anything ermöglichen die schnelle Generierung von Masken anhand grober Hinweise.

Das Training von Segmentierungsmodellen für Anonymisierungszwecke erfordert annotierte Datensätze mit Masken für Gesichter und Kennzeichen. In der Praxis werden Datensätze mit Instanzmasken verwendet oder Detektion mit Formanpassung kombiniert. Zu den Datenquellen zählen unter anderem COCO und Open Images für Instanzsegmentierung sowie CelebAMask-HQ für Gesichtsmasken. Für Kfz-Kennzeichen werden Detektionsdatensätze und eigene Instanzannotationen unter Einhaltung rechtlicher Vorgaben genutzt.

Zentrale Parameter und Metriken der Bildsegmentierung

Die Auswahl und Bewertung von Segmentierungsmodellen sollte auf messbaren Kennzahlen basieren. Für die Anonymisierung sind insbesondere Maskenqualität sowie Leistungsparameter relevant, die die Verarbeitungszeit beeinflussen.

Metrik/Parameter

Definition

Formel oder Beschreibung

Quelle

 

IoU (Intersection over Union)

Überlappung zwischen vorhergesagter und Referenzmaske

|A ∩ B| / |A ∪ B|

COCO Evaluation Protocol, Lin et al., 2014

mIoU

Durchschnittliche IoU über alle Klassen

Mittelwert der IoU pro Klasse

Cityscapes; Cordts et al., 2016

Dice (F1 für Pixel)

Ähnlichkeitsmaß mit Fokus auf Überdeckung

2|A ∩ B| / (|A| + |B|)

Sørensen-Dice; vgl. Ronneberger et al., 2015

APmask

Average Precision für Masken bei verschiedenen IoU-Schwellen

Durchschnittliche Präzision für IoU ∈ [0.5, 0.95]

COCO, Lin et al., 2014

Latenz

Verarbeitungszeit pro Bild/Frame

ms pro Bild oder Frame

Implementierungsspezifikationen

Durchsatz

Systemleistung

FPS = Frames pro Sekunde

Implementierungsspezifikationen

Speicherverbrauch

GPU/CPU-Speicher während der Inferenz

MB oder GB

Implementierungsspezifikationen

FN-Rate

Anteil nicht erkannter Klassenpixel

1 − Pixel-Recall

Vergleichsstudien

Für die Anonymisierung ist die Minimierung von False-Negatives an Objektgrenzen entscheidend. Häufig werden Masken erweitert (Dilation) und Kanten nachbearbeitet, um Unschärfelücken zu vermeiden.

Herausforderungen und Grenzen in Compliance-Anwendungen

Eine effektive Bildsegmentierung in Datenschutzprojekten ist sowohl mit technischen als auch rechtlichen Herausforderungen verbunden. Nachfolgend die wichtigsten Aspekte und deren Auswirkungen auf die Qualität der Anonymisierung:

  • Variable Aufnahmebedingungen - geringer Kontrast, Nachtaufnahmen, Bewegung oder Verschmutzungen beeinträchtigen Maskengrenzen.
  • Domänenvielfalt - unterschiedliche Kameratypen, Länder, Kennzeichenformate oder Gesichtsverdeckungen führen zu Qualitätsverlust außerhalb der Trainingsdomäne.
  • FN-Risiko - unmaskierte Bildbereiche oder Zeichen können Datenschutzverletzungen und DSGVO-Verstöße verursachen.
  • Rechenressourcen - Instanzsegmentierung ist ressourcenintensiv. Bei sensiblen Daten wird häufig eine On-Premise-Verarbeitung bevorzugt, um Cloud-Transfers zu vermeiden.
  • Datenmanagement - die Speicherung von Masken und Metadaten sollte die Re-Identifizierbarkeit minimieren. Gallio PRO speichert keine Protokolle mit Daten zu erkannten Gesichtern oder Kennzeichen.
  • Grenzen der Automatisierung - in Gallio PRO beschränkt sich die automatische Erkennung auf Gesichter und Kfz-Kennzeichen; andere Elemente werden manuell im Editor maskiert.

Normative Grundlagen und Quellen

Die folgenden Dokumente und Publikationen bilden die Grundlage für Definitionen, Metriken und Empfehlungen zur Bildsegmentierung sowie zur Verarbeitung visueller Daten im Datenschutzkontext:

  • Verordnung (EU) 2016/679 des Europäischen Parlaments und des Rates vom 27.04.2016 (DSGVO).
  • European Data Protection Board, Guidelines 3/2019 on processing of personal data through video devices, verabschiedet am 29.01.2020.
  • ISO/IEC 27001:2022 - Information Security, Cybersecurity and Privacy Protection - Information Security Management Systems.
  • ISO/IEC 23894:2023 - Information Technology - Artificial Intelligence - Risk Management.
  • Long, Shelhamer, Darrell, Fully Convolutional Networks for Semantic Segmentation, CVPR 2015.
  • Ronneberger, Fischer, Brox, U-Net: Convolutional Networks for Biomedical Image Segmentation, MICCAI 2015.
  • He, Gkioxari, Dollár, Girshick, Mask R-CNN, ICCV 2017.
  • Kirillov et al., Panoptic Segmentation, CVPR 2019.
  • Lin et al., Microsoft COCO: Common Objects in Context, ECCV 2014.
  • Cordts et al., The Cityscapes Dataset for Semantic Urban Scene Understanding, CVPR 2016.
  • Kuznetsova et al., The Open Images Dataset V6, IJCV 2020.
  • Lee et al., CelebAMask-HQ: A Large-Scale Face Parsing Dataset, CVPR Workshops 2020.
  • Kirillov et al., Segment Anything, arXiv 2023.