Was sind neuronale Netze (ANN)?

Inhaltsverzeichnis

Definition
Rolle bei der Bild- und Videoanonymisierung
In ANN eingesetzte Technologien zur Verpixelung
Zentrale Parameter und Metriken für ANN in der Anonymisierung
Herausforderungen und Einschränkungen
Anwendungsbeispiele in Gallio PRO
Normative Verweise und Quellen

Definition

Neuronale Netze (Artificial Neural Networks, ANN) sind eine Familie von Modellen des maschinellen Lernens, die aus Schichten miteinander verbundener Recheneinheiten bestehen. Diese transformieren Eingabedaten in gewünschte Ausgaben, indem sie Gewichtungen während des Trainings anpassen. Im Kontext der Bild- und Videoverarbeitung kommen vor allem tiefe neuronale Netze (Deep Neural Networks, DNN) zum Einsatz, insbesondere konvolutionale neuronale Netze (Convolutional Neural Networks, CNN). Sie werden mithilfe der Backpropagation trainiert, häufig auf annotierten Datensätzen. Diese Beschreibung lehnt sich an ISO/IEC 22989:2022 zur Definition grundlegender KI- und ML-Begriffe sowie an ISO/IEC 23053:2022 an, die den Rahmen für KI‑Systeme auf Basis von maschinellem Lernen beschreibt.

Bei der Bild- und Videoanonymisierung übernehmen neuronale Netze eine zentrale Rolle als Detektoren und/oder Segmentierer sensibler Objekte. Ein ANN‑Modell lokalisiert Gesichter und Kfz‑Kennzeichen, woraufhin das System Postprocessing‑Operationen wie Unschärfe, Pixelierung oder Maskierung anwendet. Die Qualität und Sicherheit des gesamten Anonymisierungsprozesses hängen maßgeblich davon ab, dass alle relevanten Objekte zuverlässig erkannt werden - bei gleichzeitig akzeptabler Quote falscher Positivmeldungen.

Rolle bei der Bild- und Videoanonymisierung

Gesichtserkennung: CNN‑basierte Detektoren liefern Bounding Boxes oder Masken, die den zu verpixelnden Bereich definieren. Zum Einsatz kommen sowohl einstufige Objektdetektoren als auch spezialisierte Gesichtserkennungsmodelle.
Erkennung von Kfz‑Kennzeichen: Objekterkennungsmodelle lokalisieren Kennzeichen unter unterschiedlichen Lichtverhältnissen und Blickwinkeln. Eine Segmentierung kann die Maskenform weiter verfeinern.
Video‑Tracking: Algorithmen zur Objektassoziation zwischen Einzelbildern stabilisieren Masken und reduzieren Flackern. Dieses Tracking ergänzt die ANN‑basierte Detektion.
Postprocessing: Nach der Erkennung wendet das System definierte Unschärfegrade, Pixelierung oder homogene Masken an. Die Parameter werden so gewählt, dass eine Identifizierung von Personen nicht mehr möglich ist, im Einklang mit Erwägungsgrund 26 der DSGVO.

In ANN eingesetzte Technologien zur Verpixelung

Detektionsarchitekturen: YOLOv3-v4 sowie neuere einstufige Varianten bieten eine hohe Inferenzgeschwindigkeit bei guter Genauigkeit (Redmon et al. 2018, Bochkovskiy et al. 2020). Zweistufige Modelle wie Faster R‑CNN liefern eine sehr hohe Präzision, jedoch mit höherer Latenz.
Gesichtsdetektoren: RetinaFace kombiniert Gesichtserkennung mit Landmark‑Schätzung und verbessert dadurch die Maskenlokalisierung bei ungewöhnlichen Posen (Deng et al. 2020).
Segmentierung: U‑Net und verwandte Architekturen ermöglichen eine präzise Konturenerkennung, wenn unregelmäßig geformte Masken erforderlich sind (Ronneberger et al. 2015).
Formate und Deployment: PyTorch oder TensorFlow für das Training, Konvertierung nach ONNX oder TensorRT für On‑Premise‑Deployments. Optimierungen umfassen INT8‑Quantisierung, Pruning und Layer‑Fusion.
Beschleunigung: GPUs mit CUDA‑ und cuDNN‑Unterstützung, alternativ CPUs mit AVX2 oder dedizierte NPU‑Beschleuniger. Die Performance hängt von Eingangsauflösung, Batch‑Größe und Netzwerkkomplexität ab.

Zentrale Parameter und Metriken für ANN in der Anonymisierung

Parameter	Definition	Bedeutung in der Praxis	Quelle
IoU	Intersection over Union - Schnittfläche geteilt durch die Vereinigungsfläche von Detektions‑ und Ground‑Truth‑Box.	Bestimmt, ob eine Detektion als korrekt gilt. Typischer Bewertungswert: 0,5.	Pascal VOC
Precision	TP / (TP + FP)	Je höher, desto weniger unnötig verpixelte Bereiche ohne Gesicht oder Kennzeichen.	COCO, VOC
Recall	TP / (TP + FN)	Entscheidend für den Datenschutz - minimiert übersehene Gesichter.	COCO, VOC
F1‑Score	2 × Precision × Recall / (Precision + Recall)	Ausgewogene Kennzahl zur Wahl des Konfidenzschwellwerts.	COCO, VOC
[email protected]	Mittlere durchschnittliche Präzision bei IoU = 0,5	Klassische Metrik der Objekterkennung nach VOC‑Standard.	Pascal VOC
[email protected]:0.95	Durchschnittliche mAP über IoU‑Werte von 0,5 bis 0,95 in 0,05‑Schritten	Anspruchsvolle COCO‑Metrik, die die Gesamtqualität besser abbildet.	COCO
Latenz	Inferenzzeit pro Frame [ms]	Relevant für flüssige Videoverarbeitung, auch im Batch‑Betrieb.	NIST AI RMF 2023
Durchsatz	Bilder pro Sekunde [fps]	Grundlage für die Planung von On‑Premise‑Rechenressourcen.	NIST AI RMF 2023
Confidence Threshold	Minimale Modellkonfidenz für eine gemeldete Detektion	Höherer Wert reduziert Fehlalarme, kann jedoch den Recall senken.	COCO
NMS IoU	IoU‑Schwellwert für Non‑Maximum‑Suppression	Steuert das Zusammenführen redundanter Bounding Boxes.	COCO

Metrik‑Quellen: Pascal VOC (Everingham et al., 2010), COCO (Lin et al., 2014). Das NIST AI Risk Management Framework 1.0 (2023) empfiehlt die Auswahl und Überwachung von Leistungs‑ und Risikokennzahlen über den gesamten Lebenszyklus von KI‑Systemen.

Herausforderungen und Einschränkungen

Domänenwechsel: Leistungsabfall außerhalb der Trainingsdatenverteilung, z. B. bei anderen Kameras, Lichtverhältnissen oder Wetterbedingungen.
Verdeckungen und Bewegungsunschärfe: Erschweren die Detektion, insbesondere bei Profilen oder teilweise sichtbaren Gesichtern.
Datenbias: Fehlende Repräsentation bestimmter Gruppen kann zu Unterschieden im Recall führen. Entsprechende Fairness‑Tests sind erforderlich.
Adversarielle Effekte: Ungewöhnliche Muster oder Reflexionen können die Erkennung beeinträchtigen.
Rechtliche Anforderungen: Modelle verarbeiten personenbezogene Daten im Eingabestadium. Es sind eine Rechtsgrundlage und Datenminimierung gemäß DSGVO notwendig.

Anwendungsbeispiele in Gallio PRO

Automatische Verpixelung von Gesichtern und Kfz‑Kennzeichen in Bildern und Videos mithilfe von CNN‑Detektoren. Ganze Körper werden nicht anonymisiert.
Keine Echtzeitverarbeitung - stattdessen Batch‑Verarbeitung von Dateien.
Manueller Modus im Editor für weitere Elemente wie Logos, Tattoos, Dokumente oder Bildschirme ohne automatische Erkennung dieser Klassen.
On‑Premise‑Deployment - volle Kontrolle über den Datenfluss innerhalb der Organisation, keine Übertragung in die Cloud. Das System speichert keine Logs mit Informationen zu Gesichts‑ oder Kennzeichendetektionen.

Normative Verweise und Quellen

ISO/IEC 22989:2022 - Artificial intelligence - Concepts and terminology. ISO, 2022.
ISO/IEC 23053:2022 - Framework for AI systems using machine learning. ISO, 2022.
Verordnung (EU) 2016/679 (DSGVO) - Erwägungsgrund 26 und Art. 4 Abs. 1. Amtsblatt der EU, 2016.
EDPB, Guidelines 3/2019 on processing of personal data through video devices, Version 2.0, 29.01.2020.
Goodfellow, Bengio, Courville, Deep Learning, MIT Press, 2016.
Everingham et al., The Pascal Visual Object Classes Challenge, IJCV, 2010.
Lin et al., Microsoft COCO, ECCV 2014.
Redmon, Farhadi, YOLOv3, arXiv:1804.02767, 2018; Bochkovskiy et al., YOLOv4, arXiv:2004.10934, 2020.
Deng et al., RetinaFace, arXiv:1905.00641, 2020.
Ronneberger et al., U‑Net, MICCAI 2015.
NIST, AI Risk Management Framework 1.0, 2023.

Siehe auch

Zurück zum Glossar