Title (deu): Automatisierte Klassifikation von pornographischen Bildern

Author: Moser, A. (Anton)

Description (deu): St. Pölten, FH-Stg. Information Security, Master Thesis, 2014

Description (deu): Durch die stetig wachsenden Datenmengen, welche im Zuge von Untersuchungen gegen Kinderpornographie analysiert werden müssen, nimmt auch der Bedarf an einer automatisierten Lösung weiter zu. Vor allem die Unterscheidung zwischen pornographischem Material und harmlosen Bildern mit großem Hautanteil, wie etwa Urlaubsbilder, stellt automatisierte Algorithmen vor große Probleme. Aus diesem Grund werden im ersten Teil dieser Diplomarbeit vorhandene Methoden und Ansätze, welche für die Unterscheidung solcher Bilder eingesetzt werden können, beschrieben und evaluiert. Diese Methoden als solche sind noch nicht in der Lage, eine Unterscheidung vorzunehmen. Erst durch die Kombination von mehreren dieser Ansätze kann eine Unterscheidung durchgeführt werden. Neben den bekannten Methoden der Gesichtserkennung und Hautanalyse werden beispielsweise auch Algorithmen zur Form- und Texturerkennung behandelt. Zusätzlich beinhaltet die Arbeit auch ein Kapitel über das kraniofaziale Gesichtswachstum, aus welchem sich die Altersbestimmung ableiten lässt. Die Bewertung erfolgt anhand ausgewählter Kriterien, wie der Erkennungsrate und der Anzahl der Testbilder. Aufbauend auf die Bewertung aus dem ersten Teil wird im zweiten Teil ein Prototyp entwickelt, welcher die einzelnen Methoden zu einem ganzheitlichen Ansatz verbindet und so die grundsätzliche Durchführbarkeit testet. Dabei wird zum einen der Grad der Nacktheit untersucht, zum anderen das Alter der auf dem Bild befindlichen Personen ermittelt. Als Grundlage für beide Analysen werden die gefundenen Gesichter verwendet. Die Altersbestimmung verwendet Augen, Nase und Mund als Klassifikationspunkte, während der Hautanalyseprozess dynamische Schwellwerte für die Hauterkennung aus dem Gesicht berechnet. In weiterer Folge wird mittels dieser Schwellwerte und unterschiedlich gewichteten Farbräumen eine Hautmaske erstellt. Anhand dieser Hautmaske werden schlussendlich Regions-of-Interest (ROI), Texturen und Konturen berechnet. ROIs und Konturen dienen dem Prototyp als Hauptmerkmale für die Unterscheidung zwischen vollständiger und teilweiser Nacktheit, wie sie etwa durch das Tragen von Bikinis entstehen kann. Die finale Klassifikation setzt sich schließlich aus den beiden Teilen Altersbestimmung und Hautanalyse zusammen. Als Ergebnis erfolgt einerseits eine Einteilung in die Altersklassen „über 14 Jahre“ und „14 Jahre und jünger“, anderseits in die Kategorien „Pornographie/Nacktheit“, „harmlos, aber viel Haut“ und „harmlos“. Die Hautanalyse weist im Testlauf mit 45 Testbildern eine Erkennungsrate von 62% auf, wobei dieses Ergebnis bei einer reinen Trennung von „Pornographie/Nacktheit“ und „harmlos“ auf 84% verbessert werden kann. Die Erkennungsrate der Altersbestimmung entspricht 55%. Allerdings konnten dabei 66% der Bilder gar nicht analysiert werden, da die benötigten Klassifikationsmerkmale im Gesicht nicht extrahiert werden konnten. Damit zeigt das Ergebnis deutlich auf, dass eine Unterscheidung zwischen pornographischen und harmlosen Bildern möglich ist, eine Altersbestimmung aber noch nicht umsetzbar ist, da die benötigten Features nur aus Frontalbildern mit guter Qualität extrahiert werden können.

Description (eng): Due to the enormous volume of data that has to be analysed during child pornography investigations, there is a growing demand for an automated solution. Especially the clear distinction between pornographic material and inoffensive pictures with a large amount of skin, like people wearing bikinis or underwear, causes problems. For this purpose, the first part of this Master Thesis describes and evaluates different methods that can be used for the differentiation of such pictures. Used separately, these methods are not able to perform the appropriate distinction, whereas a combination out of different algorithms may bring the needed results. Besides face and skin tone detection, which are the most well-known approaches in this field, this Thesis also contains shape and texture recognition. Additionally, a chapter about the craniofacial growth is included, which can be used for estimating people’s ages. The evaluation makes use of selected criteria like true detection rate and number of test pictures.
Based on the evaluation out of part one a prototype is developed in part two. This prototype connects the different methods to one holistic approach and thus tests the general feasibility. Therefore, on the one hand the level of nudity is calculated, on the other hand the age of all the people on the picture is determined. As
a basis for these analyses the found faces are used. The age detection algorithm makes use of eyes, nose and mouth, whereas the skin analysis algorithm calculates dynamic thresholds out of the face region. By using these dynamic thresholds with different, weighted colour spaces, a skin mask is created. On the basis of the skin mask Regions-of-Interest (ROI), textures and contours are extracted. ROIs and contours are the main feature for distinguishing between complete and partial nakedness. The final classification is a combination of both, age detection and skin tone analysis. As a result, all the people on the pictures are categorized in either “above 14 years”, or “14 years and below”. For the skin tone analysis three categories are defined: “Porn/Nudity”, “Harmless, but much skin” and “harmless”. Test results show a true detection rate of 62% out of 45 pictures for skin analysis. The result can be further improved by just separating the pictures in the two categories “Porn/Nudity” and “Harmless”, where a detection rate of 84% is reached. The detection rate for age detection is about 55%, whereas 66% of the pictures could not be analysed because the extraction of the needed facial features was not possible. These results point out that an automated distinction between pornography and harmless material is realizable. However, as facial features can only be extracted and calculated in frontal images with good quality, a practical implementation of this approach is not viable.

Object languages: German

Date: 2014

Rights: © All rights reserved

Classification: Klassifikation; Pornographie; Internet; Bild

Permanent Identifier