Title (deu): Dynamische Malware Analyse

Author: Marschalek, M. (Marion)

Description (deu): St. Pölten, FH-Stg. Information Security, Dipl.-Arb., 2011

Description (deu): In dieser Arbeit wird eine Methode vorgestellt, die anhand des Verhaltens von Software eine automatisierte Bewertung hinsichtlich der Bösartigkeit von unbekannten Programmen vornimmt. Die automatische Klassifizierung erfolgt mit Hilfe von Data Mining Algorithmen.
Es standen Daten von 1100 Samples aus automatischen, verhaltensbasierten Analyseverfahren in Form einer relationalen Datenbank zur Verfügung. Ziel der Arbeit war die Evaluierung eines einfachen und schnellen Ansatzes, diese Datenmengen automatisiert auszuwerten. Ausgehend von den beiden Klassen Virus='yes' und Virus='no' wurde aufgrund des Verhaltens der Samples eine Klassifizierung vorgenommen.
Die Analysen wurden nach Kategorien von Verhalten durchgeführt. Die Analysen, bezogen auf Files, Registry Keys, Registry Values, Processes, Services, geladene DLLs und Netzwerkkommunikation wurden getrennt voneinander durchgeführt. Die Daten wurden mit Single-Instance Verfahren untersucht, bezogen auf die einzelnen Aktivitäten der Samples. Außerdem wurde mit Multi-Instance Methoden auch auf Sample-Ebene analysiert.
Die besten Ergebnisse wurden mit Multi-Instance Verfahren auf die geladenen DLLs der Samples erzielt. Generell war der Output der Multi-Instance Analysen qualitativ besser. Ein entscheidendes Problem bei der Auswertung stellte die Beschaffenheit der Daten dar, die Anzahl sowie die Aussagekraft der harmlosen Samples waren zu gering. Die Kategorien Registry Key, Processes, Services sowie Netzwerkaktivitäten waren daher nicht für eine Analyse durch Data Mining Verfahren geeignet.
Zur Verbesserung der vorgestellten Methode muss der Anteil an Non-Viren in der Datenbank erhöht werden. Zudem ist in Erwägung zu ziehen, andere Features für die Analysen zu verwenden.

Description (eng): This paper proposes a method, which allows automated validation of unknown software based on behavioural structures. The automatic classification was accomplished by application of Data Mining algorithms.
For training and testing of classification techniques 1100 samples were used, retrieved from a relational database of behaviour-based software analysis. This papers objective was the evaluation of a fast and simple approach of automated appraisal of the given dataset. Assuming the two classes Virus='yes' and Virus='no' the classification was performed, depending on the behaviour of a given sample.
The data was split into categories of behaviour and each category was subject of an analysis. Named categories summed the activities concerning Files, Registry Keys, Registry Values, Processes, Services, loaded DLLs and Network Communication. The data was analysed with single-instance algorithms, relating to the single activities of the samples. Furthermore multi-instance methods were applied to focus on the samples as a whole.
Best results were achieved using the multi-instance techniques, especially on the dataset of loaded DLLs per sample. Generally the output of multi-instance methods was of higher quality. A significant problem during analysis phase was the data composition; number aswell as expressiveness of harmless samples were too low. Therefor the categories Registry Key, Processes, Services and Network Communication were not suitable for automated analysis by Data Mining techniques.
For improvement of the presented methods the portion of non-viruses in the database must be increased. Besides the usage of different features for Data Mining needs to be considered.

Object languages: German

Date: 2011

Rights: © All rights reserved

Classification: Malware; Analyse; Data Mining; Algorithmus

Permanent Identifier