Title (deu): Ähnlichkeitssuche bei Malware

Author: Kaufmann, J. (Johannes)

Description (deu): St. Pölten, FH-Stg. Information Security, Dipl.-Arb., 2011

Description (deu): In dieser Arbeit wird eine neue Methode vorgestellt, Malware verhaltensbasiert zu beschreiben und diese Beschreibung für eine Ähnlichkeitssuche in einer Malware-Datenbank zu verwenden. In den letzten Jahren wurde meist vorgeschlagen, über die gesamten Rohdaten mit aufwändigen Data Mining Verfahren Klassifizierungsmerkmale zu ermitteln, die dann unter anderem auch zum Vergleich mit anderen Malwaresamples herangezogen werden. In dieser Arbeit wird dagegen versucht, messbare, komplexere Verhaltensmuster aus den Rohdaten zu extrahieren, mit denen dann weiter gearbeitet wird.
Die dreizehn auf diese Weise erarbeiteten Features, welche das Modell bilden, wurden jeweils mit konkreten Aktionen, die die Malware im System setzen kann, spezifiziert, wobei auch beschrieben wurde, wie diese Änderungen das System beeinflussen.
Es werden die Anforderungen an ein Verfahren zur Ähnlichkeitssuche in einer verhaltensbasierten Malwaredatenbank ermittelt. Das dient dazu, aus mehreren in der Literatur genannten Verfahren das geeignetste zu finden.
Der Attribute-Level-Tree wird als das am besten geeignete Verfahren ermittelt. Wie der Name schon sagt, stellt dabei jedes Attribut, in diesem Fall die Features des Modells, ein Level eines Baumes dar. Er weist die Eigenschaft auf, dass er besonders bei „dichten“ Datenbanken performant arbeitet. Je weniger verschiedene Werte es für eine Datenmenge gibt, desto dichter ist die Datenbank. Da dieses Modell mit vielen binären Entscheidungen arbeitet und damit eine sehr dichte Struktur hat, ist dieses Verfahren dafür sehr gut geeignet. Des Weiteren findet das Verfahren, obwohl es nur einen Teil des Baumes, der die Datenbank darstellt, durchwandert, immer die Malwaresamples, welche dem Suchobjekt dem Verhaltensmodell zufolge am Ähnlichsten sind. Falls gewünscht, können auch mehrere Objekte als Ergebnis ausgegeben werden, welche dem neuen Objekt am ähnlichsten sind oder alle, die sich unter einem definierten Distanzwert befinden.
Das Verfahren erlaubt auch eine Gewichtung der Attribute. Die Gewichtung erfolgte entsprechend der Signifikanz der Attribute bezüglich ihrer schädlichen Auswirkungen auf das System. Damit wird eine möglichst genaue verhaltensbasierte Charakterisierung von Malware erreicht.

Description (eng): In this paper, a new model to describe malware based on behaviour is proposed. This model is used in combination with a similarity search to gather the most similar malware samples from a database. In recent years, many papers proposed the use of extensive data mining to search all the raw data to construct profiles, which are then applied to the classification of new samples. In contrast, in this paper complex and measurable patterns are extracted to compare the new sample with the samples in the database.
The model contains thirteen features, whereupon each describes certain behaviour patterns typical for malware. Each feature is specified in terms of defined and measured changes in the system.
Furthermore, the requirements for a method of similarity search, suitable to work with a behaviour-based malware database, are defined. This way, it is possible to find the best fitting algorithm among a couple of algorithms described in the literature.
The use of an attribute-level tree seems to be particularly suitable for the similarity search in this model. As the name suggests, each attribute, in this case the features, resembles one level of the tree. The attribute-level tree performs especially well when applied to dense datasets. The less different values in a dataset exist, the denser the data base. Since the proposed model uses many binary decisions and thus offers a dense structure, it seems that the attribute-level tree and the proposed model are a very good combination.
Furthermore, although only a small part of the tree is used in a search, the algorithm guarantees, that the output of the algorithm is always the most similar object to the query object. The algorithm also allows the search for a specified number of similar objects, while using only little additional computational cost after finding the most similar one. Alternatively, it is also possible to search for all objects, which distance values are below a specified similarity threshold.
It is also possible to apply a weighted sum on the attributes. The weighting is applied accordingly to the significance of the attributes in respect of their negative impact on the system. This should lead to a highly accurate, behaviour-based characterisation of malware.

Object languages: German

Date: 2011

Rights: © All rights reserved

Classification: Malware; Ähnlichkeitssuche

Permanent Identifier