Title (eng): Exploratory PDF file analysis and malware recognition

Author: Molnar, A. (Aron)

Description (deu): St. Pölten, Studiengang Information Security, Masterarbeit, 2016

Description (deu): Aufgrund seiner Interoperatibilität und Kompatibilität ist das "Portable Document Format"PDF eines der am weitesten verbreiteten Dateitypen in Unternehmen und Organisationen. Die zahlreichen Funktionalitäten können jedoch nicht nur für die Erstellung nützlicher und einfach zu handhabender Dokumente verwendet werden, sondern auch durch Autoren von Schadprogrammen zur Infiltrierung on Computersystemen. Darum erfreut sich das Dateiformat hoher Beliebtheit bei Kriminellen im virtuellen Raum. Doch nicht nur in Form von Angriffen kann das Dateiformat Risiken für Organisationen bergen. Das Dateiformat ist in einer Weise aufgebaut, dass sich Inhalte in Dateien befinden, die beim einfachen Betrachten der Dokumente nicht ersichtlich sind. So könnten sensitive Informationen ohne das Wissen des Veröffentlichers in die falschen Hände gelangen. Im Rahmen dieser Arbeit werden PDF-Dateien aus vier Kategorien gesammelt und analysiert: Dokumente aus dem Internet, dem Tor-Netzwerk, infizierte und nicht infizierte Dateien. Ziel der Arbeit ist es, Unterschiede zwischen den Dateien verschiedener Herkunft zu finden und zu analysieren. Dies erfolgt im Hinblick auf eingebettete Metadaten wie etwa Titel des Dokuments oder Name des Autors, auf verwendete Datei-Funktionalitäten wie etwa JavaScript oder Kommentare und auf die physikalische Struktur der Dateien.
Die daraus gewonnen Erkenntnisse und Daten werden für eine Klassifizierung der Dateien herangezogen, um durch Datenanalyse zwischen infizierten und nicht infizierten Dateien unterscheiden zu können.

Description (eng): Due to its interoperability and compatibility, the "Portable Document Format" PDF is one of the most widespread data formats in enterprises and organizations. The multitudinous functionalities cannot only be used for creation of advantageous and manageable documents but also by authors of malware for infiltrating computer systems. The PDF data format therefore enjoys great popularity among criminals in cyberspace. Anyway, virtual attacks do not pose the sole hazard for organizations. The PDF data format is compounded in a way that some contents are present in files that cannot be seen by simply opening and reading the documents. This poses the risk of releasing sensitive information without the publisher’s knowledge that may be detected by malicious users.
This thesis takes an exploratory approach of analysing four different categories of PDF files: files downloaded from the world wide web, from the tor network, malicious and benign ones. The objective of the thesis is to detect and to analyse distinctions between files from different sources. This is carried out with regard to embedded metadata like the document’s title or the author’s name, to utilized document functionalities like JavaScript or PDF-comments and to the physical structure of the files. The gained information and insights are then used for classifying the documents in order to be able to distinguish between infected and non-infected files.

Object languages: English

Date: 2016

Rights: © All rights reserved

Classification: PDF ; Risiko

Permanent Identifier