Title (deu): eDiscovery with Hadoop: Is Open Source an option?

Author: Miersebach, M. (Marcel)

Description (deu): St. Pölten, FH-Stg. Information Security, Master Thesis, 2012

Description (deu): Diese Diplomarbeit beschäftigt sich mit dem Thema eDiscovery. Jedes Jahr sammeln sich in Unternehmen mehr und mehr elektronische Daten an, die bei einem eDiscovery Verfahren analysiert werden müssen. Für die ständig wachsenden Datenmengen werden früher oder später die traditionellen Verarbeitungsmechanismen nicht mehr
ausreichen, daher benötigt es neue innovative Lösungen um diesen Datenmengen gerecht zu werden. Das Open Source Projekt FreeEed versucht dem ständig steigenden Datenvolumen mithilfe von Cloud Technologien entgegenzutreten. FreeEed kann mit den Bestandteilen MapReduce und dem Hadoop Distributed File System (HDFS) mehrere Clusterknoten für die Analyse der Daten verwenden und verspricht so einen enormen Zeitvorteil. Diese Arbeit beschäftigt sich zunächst allgemein mit der Thematik von eDiscovery und zeigt auf, inwiefern dieses Thema für uns in Europa relevant ist. Auch die Frage inwieweit eDiscovery bisher standardisiert wurde, wird geklärt. Nachdem Themenblock eDiscovery werden die verwendeten Technologien und Bestandteile, die bei FreeEed zum Einsatz kommen, erklärt. Der Hauptteil dieser Arbeit beschäftigt sich mit dem Vergleich von FreeEed mit einer traditionellen kommerziellen eDiscovery Software. Dabei wird ein großes Augenmerk auf die Verarbeitungsdauer, unterstützte Dateiformate und der Umgang mit Fremdsprachen gelegt. Zusätzlich werden die verschiedenen Standardfunktionen der beiden Rivalen verglichen und bewertet. Am Schluss dieser Arbeit werden nochmals die Stärken und Schwächen dieser Hadoop basierenden eDiscovery Software herausgearbeitet.

Description (eng): This thesis discusses eDiscovery. Each year more and more electronic data is collected by enterprises that have to be analyzed for an eDiscovery purposes when there is a lawsuit. For the continual increasing amount of Data the traditional processing mechanism would not be sufficient. That’s why we need new innovative solutions to accomplish the task. The Open Source project FreeEed is trying to solve this issue with cloud technologies. FreeEed uses MapReduce and the Hadoop Distributed File System (HDFS) to split the data on multiple cluster nodes to process and analyses the information. This technic promises an enormous time advantage by parallel processing. The first chapter of this thesis deals with the subject eDiscovery and shows how relevant this topic is for companies in Europe. Additionally the question of how the eDiscovery process can be standardized is also covered in this chapter. In the next section all components and technologies that FreeEed uses are explained. The main part of this paper compares the Open Source eDiscovery software FreeEed with traditional commercial eDiscovery software. The focus of this comparison is the processing time, supported file formats and the handling of foreign languages. Furthermore, the standard eDiscovery features of both competitors are tested and evaluated. In the last section the strengths and weaknesses of a Hadoop based eDiscover software is worked out.

Object languages: German

Date: 2012

Rights: © All rights reserved

Classification: Computerforensik; Cloud Computing; Open Source

Permanent Identifier