In den letzten Jahrzehnten wurden bedeutende Fortschritte darin gemacht, Daten aus allen Lebensbereichen zu erzeugen und anzusammeln. Zeitgleich verbesserten sich auch die technischen Möglichkeiten diese Datensätze zu analysieren und interpretieren. Die Schnittstelle dieser beiden Entwicklungen wird Big Data genannt und spielt eine wichtige Rolle im Bereich der Hochtechnologiemedizin. Einen beträchtlichen Beitrag zur Bewältigung dieser enorm wachsenden Menge
an maschinenlesbaren Informationen brachten die sogenannten Feature Selection Algorithmen. Sie bestimmen die minimale Teilmenge von Parametern, die für Vorhersagemodelle mit hoher Genauigkeit relevant sind. Somit vereinfacht eine Feature Selection die Interpretierbarkeit, sowie die Berechenbarkeit großer Datensätze. Es existieren bereits mehrere verschiedene Feature Selection Methoden. Frühere Studien zeigen jedoch, dass einige dieser Methoden
Fehleranfälligkeiten aufgrund von Parametertyp und der Qualität der Datensätze aufzeigen. In dieser Arbeit wird ein Ensemble aus acht verschiedenen Feature Selection Methoden (EFS) vorgestellt. Ein Ensemble von Lernalgorithmen hat den Vorteil die Fehleranfälligkeiten von einzelnen Methoden
auszugleichen. Zusätzlich liefert EFS eine kumulative, qualitative Rangliste der Parameter. EFS wurde auf mehrere biomedizinische Datensätze angewendet. Verschiedene Parameterteilmengen, die aus der EFS-Rangliste hervor
gegangen sind, wurden mittels folgender drei gängiger Vorhersagemodellen evaluiert: logistische Regression, Random Forest und Support Vector Machines. In den meisten Fällen konnte eine signifikante Steigerung der Vorhersageperformance erreicht werden. EFS und die Evaluationsmethoden wurden sowohl als R-Paket EFS, wie auch als Web-Applikation implementiert. Der Output besteht hierbei aus einer quantitativen Parameterrangliste und einem
kumulativen Barplot der Werte der Feature-Importance.
«
In den letzten Jahrzehnten wurden bedeutende Fortschritte darin gemacht, Daten aus allen Lebensbereichen zu erzeugen und anzusammeln. Zeitgleich verbesserten sich auch die technischen Möglichkeiten diese Datensätze zu analysieren und interpretieren. Die Schnittstelle dieser beiden Entwicklungen wird Big Data genannt und spielt eine wichtige Rolle im Bereich der Hochtechnologiemedizin. Einen beträchtlichen Beitrag zur Bewältigung dieser enorm wachsenden Menge
an maschinenlesbaren Informationen b...
»