Das Erlernen von kausalen Strukturen hinter den von uns beobachteten Phänomenen spielt in allen Bereichen der Wissenschaft eine wichtige Rolle. Um die kausalen Beziehungen zwischen Variablen in dem zugrundeliegenden komplexen System zu verstehen, werden typischerweise kontrollierte Experimente verwendet. In vielen Fällen ist dies jedoch nicht möglich, da die Experimente nicht durchführbar, zu teuer oder unethisch sind. Der Anstieg an verfügbarer Rechenleistung sowie die stetig wachsende Menge an Daten haben daher zu einem vermehrten Interesse an der Nutzung von Beobachtungsdaten zur Schlussfolgerung von kausalen Strukturen geführt.
In der vorliegenden Masterarbeit werden drei verschiedene Methoden evaluiert, die anhand von gegebenen Zeitreihendaten kausale Beziehungen zwischen den Variablen bestimmen. Bei der ersten Methode, Augmented VARLiNGAM, handelt es sich um einen noise-basierten Ansatz, das heißt die kausalen Wirkrichtungen zwischen zwei Variablen werden auf der Grundlage von den Fehlertermen eines (linearen) Modells abgeleitet. Die beiden anderen Methoden, PCMCI und LPCMCI, sind constraint-basierte Ansätze, die unter anderem auf bedingten Unabhängigkeitstests basieren. Beide constraint-basierten Algorithmen können mit verschiedenen bedingten Unabhängigkeitstests kombiniert werden, wodurch sie sowohl für lineare als auch für nichtlineare Abhängigkeiten der Daten flexibel anwendbar sind. PCMCI geht wie Augmented VARLiNGAM davon aus, dass die von uns beobachteten Variablen alle Variablen sind, die das zugrundeliegende System beeinflussen. Dies ist in der Realität oft schwer zu erfüllen, daher stellen wir den LPCMCI Algorithmus vor, der auch unbeobachtete Variablen zulässt. Der Preis für die Berücksichtigung unbeobachteter Variablen ist, dass die kausale Interpretation des durch LPCMCI erhaltenen Graphen weniger aussagekräftig ist.
Wir wenden die drei Algorithmen auf Zeitreihendaten an, welche den deutschen Day-Ahead Elektrizitätsmarkt widerspiegeln. Da manche der Methoden sehr rechenintensiv sind und wir nur begrenzte Rechenleistung zur Verfügung haben ist es uns nicht möglich, den kompletten Datensatz mit 80 Variablen zu verwenden. Deshalb vergleichen wir die drei Methoden anhand einer sinnvoll gewählten Teilmenge von fünf Variablen. Wir implementieren Augmented VARLiNGAM in R und für PCMCI und LPCMCI verwenden wir das Python-Paket Tigramite, in dem beide Algorithmen implementiert sind.
«
Das Erlernen von kausalen Strukturen hinter den von uns beobachteten Phänomenen spielt in allen Bereichen der Wissenschaft eine wichtige Rolle. Um die kausalen Beziehungen zwischen Variablen in dem zugrundeliegenden komplexen System zu verstehen, werden typischerweise kontrollierte Experimente verwendet. In vielen Fällen ist dies jedoch nicht möglich, da die Experimente nicht durchführbar, zu teuer oder unethisch sind. Der Anstieg an verfügbarer Rechenleistung sowie die stetig wachsende Menge an...
»