Die vorliegende Arbeit beschäftigt sich mit zwei Themen aus der Statistik, die sich der Frage widmen, wie valide Inferenz-Ergebnisse angesichts von Unsicherheit bezüglich des gewählten statistischen Modells erreicht werden können.
Das erste Teilprojekt ist im Gebiet Kausale Inferenz angesiedelt und hat zum Ziel, Konfidenzintervalle für den kausalen Effekt zwischen den Größen in einem linearen System bestehend aus zwei Variablen zu finden. Zunächst werden die benötigten Begrifflichkeiten eingeführt und grundlegende Annahmen, wie Fehlerterme mit gleicher Varianz, anhand derer die Identifizierbarkeit des Modells gewährleistet wird, vorgestellt. Daraufhin wird veranschaulicht, dass der naive Ansatz, Modellwahl und Schätzung von Konfidenzintervallen in zwei separate Schritte zu zerlegen, oftmals zu falschen Ergebnissen führt. Außerdem zeigt sich anhand zweier Beispiele, dass Resampling-Methoden, wie Bootstrapping oder Subsampling, ebenfalls nicht angewendet werden können.
Aus diesem Grund entwickeln wir einen neuen Ansatz, der auf der Dualität von Hypothesentests und Konfidenzintervallen aufbaut. Es wird eine Familie von Tests mit Hilfe von Constrained Statistical Inference Theory entwickelt, von der wir Konfidenzintervalle ableiten. Abschließend werden die Ergebnisse der vorgestellten Methoden sowohl an künstlich erzeugten Datensätzen als auch an Benchmarks aus realen Anwendungen untersucht.
Das zweite Teilprojekt befasst sich mit Inferenz in einem Modell, das unter Berücksichtigung der vorliegenden Daten durch HSIC-Lasso ausgewählt wurde. Es wird zunächst das Polyhedral Lemma eingeführt, auf dessen Grundlage ein Hauptstrang der Forschung auf dem Gebiet der Selektiven Inferenz basiert und das auch in dieser Arbeit Anwendung findet. Als zweiten theoretischen Eckpfeiler stellen wir nachfolgend das Hilbert-Schmid Unabhängigkeitskriterium vor, das erlaubt die Abhängigkeit zweier Zufallsvariablen ohne Verwendung weitergehender Annahmen zu quantifizieren.
Auf dieser Grundlage wird eine Methode für korrekte Inferenz nach Modellwahl durch das HSIC-Lasso Verfahren entwickelt. Darüber hinaus werden verschiedene potentielle Inferenz-Größen vorgestellt und es wird ebenfalls auf Probleme bei der Anwendung auf hochdimensionale Datensätze eingegangen. Daraufhin wird mittels verschiedener künstlich generierter Daten analysiert, wie sich die Wahl von bestimmten Parametern auf die erzielten Ergebnisse auswirken. Zuletzt wird mit zwei Benchmark-Datensätzen die praktische Anwendbarkeit des vorgestellten Ansatzes unter Beweis gestellt.
«
Die vorliegende Arbeit beschäftigt sich mit zwei Themen aus der Statistik, die sich der Frage widmen, wie valide Inferenz-Ergebnisse angesichts von Unsicherheit bezüglich des gewählten statistischen Modells erreicht werden können.
Das erste Teilprojekt ist im Gebiet Kausale Inferenz angesiedelt und hat zum Ziel, Konfidenzintervalle für den kausalen Effekt zwischen den Größen in einem linearen System bestehend aus zwei Variablen zu finden. Zunächst werden die benötigten Begrifflichkeiten eingefü...
»