Es gibt erheblichen Bedarf an flexiblen Verteilungen und Fehlermodellen, um multivariate Daten in Life Science zu untersuchen. Die vorliegende Arbeit untersucht eine flexible Klasse von multivariaten Modellen, die sich besonders gut für reale Daten eignet, in welchen Ausreißer und Schiefen vorhanden sind. Dazu stellt sie einen Algorithmus für die Anpassung solcher Modelle zur Verfügung.
Wir führen zunächst univariate und multivariate Mixture Skew-t Verteilungen ein, beginnend mit deren mathematischer Definition, gefolgt von deren hierarchischer Darstellung, die die Implementation des Expectation-Maximisation (EM) Algorithmus für die Parameterschätzung ermöglicht. Eine neue Interpretation für die Klassifizierung von multivariaten Daten, basierend auf der Anpassung separater multivariater Skew-t Mixtures jeweils für Fall- und Kontrollgruppe, wird vorgeschlagen. Der Quotient von multivariaten Dichten für Fall- und Kontrollgruppe formt eine Likelihood Ratio, die multipliziert mit der priori Wahrscheinlichkeit zu posteriori Odds führt. Die posteriori Odds werden auf die Wahrscheinlichkeitsskala zurücktransformiert. Die Form der Dichtequotienten wird für unterschiedliche Situationen, wie etwa für den Fall von gleichen Varianzen, diskutiert.
Wir konstruieren einen effizienten EM Algorithmus, der mit Collapsed Cluster umgehen kann. Ein Collapsed Cluster kann man als eine Verteilung betrachten, das alle Masse in einem niedrigeren dimensionalen Raum ohne Varianz hat. Unser Ansatz für die Applikationen in dieser Arbeit ist die Annahme, dass der Prozess, der die Daten generiert, für Collapsed und Non-Collapsed Clusters derselbe ist. Des weiteren entwickeln und veröffentlichen wir ein neues R Paket fitmixst4, das den EM Algorithmus für die Anpassung von multivariaten Skew-t Mixtures Verteilungen implementiert und Collapsed Clusters von normalen Gruppen differenziert.
Wir verwenden den Algorithmus in zwei Anwendungen. Die erste Anwendung behandelt das Update eines führenden klinischen Online-Risikoprädiktionsmodel für Prostatakrebs mit Biopsien, in welches zwei neue Serummarker eingebaut werden. Wir schätzen multivariate Skew-t Mixtures für die bivariate Verteilung der beiden Marker für Krebs- und Kontrollfälle, um eine Likelihood Ratio zu bekommen. Die priori Odds für Prostatakrebs für individuelle Patienten werden basierend auf klinischen Standardrisikofaktorprofilen mit dem existierenden Online-Risikoprädiktionstool berechnet. Die Multiplikation mit der Likelihood Ratio führt zu angepassten individualisierten posteriori Wahrscheinlichkeiten für Prostatakrebs, die die Information der Standardrisikofaktoren mit den neuen Markern kombiniert. Wir implementieren das resultierende Risikotool mit dem R Paket shiny und stellen es online auf der Cleveland Clinic Risk Library zur Verfügung, um es weltweit für Patienten und Kliniker zugänglich zu machen.
Für die zweite Anwendung haben wir Multivariate Skew-t Mixtures mit Collapsed Clustern verwendet, die die Sterbewahrscheinlichkeit von Bäumen in einem europäischen Netzwerk für Buchen beschreiben und klassifizieren. Wir modellieren bis zu fünf individuelle Baumcharakteristiken und Wettbewerbsindizes, um ein Risikoprädiktionsmodel für die Sterblichkeit der Bäume zu entwickeln. Zusätzlich haben wir zweidimensionale Konturdiagramme der prädiktiven Charakteristiken visualisiert, um eine Grundlage für die Kommunikation mit Forstwissenschaftlern zu schaffen. Mit Hilfe von separaten Trainings- und Validierungssets, kann gezeigt werden, dass der Ansatz mit den Skew-t Verteilungen die traditionelle logistische Regression übertrifft.
Die vorliegende Arbeit stellt Forschern in den Life Sciences ein komplexes Modeling Framework zur Verfügung, welches die Prädiktionsresultate maximiert und das Verständnis der zu Grunde liegenden nicht-linearen Assoziationen veranschaulicht. Das publizierte R Paket erleichtert die Implementation, um die Anwendbarkeit dieser Modelle auf andere Sachgebiete zu übertragen.
«
Es gibt erheblichen Bedarf an flexiblen Verteilungen und Fehlermodellen, um multivariate Daten in Life Science zu untersuchen. Die vorliegende Arbeit untersucht eine flexible Klasse von multivariaten Modellen, die sich besonders gut für reale Daten eignet, in welchen Ausreißer und Schiefen vorhanden sind. Dazu stellt sie einen Algorithmus für die Anpassung solcher Modelle zur Verfügung.
Wir führen zunächst univariate und multivariate Mixture Skew-t Verteilungen ein, beginnend mit deren mathem...
»