Mit der rasanten Entwicklung von Web 2.0-Diensten in den frühen Jahren des 21. Jahrhunderts entstand eine große Anzahl von sozialen Netzwerken, die die Entstehung einer Online-Beteiligungskultur ermöglichten. So nutzten zum Beispiel schon circa 69\% der erwachsenen Amerikaner im Jahr 2018 mindestens eine der wichtigsten Social Media Plattformen im Internet. Diese sammeln und speichern dabei verschiedene Arten von Daten, zum Beispiel über die Interaktion der Nutzer mit den Plattformen sowie über deren Kommunikation untereinander. Diese Renaissance von Big Data - ein Begriff, der sich auf den explosionsartigen Anstieg verfügbaren Daten bezieht - ist gekennzeichnet durch die kontinuierliche Generation von hochdimensionalen und unstrukturierten Daten, die in einem beispiellosen Umfang und mit relativ geringen Kosten erhoben werden können. Diese Renaissance bietet Sozialwissenschaftlern neue Möglichkeiten, das Verhalten der Menschen in großem Maßstab zu untersuchen. Die Analyse dieser Daten ist jedoch aufgrund ihrer hohen Dimensionalität und Ungenauigkeit, der zufälligen Endogenität und auch wegen häufig auftauchenden, falschen Korrelationen sehr schwierig. Um die Potenziale vollständig zu erschließen und komplexe Muster in den Daten zu erkennen, ist es entscheidend, dass Sozialwissenschaftler mit den modernen Methoden des maschinellen Lernens ausgestattet sind und sich in der Informatik, Statistik sowie Mathematik auskennen.
Der Schwerpunkt dieser Dissertation liegt auf der Generierung von politischem Wissen aus den riesigen Datenmengen, die auf Social Media Plattformen erzeugt werden. Der erste Teil der Dissertation dient hierbei als allgemeine Einführung in Social Big Data, die Möglichkeiten ihrer politischen Erforschung und den damit verbundenen Herausforderungen. Zusätzlich werden allgemeine Methoden zur kontinuierlichen Speicherung von Social Media-Rohdaten auf skalierbaren verteilten Datenbanken eingeführt. Der zweiten Teil beschreibt den theoretischen Rahmen für die effiziente Analyse der Daten, auf dessen Grundlage die quantitativen Werkzeuge zur Generierung von Wissen entwickelt werden.
Für den theoretischen Teil dieser Arbeit wird eine breite Palette von Algorithmen entwickelt, mit dem Ziel, die theoretische Lücke zwischen den verschiedenen Aspekten der Sozial- und Informatikwissenschaften zu schließen. Die beiden Hauptveröffentlichungen dieser Dissertation basieren auf modernsten netzwerktheoretischen Methoden. In Estimating the Political Orientation of Twitter Users in Homophilic Networks von Shahrezaye et al. werden effiziente Algorithmen, basierend auf Methoden des metrischen Lernens und mit Hilfe harmonischer Funktionen, entwickelt, um die politische Orientierung von Twitter-Massenbenutzern mit weniger als fünfzig Trainingsbeobachtungen pro Klasse effizient einschätzen zu können. In Measuring the Ease of Communication in Bipartite Social Endorsement Networks, Shahrezaye et al. messen die gesamte Kommunikationseffizienz in sozialen Netzwerken, welche eine positive Korrelation zwischen benachbarten Knoten aufweisen, den sogenannten Netzwerken mit assortativer Mischung. Des Weiteren wird ein Polarisationsindex definiert, mit dem der Grad der politischen Polarisierung zwischen den Unterclustern von sozialen Online-Netzwerken gemessen werden kann. In The Effect of Hyperactive Users in Online Social Networks von Papakyriakopoulos et al. sind die sogenannten hyperactive users sowohl theoretisch als auch mathematisch definiert. Abschließend wird gezeigt, dass diese hyperactive users zu Meinungsbildern auf den sozialen Netzwerken werden und somit den politischen Diskurs beeinflussen können.
«
Mit der rasanten Entwicklung von Web 2.0-Diensten in den frühen Jahren des 21. Jahrhunderts entstand eine große Anzahl von sozialen Netzwerken, die die Entstehung einer Online-Beteiligungskultur ermöglichten. So nutzten zum Beispiel schon circa 69\% der erwachsenen Amerikaner im Jahr 2018 mindestens eine der wichtigsten Social Media Plattformen im Internet. Diese sammeln und speichern dabei verschiedene Arten von Daten, zum Beispiel über die Interaktion der Nutzer mit den Plattformen sowie über...
»