Die Menge weltweit vorgehaltener Daten steigt exponentiell an. Zentralisierte Ansätze interaktiver Datenexploration sind nicht länger plausibel. Verteilte Verarbeitungsmethoden, die die Ausnutzung der massiven Ressourcen von Rechnerverbünden erlauben, sind nötig.
Wir analysieren die Einsatzmöglichkeiten von MapReduce zur Exploration hierarchisch strukturierter wissenschaftlicher Daten. Anhand der Suche nach häufigen Teilbäumen als Beispielanwendung schlagen wir das Pipelined MapReduce Framework als Erweiterung von MapReduce vor, um effizientere Analysen zu ermöglichen.
Um Arbeitsabläufe anwenderfreundlich erstellen zu können, entwerfen wir die Programmiersprache TreeLatin. Eine optimierende Übersetzung von TreeLatin erzeugt automatisiert effiziente Ausführungspläne.
TopCluster, unser adaptiver Lastbalancierungsansatz, verteilt die anfallende Arbeitslast gleichmäßig im Cluster, um die Verarbeitungszeit zu reduzieren.
«
Die Menge weltweit vorgehaltener Daten steigt exponentiell an. Zentralisierte Ansätze interaktiver Datenexploration sind nicht länger plausibel. Verteilte Verarbeitungsmethoden, die die Ausnutzung der massiven Ressourcen von Rechnerverbünden erlauben, sind nötig.
Wir analysieren die Einsatzmöglichkeiten von MapReduce zur Exploration hierarchisch strukturierter wissenschaftlicher Daten. Anhand der Suche nach häufigen Teilbäumen als Beispielanwendung schlagen wir das Pipelined MapReduce Framework...
»