Kemper, Alfons (Prof., Ph.D.); Gamper, Johann (Prof. Dr.)
Sprache:
en
Fachgebiet:
DAT Datenverarbeitung, Informatik
Schlagworte (SWD):
Datenanalyse; Verteiltes System; Lastteilung
TU-Systematik:
DAT 653d; DAT 259d; DAT 516d
Kurzfassung:
The volume of scientific data sets grows at exponential rates. Centralised analysis is no longer able to accommodate interactive data exploration. Distributed processing is the new method of choice, as it allows to exploit the massive amount of resources available in compute clusters.
We analyse the applicability of MapReduce style processing to scientific data exploration on tree structured data. Using frequent subtree mining as a sample application, we propose the Pipelined MapReduce framework which extends standard MapReduce in order to better support scientific data analysis.
We design TreeLatin, a scripting language which allows to define workflows in a user friendly manner and which permits to apply optimisations while compiling the scripts to MapReduce workflows.
We propse TopCluster, an adaptive load balancing approach which balances the workload over the nodes of a MapReduce cluster in order to reduce the processing time.
«
The volume of scientific data sets grows at exponential rates. Centralised analysis is no longer able to accommodate interactive data exploration. Distributed processing is the new method of choice, as it allows to exploit the massive amount of resources available in compute clusters.
We analyse the applicability of MapReduce style processing to scientific data exploration on tree structured data. Using frequent subtree mining as a sample application, we propose the Pipelined MapReduce framewor...
»
Übersetzte Kurzfassung:
Die Menge weltweit vorgehaltener Daten steigt exponentiell an. Zentralisierte Ansätze interaktiver Datenexploration sind nicht länger plausibel. Verteilte Verarbeitungsmethoden, die die Ausnutzung der massiven Ressourcen von Rechnerverbünden erlauben, sind nötig.
Wir analysieren die Einsatzmöglichkeiten von MapReduce zur Exploration hierarchisch strukturierter wissenschaftlicher Daten. Anhand der Suche nach häufigen Teilbäumen als Beispielanwendung schlagen wir das Pipelined MapReduce Framework als Erweiterung von MapReduce vor, um effizientere Analysen zu ermöglichen.
Um Arbeitsabläufe anwenderfreundlich erstellen zu können, entwerfen wir die Programmiersprache TreeLatin. Eine optimierende Übersetzung von TreeLatin erzeugt automatisiert effiziente Ausführungspläne.
TopCluster, unser adaptiver Lastbalancierungsansatz, verteilt die anfallende Arbeitslast gleichmäßig im Cluster, um die Verarbeitungszeit zu reduzieren.
«
Die Menge weltweit vorgehaltener Daten steigt exponentiell an. Zentralisierte Ansätze interaktiver Datenexploration sind nicht länger plausibel. Verteilte Verarbeitungsmethoden, die die Ausnutzung der massiven Ressourcen von Rechnerverbünden erlauben, sind nötig.
Wir analysieren die Einsatzmöglichkeiten von MapReduce zur Exploration hierarchisch strukturierter wissenschaftlicher Daten. Anhand der Suche nach häufigen Teilbäumen als Beispielanwendung schlagen wir das Pipelined MapReduce Framework...
»