Load-Balanced Massively Parallel Distributed Data Exploration

Gufler, Benjamin

Datenverarbeitung, Informatik

Zurück
Zurück zum Anfang der Trefferliste
Dauerhafter Link zum angezeigten Objekt

Wenn Sie Schwierigkeiten haben, das Dokument zu öffnen, versuchen Sie auch bitte diesen Link

Originaltitel:: Load-Balanced Massively Parallel Distributed Data Exploration
Übersetzter Titel:: Lastbalancierte Massiv Parallele Verteilte Datenexploration
Autor:: Gufler, Benjamin
Jahr:: 2013
Dokumenttyp:: Dissertation
Fakultät/School:: Fakultät für Informatik
Betreuer:: Kemper, Alfons (Prof., Ph.D.)
Gutachter:: Kemper, Alfons (Prof., Ph.D.); Gamper, Johann (Prof. Dr.)
Sprache:: en
Fachgebiet:: DAT Datenverarbeitung, Informatik
Schlagworte (SWD):: Datenanalyse; Verteiltes System; Lastteilung
TU-Systematik:: DAT 653d; DAT 259d; DAT 516d
Kurzfassung:: The volume of scientific data sets grows at exponential rates. Centralised analysis is no longer able to accommodate interactive data exploration. Distributed processing is the new method of choice, as it allows to exploit the massive amount of resources available in compute clusters. We analyse the applicability of MapReduce style processing to scientific data exploration on tree structured data. Using frequent subtree mining as a sample application, we propose the Pipelined MapReduce framework which extends standard MapReduce in order to better support scientific data analysis. We design TreeLatin, a scripting language which allows to define workflows in a user friendly manner and which permits to apply optimisations while compiling the scripts to MapReduce workflows. We propse TopCluster, an adaptive load balancing approach which balances the workload over the nodes of a MapReduce cluster in order to reduce the processing time. «
The volume of scientific data sets grows at exponential rates. Centralised analysis is no longer able to accommodate interactive data exploration. Distributed processing is the new method of choice, as it allows to exploit the massive amount of resources available in compute clusters. We analyse the applicability of MapReduce style processing to scientific data exploration on tree structured data. Using frequent subtree mining as a sample application, we propose the Pipelined MapReduce framewor... »
Übersetzte Kurzfassung:: Die Menge weltweit vorgehaltener Daten steigt exponentiell an. Zentralisierte Ansätze interaktiver Datenexploration sind nicht länger plausibel. Verteilte Verarbeitungsmethoden, die die Ausnutzung der massiven Ressourcen von Rechnerverbünden erlauben, sind nötig. Wir analysieren die Einsatzmöglichkeiten von MapReduce zur Exploration hierarchisch strukturierter wissenschaftlicher Daten. Anhand der Suche nach häufigen Teilbäumen als Beispielanwendung schlagen wir das Pipelined MapReduce Framework als Erweiterung von MapReduce vor, um effizientere Analysen zu ermöglichen. Um Arbeitsabläufe anwenderfreundlich erstellen zu können, entwerfen wir die Programmiersprache TreeLatin. Eine optimierende Übersetzung von TreeLatin erzeugt automatisiert effiziente Ausführungspläne. TopCluster, unser adaptiver Lastbalancierungsansatz, verteilt die anfallende Arbeitslast gleichmäßig im Cluster, um die Verarbeitungszeit zu reduzieren. «
Die Menge weltweit vorgehaltener Daten steigt exponentiell an. Zentralisierte Ansätze interaktiver Datenexploration sind nicht länger plausibel. Verteilte Verarbeitungsmethoden, die die Ausnutzung der massiven Ressourcen von Rechnerverbünden erlauben, sind nötig. Wir analysieren die Einsatzmöglichkeiten von MapReduce zur Exploration hierarchisch strukturierter wissenschaftlicher Daten. Anhand der Suche nach häufigen Teilbäumen als Beispielanwendung schlagen wir das Pipelined MapReduce Framework... »
WWW:: https://mediatum.ub.tum.de/?id=1115454
Eingereicht am:: 27.09.2012
Mündliche Prüfung:: 26.02.2013
Dateigröße:: 953371 bytes
Seiten:: 169
Urn (Zitierfähige URL):: https://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:91-diss-20130226-1115454-0-5
Letzte Änderung:: 27.11.2013
BibTeX

Vorkommen:

mediaTUM Gesamtbestand Elektronische Prüfungsarbeiten Fachgebiet Datenverarbeitung, Informatik

mediaTUM Gesamtbestand Elektronische Prüfungsarbeiten School TUM School of Computation, Information and Technology

mediaTUM Gesamtbestand Einrichtungen Schools TUM School of Computation, Information and Technology Prüfungsarbeiten Dissertationen