Query Processing on Data Streams

Stegmaier, Bernhard

Bernhard Stegmaier

Wenn Sie Schwierigkeiten haben, das Dokument zu öffnen, versuchen Sie auch bitte diesen Link

Originaltitel:: Query Processing on Data Streams
Übersetzter Titel:: Anfragebearbeitung auf Datenströmen
Autor:: Stegmaier, Bernhard
Jahr:: 2006
Dokumenttyp:: Dissertation
Fakultät/School:: Fakultät für Informatik
Betreuer:: Kemper, Alfons (Prof. Ph.D.)
Gutachter:: Kemper, Alfons (Prof. Ph.D.); Koch, Christoph (Prof. Dr.)
Format:: Text
Sprache:: en
Fachgebiet:: DAT Datenverarbeitung, Informatik
Stichworte:: StreamGlobe; Data Streams; Distributed Stream Processing; XML Streams; XQuery; FluX; BestMatch Join; Stream Matching
Übersetzte Stichworte:: StreamGlobe; Datenströme; Verteilte Datenstromverarbeitung; XML Datenströme; XQuery; FluX; BestMatch Join; Datenstrom Matching
Schlagworte (SWD):: Verteiltes System; Datenstrom; XML; XQuery
TU-Systematik:: DAT 652d; DAT 450d; DAT 655d
Kurzfassung:: Data stream processing is currently gaining importance due to the rapid increase in data volumes and developments in novel application areas like e-science, e-health, and e-business. In this thesis, we propose an architecture for a data stream management system and investigate methods for query processing on data streams in such systems. In contrast to traditional database management systems (DBMSs), queries on data streams constitute continuous subscriptions for retrieving interesting data rather than one-time ad-hoc queries. To meet the challenges of the new "streaming" paradigm, we propose StreamGlobe as a distributed data stream management system for efficiently querying and processing XML data streams in the spirit of a traditional DBMS. Beyond processing XQuery subscriptions, StreamGlobe in particular addresses the problem of efficiently distributing data streams in Peer-to-Peer networks by means of data stream sharing to avoid network and peer congestion. For the evaluation of XQuery subscriptions, StreamGlobe employs our novel streaming XQuery processor, FluX. FluX represents an extension of the XQuery language supporting event-based query processing and the conscious handling of main memory buffers to achieve a scalable execution of queries on data streams. XQueries are rewritten into the event-based FluX language by exploiting order constraints from the schema of a data stream to schedule event processors and to thus minimize the amount of buffering required for evaluating a query. Performance experiments prove the effectiveness of our approach. StreamGlobe further allows the use of user-defined operators for enabling expressive query processing. We discuss the implementation of such operators using our novel class of best-match join operators as an example. These operators address the problem of finding best matching pairs of data objects in multi-dimensional spaces. Considering multiple dimensions leads to a partial order on the pairs of objects. Since partial orders naturally have more than one minimum, traditional approaches aiming at determining a single "best" pair most likely fail to produce satisfying results. In contrast, our best-match join computes the best matching pairs having a maximum similarity on each individual dimension. We assess the effectiveness of this approach by means of performance experiments. «
Data stream processing is currently gaining importance due to the rapid increase in data volumes and developments in novel application areas like e-science, e-health, and e-business. In this thesis, we propose an architecture for a data stream management system and investigate methods for query processing on data streams in such systems. In contrast to traditional database management systems (DBMSs), queries on data streams constitute continuous subscriptions for retrieving interesting data rath... »
Übersetzte Kurzfassung:: Die Verarbeitung von Datenströmen gewinnt auf Grund des rasanten Wachstums verfügbarer Datenmengen und der Entwicklungen in neuen Anwendungsgebieten wie e-Science und e-Business zunehmend an Bedeutung. Dies erfordert neuartige Architekturen und Verfahren zur Verarbeitung von Datenströmen. Anfragen auf Datenströmen stellen kontinuierlich auszuwertende Subskriptionen dar. In dieser Arbeit wird StreamGlobe als verteiltes Datenstrom-Management-System zur effizienten Auswertung einer Vielzahl von Subskriptionen auf XML-Datenströmen vorgestellt. Neben der Beantwortung von XQuery-Subskriptionen behandelt StreamGlobe insbesondere das Problem der ökonomischen Übermittlung von Datenströmen in Peer-to-Peer Netzwerken durch die neue Technik des Data Stream Sharing. Zur Auswertung von XQuery-Subskriptionen kommt der neu entwickelte Anfrageprozessor "FluX" für XML-Datenströme zum Einsatz. FluX ist eine Erweiterung von XQuery, welche die ereignisgesteuerte Anfragebearbeitung ermöglicht. Ein Scheduling-Algorithmus schreibt XQuery-Anfragen unter Ausnutzung von Reihenfolgeinformationen, die aus dem Schema eines Datenstroms gewonnen werden, automatisch so in die Sprache FluX um, dass der zur Auswertung nötige Speicherverbrauch minimiert wird. Darüberhinaus ermöglicht StreamGlobe die Einbindung benutzerdefinierter Anfrageoperatoren für Datenströme. Ihre Implementierung wird am Beispiel der neuen Klasse von Best-Match Join Operatoren vorgestellt, welche auf die Bestimmung von besten Paarungen von Datenobjekten in mehrdimensionalen Räumen abzielen. Im Gegensatz zu traditionellen Ansätzen, welche oftmals die Bestimmung eines einzelnen besten Paares verfolgen, berechnen die Best-Match Join Operatoren diejenigen Paare, welche auf jeder Dimension eine maximale Ähnlichkeit besitzen. «
Die Verarbeitung von Datenströmen gewinnt auf Grund des rasanten Wachstums verfügbarer Datenmengen und der Entwicklungen in neuen Anwendungsgebieten wie e-Science und e-Business zunehmend an Bedeutung. Dies erfordert neuartige Architekturen und Verfahren zur Verarbeitung von Datenströmen. Anfragen auf Datenströmen stellen kontinuierlich auszuwertende Subskriptionen dar. In dieser Arbeit wird StreamGlobe als verteiltes Datenstrom-Management-System zur effizienten Auswertung einer Vielzahl von Sub... »
Veröffentlichung:: Universitätsbibliothek der Technischen Universität München
WWW:: https://mediatum.ub.tum.de/?id=601811
Eingereicht am:: 16.11.2005
Mündliche Prüfung:: 17.07.2006
Dateigröße:: 2136697 bytes
Seiten:: 210
Urn (Zitierfähige URL):: https://nbn-resolving.org/urn:nbn:de:bvb:91-diss20061008-1935452970
Letzte Änderung:: 10.07.2007
BibTeX

Vorkommen:

mediaTUM Gesamtbestand Elektronische Prüfungsarbeiten Fachgebiet Datenverarbeitung, Informatik

mediaTUM Gesamtbestand Elektronische Prüfungsarbeiten Fachgebiet

mediaTUM Gesamtbestand Elektronische Prüfungsarbeiten School TUM School of Computation, Information and Technology

mediaTUM Gesamtbestand Einrichtungen Schools TUM School of Computation, Information and Technology Prüfungsarbeiten Dissertationen