In den letzten Jahren hat die Analyse großer Datenmengen zunehmend an Bedeutung gewonnen und es wurden zahlreiche Werkzeuge zur Unterstützung von Data Scientists entwickelt. Moderne Datenbankmanagementsysteme (DBMS) sind zwar immer effizienter geworden, aber es fehlt ihnen an Integration. Die Python-Bibliothek pandas ist eine der beliebtesten Softwarelösungen für das Arbeiten mit Daten und bietet hervorragende Interoperabilität und Komfort.
Ein wesentlicher Nachteil von pandas ist jedoch die Performance. pandas bietet keine gute Performance bei großen Datensätzen und komplexen Anfragen, da es in Python implementiert ist und häufig Zwischenkopien der Daten anfertigt.
Wir schlagen mlir_pandas vor, einen Ansatz für einen transparenten Drop-in-Ersatz für pandas, der die pandas-Operationen nach MLIR, eine Intermediate Representation, übersetzt, welche dann an LingoDB, ein kompilierendes DBMS, das auf
auf MLIR basiert, weitergegeben wird.
In der Performance-Evaluation unseres implementierten Prototyps für mlir_pandas können wir eine durchschnittliche Beschleunigung um den Faktor 10 im Vergleich zu Pandas und einen erheblich reduzierten maximalen Speicherverbrauch nachweisen.
«
In den letzten Jahren hat die Analyse großer Datenmengen zunehmend an Bedeutung gewonnen und es wurden zahlreiche Werkzeuge zur Unterstützung von Data Scientists entwickelt. Moderne Datenbankmanagementsysteme (DBMS) sind zwar immer effizienter geworden, aber es fehlt ihnen an Integration. Die Python-Bibliothek pandas ist eine der beliebtesten Softwarelösungen für das Arbeiten mit Daten und bietet hervorragende Interoperabilität und Komfort.
Ein wesentlicher Nachteil von pandas ist jedoch die Pe...
»