Reinforcement Learning based Resource Management for HPC Systems

Saroliya, Urvij

School

Zurück
Zurück zum Anfang der Trefferliste
Dauerhafter Link zum angezeigten Objekt

Wenn Sie Schwierigkeiten haben, das Dokument zu öffnen, versuchen Sie auch bitte diesen Link

Dokumenttyp:: Masterarbeit
Autor(en):: Saroliya, Urvij
Titel:: Reinforcement Learning based Resource Management for HPC Systems
Übersetzter Titel:: Reinforcement Learning basierte Ressourcenmanagement für HPC-Systeme
Abstract:: In recent years there have been an exponential rise in the capabilities of the modern High Performance Computing (HPC) systems. Such trend poses new challenges for managing node-level resources such as compute cores, memory bandwidth, and shared cache. This has led to an increasing demand for effective resource management methodologies in HPC systems. As modern HPC systems are typically composed of fat and rich compute nodes, it is usually difficult to fully utilize all the in-node resources by a single application. Co-scheduling, i.e., co-locating multiple jobs in a space shared manner, offers a promising solution for improving overall system throughput. To this end, it is crucial to allocate the node resources to specific jobs based on their requirements. At the same time, during co-scheduling of multiple jobs, there is a further increase in the interference for the shared resources. Therefore, the significance of shared resource isolation increases during the allocation of resources to the co-located jobs. Furthermore, there have been a rise in heterogeneity of the node-level resources. GPU-based HPC systems are increasingly prevalent among top supercomputers. Hence, similar challenges are applicable to the GPU-based systems as well. Considering these trends, industry has started supporting several resource partitioning or isolation features designed for shared resources on both modern CPUs and GPUs. Driven by this technological trend, we focus on co-scheduling and resource partitioning on modern CPU-GPU HPC systems. Specifically, for CPUs, our target is to harmonize the co-run job selections and diverse resource assignments in a NUMA-aware manner. Regarding GPUs, we explore hierarchical resource partitioning on latest NVIDIA GPUs, employing both finer-grained logical partitioning (MPS) and coarse-grained physical partitioning (MIG). To optimize resource management decisions, we implement a reinforcement learning-based solution, addressing CPU and GPU optimizations separately. Experimental evaluations demonstrates that our approach can improve the overall system throughput by up to 78.1% and 87.3% for CPU and GPU, respectively. «
In recent years there have been an exponential rise in the capabilities of the modern High Performance Computing (HPC) systems. Such trend poses new challenges for managing node-level resources such as compute cores, memory bandwidth, and shared cache. This has led to an increasing demand for effective resource management methodologies in HPC systems. As modern HPC systems are typically composed of fat and rich compute nodes, it is usually difficult to fully utilize all the in-node resources by... »
übersetzter Abstract:: In den letzten Jahren ist die Leistungsfähigkeit moderner High Performance Computing (HPC)-Systeme exponentiell gestiegen. Dieser Trend stellt neue Herausforderungen für die Verwaltung von Ressourcen auf Knotenebene wie Rechenkernen, Speicherbandbreite und gemeinsam genutztem Cache dar. Dies hat zu einer steigenden Nachfrage nach effektiven Ressourcenmanagementmethoden in HPC-Systemen geführt. Da moderne HPC-Systeme typischerweise aus Fat- und Rich-Rechenknoten bestehen, ist es in der Regel schwierig, alle knoteninternen Ressourcen durch eine einzelne Anwendung vollständig zu nutzen. Co-Scheduling, d.h. die gemeinsame Anordnung mehrerer Jobs in einem gemeinsamen Raum, bietet eine vielversprechende Lösung zur Verbesserung des Gesamtsystemdurchsatzes. Zu diesem Zweck ist es entscheidend, die Knotenressourcen anhand ihrer Anforderungen bestimmten Jobs zuzuordnen. Gleichzeitig kommt es beim Co-Scheduling mehrerer Jobs zu einem weiteren Anstieg der Beeinträchtigung der gemeinsam genutzten Ressourcen. Daher wird es immer wichtiger, gemeinsam genutzte Ressourcen zu isolieren, wenn Ressourcen für gemeinsam ausgeführte Anwendungen zugewiesen werden. Darüber hinaus hat die Heterogenität der Ressourcen auf Knotenebene zugenommen. GPU-basierte HPC-Systeme sind bei Top-Supercomputern immer häufiger anzutreffen. Daher gelten ähnliche Herausforderungen auch für GPU-basierte Systeme. Angesichts dieser Trends hat die Industrie damit begonnen, verschiedene Funktionen zur Ressourcenpartitionierung oder -isolierung zu unterstützen, die für gemeinsame Ressourcen sowohl auf modernen CPUs als auch auf GPUs konzipiert sind. Angetrieben von diesem Technologietrend konzentrieren wir uns auf Co-Scheduling und Ressourcenpartitionierung auf modernen CPU-GPU-HPC-Systemen. Insbesondere für CPUs besteht unser Ziel darin, die Auswahl von Co-Run-Jobs und verschiedene Ressourcenzuweisungen auf NUMA-kompatible Weise zu harmonisieren. In Bezug auf GPUs untersuchen wir die hierarchische Ressourcenpartitionierung auf den neuesten NVIDIA-GPUs und verwenden dabei sowohl feinkörnigere logische Partitionierung (MPS) als auch grobkörnige physische Partitionierung (MIG). Um Entscheidungen zur Ressourcenverwaltung zu optimieren, implementieren wir eine auf Reinforcement Learning basierende Lösung, die CPU- und GPU-Optimierungen separat behandelt. Experimentelle Auswertungen zeigen, dass unser Ansatz den Gesamtsystemdurchsatz für CPU und GPU um bis zu 78,1 % bzw. 87,3 % verbessern kann. «
In den letzten Jahren ist die Leistungsfähigkeit moderner High Performance Computing (HPC)-Systeme exponentiell gestiegen. Dieser Trend stellt neue Herausforderungen für die Verwaltung von Ressourcen auf Knotenebene wie Rechenkernen, Speicherbandbreite und gemeinsam genutztem Cache dar. Dies hat zu einer steigenden Nachfrage nach effektiven Ressourcenmanagementmethoden in HPC-Systemen geführt. Da moderne HPC-Systeme typischerweise aus Fat- und Rich-Rechenknoten bestehen, ist es in der Regel schw... »
Stichworte:: NUMA Systems, GPUs, Co-Scheduling, Resource Management, Reinforcement Learning
Fachgebiet:: DAT Datenverarbeitung, Informatik
DDC:: 000 Informatik, Wissen, Systeme
Betreuer:: Arima, Eishi; Liu, Dai
Gutachter:: Schulz, Martin (Prof. Dr.)
Jahr:: 2023
Seiten/Umfang:: 89
Sprache:: en
Sprache der Übersetzung:: de
Hochschule / Universität:: Technische Universität München
Fakultät:: TUM School of Computation, Information and Technology
BibTeX

Vorkommen:

mediaTUM Gesamtbestand Elektronische Prüfungsarbeiten School TUM School of Computation, Information and Technology