User: Guest  Login
Original title:
Leveraging Dynamic Resource Management for Power Management and Fault Tolerance in High Performance Computing
Translated title:
Nutzung des dynamischen Ressourcenmanagements für Energiemanagement und Fehlertoleranz im Hochleistungsrechnen
Author:
John, Jophin
Year:
2024
Document type:
Dissertation
Faculty/School:
TUM School of Computation, Information and Technology
Institution:
Informatik 10 - Professur für Architektur paralleler und verteilter Systeme - (Prof. Gerndt)
Advisor:
Gerndt, Hans Michael (Prof. Dr.)
Referee:
Gerndt, Hans Michael (Prof. Dr.); Bader, Michael Georg (Prof. Dr.)
Language:
en
Subject group:
DAT Datenverarbeitung, Informatik
TUM classification:
DAT 250; DAT 516
Abstract:
Innovative solutions are needed to overcome scalability, power management, and fault tolerance challenges in High-Performance Computing (HPC). Dynamic resource management offers one such solution, and this work leverages it to create an adaptive batch scheduler, a power-aware scheduler, and an adaptive checkpointing system for HPC. These techniques improve system utilisation, optimise power consumption, and enhance fault tolerance.
Translated abstract:
Es werden innovative Lösungen benötigt, um die Herausforderungen der Skalierbarkeit, Energieverwaltung und Fehlertoleranz im High-Performance Computing zu bewältigen. Die dynamische Ressourcenverwaltung bietet eine solche Lösung, und diese Arbeit nutzt sie, um einen adaptiven Batch-Scheduler, einen energiebewussten Scheduler und ein adaptives Checkpointing-System für HPC zu entwickeln. Diese Techniken verbessern die Systemauslastung, optimieren den Stromverbrauch und erhöhen die Fehlertoleranz.
WWW:
https://mediatum.ub.tum.de/?id=1739065
Date of submission:
16.04.2024
Oral examination:
24.10.2024
File size:
12059190 bytes
Pages:
176
Urn (citeable URL):
https://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:91-diss-20241024-1739065-1-1
Last change:
14.11.2024
 BibTeX