Benutzer: Gast  Login
Originaltitel:
Leveraging Dynamic Resource Management for Power Management and Fault Tolerance in High Performance Computing
Übersetzter Titel:
Nutzung des dynamischen Ressourcenmanagements für Energiemanagement und Fehlertoleranz im Hochleistungsrechnen
Autor:
John, Jophin
Jahr:
2024
Dokumenttyp:
Dissertation
Fakultät/School:
TUM School of Computation, Information and Technology
Institution:
Informatik 10 - Professur für Architektur paralleler und verteilter Systeme - (Prof. Gerndt)
Betreuer:
Gerndt, Hans Michael (Prof. Dr.)
Gutachter:
Gerndt, Hans Michael (Prof. Dr.); Bader, Michael Georg (Prof. Dr.)
Sprache:
en
Fachgebiet:
DAT Datenverarbeitung, Informatik
TU-Systematik:
DAT 250; DAT 516
Kurzfassung:
Innovative solutions are needed to overcome scalability, power management, and fault tolerance challenges in High-Performance Computing (HPC). Dynamic resource management offers one such solution, and this work leverages it to create an adaptive batch scheduler, a power-aware scheduler, and an adaptive checkpointing system for HPC. These techniques improve system utilisation, optimise power consumption, and enhance fault tolerance.
Übersetzte Kurzfassung:
Es werden innovative Lösungen benötigt, um die Herausforderungen der Skalierbarkeit, Energieverwaltung und Fehlertoleranz im High-Performance Computing zu bewältigen. Die dynamische Ressourcenverwaltung bietet eine solche Lösung, und diese Arbeit nutzt sie, um einen adaptiven Batch-Scheduler, einen energiebewussten Scheduler und ein adaptives Checkpointing-System für HPC zu entwickeln. Diese Techniken verbessern die Systemauslastung, optimieren den Stromverbrauch und erhöhen die Fehlertoleranz.
WWW:
https://mediatum.ub.tum.de/?id=1739065
Eingereicht am:
16.04.2024
Mündliche Prüfung:
24.10.2024
Dateigröße:
12059190 bytes
Seiten:
176
Urn (Zitierfähige URL):
https://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:91-diss-20241024-1739065-1-1
Letzte Änderung:
14.11.2024
 BibTeX