TUM School of Computation, Information and Technology
Institution:
Informatik 10 - Professur für Architektur paralleler und verteilter Systeme - (Prof. Gerndt)
Betreuer:
Gerndt, Hans Michael (Prof. Dr.)
Gutachter:
Gerndt, Hans Michael (Prof. Dr.); Bader, Michael Georg (Prof. Dr.)
Sprache:
en
Fachgebiet:
DAT Datenverarbeitung, Informatik
TU-Systematik:
DAT 250; DAT 516
Kurzfassung:
Innovative solutions are needed to overcome scalability, power management, and fault tolerance challenges in High-Performance Computing (HPC). Dynamic resource management offers one such solution, and this work leverages it to create an adaptive batch scheduler, a power-aware scheduler, and an adaptive checkpointing system for HPC. These techniques improve system utilisation, optimise power consumption, and enhance fault tolerance.
Übersetzte Kurzfassung:
Es werden innovative Lösungen benötigt, um die Herausforderungen der Skalierbarkeit, Energieverwaltung und Fehlertoleranz im High-Performance Computing zu bewältigen. Die dynamische Ressourcenverwaltung bietet eine solche Lösung, und diese Arbeit nutzt sie, um einen adaptiven Batch-Scheduler, einen energiebewussten Scheduler und ein adaptives Checkpointing-System für HPC zu entwickeln. Diese Techniken verbessern die Systemauslastung, optimieren den Stromverbrauch und erhöhen die Fehlertoleranz.