TUM School of Computation, Information and Technology
Institution:
Informatik 10 - Professur für Architektur paralleler und verteilter Systeme - (Prof. Gerndt)
Advisor:
Gerndt, Hans Michael (Prof. Dr.)
Referee:
Gerndt, Hans Michael (Prof. Dr.); Bader, Michael Georg (Prof. Dr.)
Language:
en
Subject group:
DAT Datenverarbeitung, Informatik
TUM classification:
DAT 250; DAT 516
Abstract:
Innovative solutions are needed to overcome scalability, power management, and fault tolerance challenges in High-Performance Computing (HPC). Dynamic resource management offers one such solution, and this work leverages it to create an adaptive batch scheduler, a power-aware scheduler, and an adaptive checkpointing system for HPC. These techniques improve system utilisation, optimise power consumption, and enhance fault tolerance.
Translated abstract:
Es werden innovative Lösungen benötigt, um die Herausforderungen der Skalierbarkeit, Energieverwaltung und Fehlertoleranz im High-Performance Computing zu bewältigen. Die dynamische Ressourcenverwaltung bietet eine solche Lösung, und diese Arbeit nutzt sie, um einen adaptiven Batch-Scheduler, einen energiebewussten Scheduler und ein adaptives Checkpointing-System für HPC zu entwickeln. Diese Techniken verbessern die Systemauslastung, optimieren den Stromverbrauch und erhöhen die Fehlertoleranz.