User: Guest  Login
Original title:
Fault Tolerant Optimizations for High Performance Computing Systems 
Translated title:
Fehlertolerante Optimierungen für Höchstleistungsrechnensysteme 
Year:
2020 
Document type:
Dissertation 
Institution:
Fakultät für Informatik 
Advisor:
Bode, Arndt (Prof. Dr. Dr. h.c.) 
Referee:
Bode, Arndt (Prof. Dr. Dr. h.c.); Kranzlmüller, Dieter (Prof. Dr.) 
Language:
en 
Subject group:
DAT Datenverarbeitung, Informatik 
TUM classification:
DAT 200d 
Abstract:
In this dissertation, we present a comprehensive survey on the state-of-the-practice failure prediction methods for HPC systems. We further introduce the concept of data migration as a promising way of achieving proactive fault tolerance in HPC systems. We present a lightweight application library – called LAIK – to assist application programmers in making their applications fault tolerant. Moreover, we propose an extension – called MPI sessions and MPI process sets – to the state-of-the-art pro...    »
 
Translated abstract:
In dieser Dissertation wird ein umfassender Überblick über den Stand der Technik zur Fehlervorhersage für HLRS präsentiert. Darüber hinaus stellen wir das Konzept der Datenmigration als vielversprechenden Weg zur proaktiven Fehlertoleranz in HLRS vor. Wir führen eine leichtgewichtige Anwendungsbibliothek – LAIK – ein, die den Anwendungsprogrammierer dabei unterstützt, seine Anwendungen fehlertolerant zu machen. Außerdem schlagen wir eine Erweiterung – genannt MPI sessions und MPI process sets –...    »
 
Oral examination:
17.02.2020 
File size:
4253562 bytes 
Pages:
243 
Last change:
26.02.2020