User: Guest  Login
Original title:
Fault Tolerant Optimizations for High Performance Computing Systems
Translated title:
Fehlertolerante Optimierungen für Höchstleistungsrechnensysteme
Author:
Yang, Dai
Year:
2020
Document type:
Dissertation
Faculty/School:
Fakultät für Informatik
Advisor:
Bode, Arndt (Prof. Dr. Dr. h.c.)
Referee:
Bode, Arndt (Prof. Dr. Dr. h.c.); Kranzlmüller, Dieter (Prof. Dr.)
Language:
en
Subject group:
DAT Datenverarbeitung, Informatik
TUM classification:
DAT 200d
Abstract:
In this dissertation, we present a comprehensive survey on the state-of-the-practice failure prediction methods for HPC systems. We further introduce the concept of data migration as a promising way of achieving proactive fault tolerance in HPC systems. We present a lightweight application library – called LAIK – to assist application programmers in making their applications fault tolerant. Moreover, we propose an extension – called MPI sessions and MPI process sets – to the state-of-the-art pro...     »
Translated abstract:
In dieser Dissertation wird ein umfassender Überblick über den Stand der Technik zur Fehlervorhersage für HLRS präsentiert. Darüber hinaus stellen wir das Konzept der Datenmigration als vielversprechenden Weg zur proaktiven Fehlertoleranz in HLRS vor. Wir führen eine leichtgewichtige Anwendungsbibliothek – LAIK – ein, die den Anwendungsprogrammierer dabei unterstützt, seine Anwendungen fehlertolerant zu machen. Außerdem schlagen wir eine Erweiterung – genannt MPI sessions und MPI process sets –...     »
WWW:
https://mediatum.ub.tum.de/?id=1518787
Date of submission:
16.09.2019
Oral examination:
17.02.2020
File size:
4253562 bytes
Pages:
243
Urn (citeable URL):
https://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:91-diss-20200217-1518787-1-7
Last change:
26.02.2020
 BibTeX