Future exascale computers will offer unprecedented performance gains, but their increased complexity introduces new obstacles. System faults will likely affect parallel simulations on a regular basis, so applications should be able to react accordingly. In this thesis, we show how to make a solver for high-dimensional PDEs aware of different types of faults, using primarily the properties of the algorithm. We argue that this numerics-based approach to fault tolerance will be key at exascale.
Translated abstract:
Mittels Exascale Computer wird es zukünftig möglich sein, Effizienzsteigerungen in bislang unbekanntem Ausmaß zu erlangen. Jedoch erzeugt die dadurch wachsende Systemkomplexität auch neue Hindernisse. Die Häufigkeit von Systemfehlern wird die Durchführung paralleler Simulationen beinträchtigen. In dieser Arbeit präsentieren wir einen gegen verschiedene Fehlertypen resistenten Löser für hochdimensionale PDEs. Hierfür verwenden wir vorwiegend die Eigenschaften des Algorithmus. Wir argumentieren, dass numerisch basierte Fehlertoleranz eine entscheidende Rolle für den Exascale darstellen wird.
«
Mittels Exascale Computer wird es zukünftig möglich sein, Effizienzsteigerungen in bislang unbekanntem Ausmaß zu erlangen. Jedoch erzeugt die dadurch wachsende Systemkomplexität auch neue Hindernisse. Die Häufigkeit von Systemfehlern wird die Durchführung paralleler Simulationen beinträchtigen. In dieser Arbeit präsentieren wir einen gegen verschiedene Fehlertypen resistenten Löser für hochdimensionale PDEs. Hierfür verwenden wir vorwiegend die Eigenschaften des Algorithmus. Wir argumentieren, d...
»