This thesis presents concepts for systemwide monitoring and performance analysis of HPC systems, which are aimed at a preliminary detection of inefficient applications. On-line analyses without instrumentation of user codes are performed with codified expert knowledge designed to reveal bottlenecks in running applications. Novel optimizations to collect data and data reduction techniques ensure an efficient and scalable monitoring of HPC architectures. Detailed results are provided for a petaflop system.
«
This thesis presents concepts for systemwide monitoring and performance analysis of HPC systems, which are aimed at a preliminary detection of inefficient applications. On-line analyses without instrumentation of user codes are performed with codified expert knowledge designed to reveal bottlenecks in running applications. Novel optimizations to collect data and data reduction techniques ensure an efficient and scalable monitoring of HPC architectures. Detailed results are provided for a petaflo...
»
Übersetzte Kurzfassung:
In der vorliegenden Arbeit wurden Konzepte für systemweites Monitoring mit integrierter Leistung-Analyse für HPC Systeme realisiert, um ineffizient ausgeführte Applikationen zu detektieren. Die Online-Analysen erfolgen mit wissensbasierten Methoden ohne dabei die Anwendercodes zu instrumentieren um so Engpässe in der ausgeführten Anwendugen aufzudecken. Neuartige Optimierungen zum Sammeln und Reduzieren von Daten sorgen für eine effiziente und skalierbare Überwachung der HPC Systeme. In der Arbeit werden detaillierte Ergebnisse für ein Petaflop-System präsentiert.
«
In der vorliegenden Arbeit wurden Konzepte für systemweites Monitoring mit integrierter Leistung-Analyse für HPC Systeme realisiert, um ineffizient ausgeführte Applikationen zu detektieren. Die Online-Analysen erfolgen mit wissensbasierten Methoden ohne dabei die Anwendercodes zu instrumentieren um so Engpässe in der ausgeführten Anwendugen aufzudecken. Neuartige Optimierungen zum Sammeln und Reduzieren von Daten sorgen für eine effiziente und skalierbare Überwachung der HPC Systeme. In der Arbe...
»