Neural Networks achieve improved performance on various applications. The compute complexity of these algorithms is reduced using pruning and quantization. We use execution estimates to obtain efficient compression configurations. We simplify the compression phase by proposing in-train optimization method. We further improve the adversarial robustness of compressed networks. This work proposes compression techniques, which improve the trade-off between accuracy, robustness and hardware metrics.
Translated abstract:
Neuronale Netze erzielen bei verschiedenen Anwendungen eine bessere Leistung. Die Komplexität dieser Algorithmen wird durch Pruning und Quantisierung reduziert. Wir verwenden Schätzungen zur Ausführung, um effiziente Kompressionskonfigurationen zu erhalten. Wir vereinfachen die Kompressionsphase, indem wir eine In-Train-Methode entwickeln. Wir verbessern die Robustheit der komprimierten Netze. Diese Arbeit verbessert den Kompromiss zwischen Genauigkeit, Robustheit und Hardwaremetriken.