Machine Learning relies on large sets of training data, but there are several threats to the correctness and integrity of such data: These range from mere labeling mistakes to adversarial attacks. We examine what influences compromise the integrity and correctness of ML datasets, and how this can be counteracted. In this thesis, we structure such threats and present appropriate mitigation strategies.
Übersetzte Kurzfassung:
Maschinelles Lernen beruht auf großen Mengen von Trainingsdaten, aber es gibt verschiedene Bedrohungen für die Korrektheit und Integrität dieser Daten: Diese reichen von einfachen Beschriftungsfehlern bis hin zu feindlichen Angriffen. Wir untersuchen, welche Einflüsse die Integrität und Korrektheit von ML-Datensätzen gefährden, und wie dem entgegengewirkt werden kann. In dieser Arbeit strukturieren wir solche Bedrohungen und stellen geeignete Abwehrstrategien vor.