Monte Carlo Averaging for Uncertainty Estimation in Neural Networks

Njieutcheu Tassi, Cedrique Rovile

Cedrique Rovile Njieutcheu Tassi

Wenn Sie Schwierigkeiten haben, das Dokument zu öffnen, versuchen Sie auch bitte diesen Link

Originaltitel:: Monte Carlo Averaging for Uncertainty Estimation in Neural Networks
Übersetzter Titel:: Monte-Carlo-Mittelung zur Unsicherheitsschätzung in neuronalen Netzen
Autor:: Njieutcheu Tassi, Cedrique Rovile
Jahr:: 2024
Dokumenttyp:: Dissertation
Fakultät/School:: TUM School of Computation, Information and Technology
Betreuer:: Triebel, Rudolph (Prof. Dr.)
Gutachter:: Triebel, Rudolph (Prof. Dr.); Leutenegger, Stefan (Prof. Dr.); Gallego Guillermo (Prof. Dr.)
Sprache:: en
Fachgebiet:: DAT Datenverarbeitung, Informatik
Stichworte:: Machine learning ; Deep learning ; Classification ; Convolutional neural network ; Ensemble ; Bayesian neural network ; Monte Carlo dropout ; Mixture of Monte Carlo dropout ; Confidence calibration ; Uncertainty quantification ; Uncertainty estimation ; Separating true predictions and false predictions ; Regularization strength ; Logit averaging
TU-Systematik:: DAT 760; DAT 770
Kurzfassung:: Although neural networks have been used for pattern classification for decades, convolutional neural networks (CNNs) have become increasingly important over the past several years. In particular, CNNs are utilized in automated scenarios for traffic sign recognition and disease classification. However, they still suffer from overfitting and lack of robustness to undesired inputs. Hence, they can generate overconfident false predictions (FPs), which can be dangerous and costly, especially when used in safety- and/or mission-critical applications. Here, overconfident FPs can (1) cause collisions in robotic applications, (2) prompt false treatments in medical applications, or (3) increase costs in financial applications. These significant consequences limit the use of CNNs in the aforementioned fields even though their technological potential is of great interest. To overcome these limitations and encourage the widespread use of CNNs in safety-and/or mission-critical applications, we aim to prevent FPs by improving the separability between true predictions (TPs) and FPs. To achieve this, we will force the degree of confidence (measuring uncertainty) to be high for TPs and low for FPs. This is based on the hypothesis that if the confidence is high for TPs and low for FPs, both TPs and FPs will be well-separated using a threshold. Therefore, the research questions are as follows: (1) Which method forces the degree of confidence to be high for TPs and low for FPs? (2) Under what circumstances does the method work? (3) At what cost does the method help to maintain a low confidence for FPs and a high confidence for TPs? To address the first question, we develop a method called Monte Carlo averaging (MCA) and compare it to related methods, such as baseline (single CNN), Monte Carlo dropout (MCD), ensemble of CNNs, and mixture of Monte Carlo dropout (MMCD). To answer the second question, we gauge the performance of the developed and related methods on four datasets with different difficulties. In addition, we gauge the performance of the developed and related methods on different CNNs to assess their performance on different architectures. Further, we investigate the impact of applying logit instead of probability averaging on the developed and related methods, as well as the impact of reducing the strength of regularization during training. To address the third question, we evaluate the ability of the developed and related methods to separate TPs and FPs and examine the classification accuracy, calibration error, and inference time. Experimental results show improvements in the developed MCA and the state-of-the-art MMCD compared to the other related methods (baseline, MCD, and ensemble of CNNs). Specifically, similar to MMCD, the developed MCA can preserve the accuracy of the underlying ensemble, which may increase the baseline accuracy. The baseline accuracy could only be preserved by MCD. Both MMCD and MCA improve the separability of TPs and FPs at the cost of increasing the calibration error and inference time. However, applying logit instead of probability averaging in MCA and related methods or reducing the strength of regularization decreases the calibration error at the cost of negatively impacting the separability of TPs and FPs. Hence, there is a tradeoff between improving the calibration and improving the separability of TPs and FPs. Although the performance of all methods heavily relies on the dataset and/or architecture, MCD and MMCD are more sensitive to the dataset and/or architecture. Overall, we developed MCA to force the degree of confidence to be high for TPs and low for FPs in order to improve the separability of TPs and FPs. Compared to the state-of-the-art MMCD, the developed MCA is more than four times faster, has the same purpose and underlying principle, and shows similar or sometimes better performance. Therefore, we suggest utilizing MCA instead of MMCD for applications that require separability of TPs and FPs and where the computational budget is limited. MCA may also be advantageous for other fields of machine learning, such as active or reinforcement learning, where uncertainty is required. Moreover, MCA is preferable in the field of explainable artificial intelligence, which explores the role of uncertainty to explain predictions and increase the social acceptance of CNN-based decision-making systems. Finally, MCA opens new perspectives to fuse features of ensemble members. «
Although neural networks have been used for pattern classification for decades, convolutional neural networks (CNNs) have become increasingly important over the past several years. In particular, CNNs are utilized in automated scenarios for traffic sign recognition and disease classification. However, they still suffer from overfitting and lack of robustness to undesired inputs. Hence, they can generate overconfident false predictions (FPs), which can be dangerous and costly, especially when use... »
Übersetzte Kurzfassung:: Obwohl neuronale Netze seit Jahrzehnten zur Musterklassifikation verwendet werden, hat CNNs in den letzten Jahren immer mehr an Bedeutung gewonnen. Insbesondere werden CNNs in automatisierten Szenarien zur Verkehrszeichenerkennung und Krankheitsklassifizierung eingesetzt. Sie leiden jedoch immer noch unter Overfitting und mangelnder Robustheit gegenüber unerwünschten Eingaben. Daher können sie overconfident FPs erzeugen, was gefährlich und kostspielig sein kann, insbesondere wenn sie in sicherheits- und/oder missionskritischen Anwendungen eingesetzt werden. Hier kann overconfident FPs (1) Kollisionen in Roboteranwendungen verursachen, (2) falsche Behandlungen in medizinischen Anwendungen auslösen, oder (3) Gewinn in Finanzanwendungen vermindern. Diese erheblichen Konsequenzen schränken die Verwendung von CNNs in den vorgenannten Bereichen ein, obwohl ihr technologisches Potenzial von großem Interesse ist. Um diese Einschränkungen zu überwinden und den weit verbreiteten Einsatz von CNNs in sicherheits- und/oder missionskritischen Anwendungen zu fördern, wollen wir FPs verhindern, indem wir die Trennbarkeit zwischen TPs und FPs verbessern. Um dies zu erreichen, wollen wir die Konfidenz (welche die Unsicherheit misst) erzwingen, für TPs hoch und für FPs niedrig zu sein. Dies basiert auf der Hypothese, dass TPs und FPs durch einen Schwellenwert gut getrennt werden können, wenn die Konfidenz für TPs hoch und für FPs niedrig ist. Die Forschungsfragen lauten daher wie folgt: (1) Welche Methode brauchen wir, um eine hohe Konfidenz für TPs und niedrige Konfidenz für FPs zu erzwingen? (2) Unter welchen Umständen funktioniert die vorgeschlagene Methode? (3) Zu welchem Preis trägt die vorgeschlagene Methode dazu bei, eine hohe Konfidenz für TPs und eine niedrige Konfidenz für FPs aufrechtzuerhalten? Um die erste Forschungsfrage zu beantworten, entwickeln wir eine Methode namens MCA und vergleichen sie mit verwandten Methoden wie baseline (single CNN), MCD, ensemble of CNNs, und MMCD. Um die zweite Forschungsfrage zu beantworten, evaluieren wir die Performance von MCA und verwandten Methoden an vier Datensätzen mit unterschiedlichen Schwierigkeiten. Darüber hinaus evaluieren wir MCA und verwandten Methoden auf verschiedenen CNNs, um ihre Performance auf verschiedenen Architekturen zu bewerten. Außerdem bewerten wir die Auswirkung der Anwendung von Logit anstelle Probabilitäten in MCA und verwandten Methoden sowie die Auswirkung der Verringerung der Regularisierungsstärke. Um die dritte Forschungsfrage anzugehen, bewerten wir die Fähigkeit von MCA und verwandten Methoden, TPs und FPs zu trennen, und analysieren die Klassifikationsgenauigkeit, der Kalibrierungsfehler, und die Inferenzzeit. Experimentelle Ergebnisse zeigen eine Verbesserung des entwickelten MCA und des State-of-the-Art MMCD gegenüber verwandten Methoden wie Baseline, MCD, und Ensemble von CNNs. Insbesondere kann MCA, ähnlich wie MMCD, die Klassifikationsgenauigkeit des zugrunde liegenden Ensembles bewahren, welches die Klassifikationsgenauigkeit von Baseline erhöhen kann, die von MCD nur bewahrt werden kann. Sowohl MMCD als auch MCA verbessern die Trennbarkeit von TPs und FPs auf Kosten einer Erhöhung des Kalibrierungsfehlers und der Inferenzzeit. Die Anwendung von Logit anstelle Probabilitäten in MCA und verwandten Methoden oder die Verringerung der Regularisierungsstärke vermindert jedoch den Kalibrierungsfehler auf Kosten der Beeinträchtigung der Trennbarkeit zwischen TPs und FPs. Daher gibt es einen Kompromiss zwischen der Verbesserung der Kalibrierung und der Verbesserung der Trennbarkeit zwischen TPs und FPs. Obwohl die Performance aller Methoden stark von dem Datensatz und/oder der Architektur abhängt, sind MCD und MMCD empfindlicher gegenüber dem Datensatz und/oder der Architektur. Zusammengefasst haben wir MCA entwickelt, um eine hohe Konfidenz für TPs und eine niedrige Konfidenz für FPs aufrechtzuerhalten und die Trennbarkeit von TPs und FPs zu verbessern. Im Vergleich zum State-of-the-Art MMCD, ist das entwickelte MCA mehr als viermal schneller, hat den gleichen Zweck und das gleiche zugrunde liegende Prinzip, und zeigt eine ähnliche oder manchmal bessere Performance. Daher empfehlen wir die Verwendung von MCA anstelle von MMCD für Anwendungen, die eine Trennbarkeit zwischen TPs und FPs erfordern und bei denen das Rechenbudget begrenzt ist. MCA kann auch für andere Bereiche des maschinellen Lernens von Vorteil sein, wie z. B. Aktive oder Reinforcement Learning, wo Unsicherheit erforderlich ist. Darüber hinaus ist MCA vorzuziehen im Bereich der erklärbaren Maschinenlernen, die die Rolle von Unsicherheit untersucht, um Vorhersagen zu erklären und die soziale Akzeptanz von CNN-basierten Entscheidungssystemen zu erhöhen. Schließlich eröffnet MCA neue Perspektiven, um Merkmale von Ensemblemitgliedern zu fusionieren. «
Obwohl neuronale Netze seit Jahrzehnten zur Musterklassifikation verwendet werden, hat CNNs in den letzten Jahren immer mehr an Bedeutung gewonnen. Insbesondere werden CNNs in automatisierten Szenarien zur Verkehrszeichenerkennung und Krankheitsklassifizierung eingesetzt. Sie leiden jedoch immer noch unter Overfitting und mangelnder Robustheit gegenüber unerwünschten Eingaben. Daher können sie overconfident FPs erzeugen, was gefährlich und kostspielig sein kann, insbesondere wenn sie in sicherhe... »
WWW:: https://mediatum.ub.tum.de/?id=1694757
Eingereicht am:: 01.02.2023
Mündliche Prüfung:: 27.08.2024
Dateigröße:: 5808923 bytes
Seiten:: 141
Urn (Zitierfähige URL):: https://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:91-diss-20240827-1694757-1-4
Letzte Änderung:: 29.10.2024
BibTeX