Vision Transformers sind im Bereich der Computer Vision heutzutage sehr beliebt. Es gibt zahlreiche Methoden, die Vision Transformers nutzen und sie in Deep-Learning-Architekturen integrieren, um medizinische Bilder semantisch zu segmentieren. Wir sind jedoch der Meinung, dass diese Modelle nicht ideal trainiert sind. Die meisten Arbeiten trainieren Deep-Learning-Modelle, die Transformer-Elemente enthalten, wie ein herkömmliches vollständiges Convolutional Neural Network. In der natürlichen Sprachverarbeitung ist bekannt, dass die beste Trainingsmethode für Transformers das selbstüberwachte Lernen ist. Anstatt eine eigene, Attention-basierte Segmentierungsarchitektur zu entwickeln, möchten wir Ausgaben eines Vision Transformers nutzen und diese komplexen Merkmale in eine einfache Segmentierungsarchitektur integrieren.
In dieser Arbeit werden zwei neuartige Deep-Learning-Modelle vorstellen, die im Speziellen auf die semantische Segmentierung medizinischer Bilddaten ausgelegt sind: U-Net Attention und Y-Nets mit unterschiedlichen Skip-Connection-Konfigurationen. Beide Architekturen nutzen Visualisierungen von Attention-Werten, d. h. die letzten Self-Attention-Werte eines ViT-S/16, welches auf ImageNet vortrainiert und mit DINO in einer selbstüberwachten Weise fein abgestimmt wurde. Wir zeigen, dass unser Y-Net verwandte Arbeiten in Bezug auf zwei unterschiedlichen medizinischen Datensätzen übertrifft. Insbesondere ist unser Y-Net in der Lage, hervorragende Ergebnisse bei der Segmentierung von feingranularen Strukturen, Strukturen mit Löchern und bei Labels, die weit vom Mittelpunkt der Strukturen entfernt sind, zu liefern. Darüber hinaus berichten wir, dass ein gut konfiguriertes U-Net bessere Ergebnisse liefern kann als aktuelle Transformer-basierte Architekturen.
Neben den Experimenten mit medizinischen Daten erstellen wir auch vier künstliche Datensätze und führen Experimente mit diesen durch. Wir sehen, dass U-Net Attention bis zu einem gewissen Grad robust gegenüber Rotationen ist und somit Formen besser erkennt als ein U-Net. Aus unseren Experimenten mit künstlichen Daten schließen wir auch, dass unsere Modelle—insbesondere unsere Y-Nets—im Vergleich zu einem U-Net schneller konvergieren und können diese Ergebnisse mit Experimenten mit der zu Hilfenahme von medizinischen Daten bestätigen.
«
Vision Transformers sind im Bereich der Computer Vision heutzutage sehr beliebt. Es gibt zahlreiche Methoden, die Vision Transformers nutzen und sie in Deep-Learning-Architekturen integrieren, um medizinische Bilder semantisch zu segmentieren. Wir sind jedoch der Meinung, dass diese Modelle nicht ideal trainiert sind. Die meisten Arbeiten trainieren Deep-Learning-Modelle, die Transformer-Elemente enthalten, wie ein herkömmliches vollständiges Convolutional Neural Network. In der natürlichen Spra...
»