This work introduces enhancements for three well-established model architectures in automatic speech recognition. Firstly, discrete neural quantizers for hybrid approaches are discussed, capable of surpassing continuous systems. Secondly, time-reversed components for attentional models are established, providing beneficial information for standard attentional models. Finally, novel localness and fusion strategies for self-attentional architectures are elaborated, boosting the local context.
Übersetzte Kurzfassung:
Diese Arbeit stellt Erweiterungen für drei etablierte Systemarchitekturen der automatischen Spracherkennung vor. Zunächst werden diskrete neuronale Quantisierer für hybride Ansätze erörtert, welche kontinuierliche Systeme übertreffen können. Danach werden zeitverdrehte Komponenten für Attentional-Modelle untersucht, welche hilfreiche zeitliche Informationen liefern. Abschließend werden neue lokale Fusionsstrategien in Self-Attentional-Modellen vorgestellt, welche lokale Informationen verstärken.