Benutzer: Gast  Login
Originaltitel:
Enhancements for Hybrid and End-to-End Speech Recognition Architectures
Übersetzter Titel:
Erweiterungen für hybride und Ende-zu-Ende Spracherkennungssysteme
Autor:
Watzel, Tobias
Jahr:
2023
Dokumenttyp:
Dissertation
Fakultät/School:
TUM School of Computation, Information and Technology
Betreuer:
Rigoll, Gerhard (Prof. Dr.)
Gutachter:
Rigoll, Gerhard (Prof. Dr.); Fingscheidt, Tim (Prof. Dr.)
Sprache:
en
Fachgebiet:
DAT Datenverarbeitung, Informatik
Stichworte:
ASR, speech recognition, hybrid, end-to-end
Übersetzte Stichworte:
automatische Spracherkennung, hybrid, Ende-zu-Ende
TU-Systematik:
DAT 815
Kurzfassung:
This work introduces enhancements for three well-established model architectures in automatic speech recognition. Firstly, discrete neural quantizers for hybrid approaches are discussed, capable of surpassing continuous systems. Secondly, time-reversed components for attentional models are established, providing beneficial information for standard attentional models. Finally, novel localness and fusion strategies for self-attentional architectures are elaborated, boosting the local context.
Übersetzte Kurzfassung:
Diese Arbeit stellt Erweiterungen für drei etablierte Systemarchitekturen der automatischen Spracherkennung vor. Zunächst werden diskrete neuronale Quantisierer für hybride Ansätze erörtert, welche kontinuierliche Systeme übertreffen können. Danach werden zeitverdrehte Komponenten für Attentional-Modelle untersucht, welche hilfreiche zeitliche Informationen liefern. Abschließend werden neue lokale Fusionsstrategien in Self-Attentional-Modellen vorgestellt, welche lokale Informationen verstärken.
WWW:
https://mediatum.ub.tum.de/?id=1690600
Eingereicht am:
09.11.2022
Mündliche Prüfung:
26.04.2023
Dateigröße:
3996303 bytes
Seiten:
168
Urn (Zitierfähige URL):
https://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:91-diss-20230426-1690600-1-3
Letzte Änderung:
21.06.2023
 BibTeX