User: Guest  Login
Original title:
Exploring Hybrid CTC/Attention End-to-End Speech Recognition: Adversarial Robustness, Sinc Convolutions, and CTC Segmentation
Translated title:
Untersuchung hybrider CTC/Attention Ende-zu-Ende-Spracherkennung: Robustheit, Sinc-Faltungen und CTC-Segmentierung
Author:
Kürzinger, Ludwig
Year:
2024
Document type:
Dissertation
Faculty/School:
TUM School of Computation, Information and Technology
Institution:
Mensch-Maschine-Kommunikation (Prof. Rigoll)
Advisor:
Rigoll, Gerhard (Prof. Dr.)
Referee:
Rigoll, Gerhard (Prof. Dr.); Ney, Hermann (Prof. Dr.)
Language:
en
Subject group:
DAT Datenverarbeitung, Informatik
Keywords:
End-to-End Speech Recognition, Neural Networks, Connectionist Temporal Classification (CTC), Attention Mechanisms, Sinc Convolutions, CTC Segmentation, Forced Alignment
Translated keywords:
Ende-zu-Ende Spracherkennung, Neuronale Netze, Connectionist Temporal Classification (CTC), Attention-Mechanismen, Sinc-Faltungen, CTC-Segmentierung, Forced Alignment
TUM classification:
DAT 815
Abstract:
This dissertation revisits the shift towards end-to-end speech recognition, addressing challenges in the hybrid CTC/attention framework such as parameter optimization, robustness against adversarial noise, integrated preprocessing, and increased data requirements. It incorporates Sinc convolutions, bypassing the need for separate feature extraction, and discusses CTC segmentation for improved speech data alignment, requiring minimal preprocessing, demonstrated with German and Japanese datasets.
Translated abstract:
Diese Dissertation untersucht den Übergang zu Ende-zu-Ende Spracherkennungssystemen am Beispiel der hybriden CTC/Attention-Architektur, hinsichtlich Parameteroptimierung, Robustheit gegenüber Adversarial Machine Learning, integrierter Merkmalsextraktion und dem hohen Datenbedarf. Darin werden lernbare Sinc-Faltungen als integraler Bestandteil des neuronalen Netzes diskutiert, sowie CTC-Segmentierung zur Sprachdatenaufbereitung, demonstriert an deutschen und japanischen Datensätzen.
WWW:
https://mediatum.ub.tum.de/?id=1726115
Date of submission:
15.11.2023
Oral examination:
24.05.2024
File size:
4111285 bytes
Pages:
165
Urn (citeable URL):
https://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:91-diss-20240524-1726115-1-9
Last change:
12.07.2024
 BibTeX