Exploring Hybrid CTC/Attention End-to-End Speech Recognition: Adversarial Robustness, Sinc Convolutions, and CTC Segmentation

Kürzinger, Ludwig

Benutzer: Gast

Datenverarbeitung, Informatik

Zurück
Zurück zum Anfang der Trefferliste
Dauerhafter Link zum angezeigten Objekt

Wenn Sie Schwierigkeiten haben, das Dokument zu öffnen, versuchen Sie auch bitte diesen Link

Originaltitel:: Exploring Hybrid CTC/Attention End-to-End Speech Recognition: Adversarial Robustness, Sinc Convolutions, and CTC Segmentation
Übersetzter Titel:: Untersuchung hybrider CTC/Attention Ende-zu-Ende-Spracherkennung: Robustheit, Sinc-Faltungen und CTC-Segmentierung
Autor:: Kürzinger, Ludwig
Jahr:: 2024
Dokumenttyp:: Dissertation
Fakultät/School:: TUM School of Computation, Information and Technology
Institution:: Mensch-Maschine-Kommunikation (Prof. Rigoll)
Betreuer:: Rigoll, Gerhard (Prof. Dr.)
Gutachter:: Rigoll, Gerhard (Prof. Dr.); Ney, Hermann (Prof. Dr.)
Sprache:: en
Fachgebiet:: DAT Datenverarbeitung, Informatik
Stichworte:: End-to-End Speech Recognition, Neural Networks, Connectionist Temporal Classification (CTC), Attention Mechanisms, Sinc Convolutions, CTC Segmentation, Forced Alignment
Übersetzte Stichworte:: Ende-zu-Ende Spracherkennung, Neuronale Netze, Connectionist Temporal Classification (CTC), Attention-Mechanismen, Sinc-Faltungen, CTC-Segmentierung, Forced Alignment
TU-Systematik:: DAT 815
Kurzfassung:: This dissertation revisits the shift towards end-to-end speech recognition, addressing challenges in the hybrid CTC/attention framework such as parameter optimization, robustness against adversarial noise, integrated preprocessing, and increased data requirements. It incorporates Sinc convolutions, bypassing the need for separate feature extraction, and discusses CTC segmentation for improved speech data alignment, requiring minimal preprocessing, demonstrated with German and Japanese datasets.
Übersetzte Kurzfassung:: Diese Dissertation untersucht den Übergang zu Ende-zu-Ende Spracherkennungssystemen am Beispiel der hybriden CTC/Attention-Architektur, hinsichtlich Parameteroptimierung, Robustheit gegenüber Adversarial Machine Learning, integrierter Merkmalsextraktion und dem hohen Datenbedarf. Darin werden lernbare Sinc-Faltungen als integraler Bestandteil des neuronalen Netzes diskutiert, sowie CTC-Segmentierung zur Sprachdatenaufbereitung, demonstriert an deutschen und japanischen Datensätzen.
WWW:: https://mediatum.ub.tum.de/?id=1726115
Eingereicht am:: 15.11.2023
Mündliche Prüfung:: 24.05.2024
Dateigröße:: 4111285 bytes
Seiten:: 165
Urn (Zitierfähige URL):: https://nbn-resolving.org/urn:nbn:de:bvb:91-diss-20240524-1726115-1-9
Letzte Änderung:: 12.07.2024
BibTeX