This dissertation revisits the shift towards end-to-end speech recognition, addressing challenges in the hybrid CTC/attention framework such as parameter optimization, robustness against adversarial noise, integrated preprocessing, and increased data requirements. It incorporates Sinc convolutions, bypassing the need for separate feature extraction, and discusses CTC segmentation for improved speech data alignment, requiring minimal preprocessing, demonstrated with German and Japanese datasets.
Translated abstract:
Diese Dissertation untersucht den Übergang zu Ende-zu-Ende Spracherkennungssystemen am Beispiel der hybriden CTC/Attention-Architektur, hinsichtlich Parameteroptimierung, Robustheit gegenüber Adversarial Machine Learning, integrierter Merkmalsextraktion und dem hohen Datenbedarf. Darin werden lernbare Sinc-Faltungen als integraler Bestandteil des neuronalen Netzes diskutiert, sowie CTC-Segmentierung zur Sprachdatenaufbereitung, demonstriert an deutschen und japanischen Datensätzen.