Efficient Integration of Hierarchical Knowledge Sources and the Estimation of Semantic Confidences for Automatic Speech Interpretation
Übersetzter Titel:
Effiziente Integration hierarchischer Wissensquellen und die Schätzung von semantischen Konfidenzmaßen für die automatische Interpretation fließender Sprache
This thesis presents a system for the interpretation of natural speech which serves as input module for a spoken dialog system. It carries out the task of extracting application-specific pieces of information from the user utterance in order to pass them to the control module of the dialog system. By following the approach of integrating speech recognition and speech interpretation, the system is able to determine the spoken word sequence together with the hierarchical utterance structure that is necessary for the extraction of information directly from the recorded speech signal. The efficient implementation of the underlying decoder is based on the powerful tool of weighted finite state transducers (WFSTs). This tool allows to compile all involved knowledge sources into an optimized network representation of the search space which is constructed dynamically during the ongoing decoding process. In addition to the best-matching result, the integrated decoder architecture allows to determine grammatical alternatives which are exploited to estimate semantic confidence values for the extracted pieces of information. This new method improves the robustness against interpretation errors without requiring any additional knowledge source.
Übersetzte Kurzfassung:
Diese Arbeit beschreibt ein System zur Interpretation von natürlicher Sprache, das als Teil eines automatischen Dialogsystems applikations-spezifische Informationen aus Benutzeräußerungen extrahiert. Durch die Vereinigung von Spracherkennung und -interpretation gelingt es, die für die Informationsextraktion erforderliche hierarchische Struktur einer Äußerung direkt aus dem Sprachsignal zu gewinnen. Die effiziente Realisierung des Dekoders beruht auf dem mächtigen Kalkül der gewichteten endlichen Transduktoren (engl. WFST), der voranschreitend mit dem Ablauf des Dekodiervorgangs aus allen involvierten Wissensquellen eine optimale Netzwerkdarstellung des aktiven Suchraums generiert. Neben dem besten Ergebnis erlaubt die integrierte Dekoderarchitektur die Erzeugung von grammatischen Alternativen, auf deren Basis semantische Konfidenzen für die extrahierten Informationen geschätzt werden. Damit wird die Fehlerrobustheit erhöht, ohne dass hierfür eine weitere Wissensquelle erforderlich ist.
Veröffentlichung:
Universitätsbibliothek der Technischen Universität München