Das akustische Modell eines Spracherkenners basiert auf Methoden der statistischen Mustererkennung, um eine parametrische Repräsentation der gesprochenen Äußerung zu ermöglichen. Zusammen mit einer Vorverarbeitung zur Datenreduktion, einem Wörterbuch zur orthografisch korrekten Darstellung und einem Sprachmodell zur Eingrenzung wahrscheinlicher Worte ist das akustische Modell das Kernelement des Dekoders zur Konvertierung gesprochener Sprache in geschriebenen Text. Diese Arbeit beschreibt als Schwerpunkt die Elemente eines hybriden akustischen Modells mit verbundenen Auftrittswahrscheinlichkeiten (TP, engl. tied-posteriors) bestehend aus einem statischen Klassifikator und Hidden-Markov-Modellen (HMM). Vorteile des TP-Ansatzes sind eine große Flexibilität, sowie eine niedrigere Wortfehlerrate bei relativ wenigen, zu trainierenden Parametern. Als Beispiele für geeignete statische Klassifikatoren werden neuronale Netze mit und ohne Rückkopplung und Support-Vektor-Maschinen ausführlich vorgestellt. Zur Verbesserung dieser neuronalen Netze sind neben der Phonem-, bzw. HMM-Zustandsklassifikation, Zusatzaufgaben parallel trainiert worden. Es hat sich als vorteilhaft herausgestellt, wenn zusätzlich das Geschlecht des Sprechers klassifiziert wird, da diese Aufgabe einfach zu lernen und unabhängig von der Lautklassifikation ist. Die Verwendung von SVM kann bisher nur bei sehr kleinem Vokabular (11 Zahlwörter) evaluiert werden, da die Klassifikation mit mehreren SVM bislang sehr viel Rechenzeit erfordert. Dennoch lassen sich einige positive Tendenzen dieses Systems besonders bezüglich der Robustheit gegenüber Geräuschen erkennen. Neben den sprecherunabhängigen Systemen werden weiterhin Möglichkeiten präsentiert, die TP-Modelle an einen einzelnen Sprecher zu adaptieren. Erwähnenswert ist hierbei, daß sowohl Parameter des Klassifikators (untersucht worden sind in dieser Arbeit neuronale Netze), als auch Parameter der HMM unabhängig voneinander und mit zusätzlichem Gewinn adaptiert werden können. Abschließend bieten hybride akustische Modelle zusätzliche Anwendungsmöglichkeiten für die verteilte Spracherkennung, bei der die Komponenten örtlich verteilt arbeiten und über einen Kanal verbunden sind. Besonders die Flexibilität bei der Veränderung einzelner Komponenten kann mit Gauß'schen akustischen Modellen nicht erreicht werden.
«
Das akustische Modell eines Spracherkenners basiert auf Methoden der statistischen Mustererkennung, um eine parametrische Repräsentation der gesprochenen Äußerung zu ermöglichen. Zusammen mit einer Vorverarbeitung zur Datenreduktion, einem Wörterbuch zur orthografisch korrekten Darstellung und einem Sprachmodell zur Eingrenzung wahrscheinlicher Worte ist das akustische Modell das Kernelement des Dekoders zur Konvertierung gesprochener Sprache in geschriebenen Text. Diese Arbeit beschreibt als Sc...
»