Das Hörsystem des Menschen ist jetzigen automatischen Spracherkennungssystemen bei weitem überlegen. Es erscheint daher lohnenswert, die Prinzipien der Informationsverarbeitung im menschlichen Hörsystem zu analysieren und modellieren, und damit der automatischen Spracherkennung zugänglich zu machen. Fortschritte in der Hörforschung der letzen Jahre haben unser Wissen über Verarbeitungsschritte der auditorischen Hörbahn stark erweitert, so dass wir in einigen Bereichen sehr detaillierte Einsichten gewonnen haben. Jedoch ist es immer noch nicht klar, welche Eigenschaften des Hörsystems besonders für seine herausragenden Eigenschaften verantwortlich sind. Beispielsweise ist die Diskussion über die Wichtigkeit der grundlegenden Kodierungsstrategien wie den sogenannten „Raten Kode“ oder die Kodierung zeitlicher Information immer noch nicht abgeschlossen.
Diese Arbeit stellt ein System bestehend aus einem Modell der peripheren Verarbeitung im Innenohr sowie Teilen der ersten neuronalen Ebene zur Verfügung. Fragen nach den essentiellen Verarbeitungsstufen wurden mit einem darauf angepassten automatischen Spracherkennungssystem sowie den Methoden der Informationstheorie analysiert. Das zur verwendete Modell kodiert Schallsignale in Aktionspotentiale des auditorischen Nerven und zeichnet sich durch seine hohe Dynamikkompression sowie die realistischen Erregungsmuster aus. Dieses Modell wurde in der vorliegenden Arbeit so erweitert, dass auch die Pause der neuronalen Aktivität am Ende eines Tons (die sogenannte „Offset-Adaption“) korrekt modelliert wurde. Ebenso werden auch Modelle der wichtigsten Neurone in der ersten Schaltstufe im auditorischen System, dem auditorischen Hirnstamm, vorgestellt. Dieses System wurde dann mit einem automatischen Spracherkennungssystem in einem anspruchsvollen aber realistischen Szenario analysiert, der Erkennung von Sprache in Störgeräuschen. Da die hier verwendeten Merkmale, die aus Folgen von Nervenaktionspotentialen verschiedener Neurone gewonnen wurden, für klassische Spracherkennungssysteme sehr ungewöhnlich sind, wurde besonderes Augenmerk auf eine möglichst optimale Anpassung gelegt. Mit der automatischen Spracherkennung konnte die Raten-Ortskodierung, die im Innenohr durch die auditorischen Nerven erfolgt, quantitativ analysiert werden, ebenso die Verarbeitung zeitlicher Merkmale durch die sogenannten „Onset Nerone“ im auditorischen Hirnstamm.
Die Ergebnisse dieser Arbeit zeigen wie wichtig die Offset Adaption für die Sprachverarbeitung ist, durch sie wird nicht nur die Präzision der Kodierung zeitlicher Aspekte von Sprache erhöht, sie führt auch zu einer erheblichen Verbesserung bei der automatischen Spracherkennung, insbesondere in Störgeräuschen. Mit Hilfe eines mehrlagigen Perzeptrons konnte zudem die Anpassung der aus dem auditorischen Modell gewonnenen Merkmale an das automatischen Spracherkennungssystem wesentlich verbessert werden. Die informationstheoretische Analyse von Nervenaktionspotentialsfolgen von Onset Neuronen zeigte beispielsweise, dass der Informationsfluss nach der Präsentation eines Vokals nach einem steilen Anstieg innerhalb von mehreren zehn Millisekunden saturiert. Weiterhin wurde gezeigt, dass diese Neurone Information mit einer sehr hohen zeitlichen Auflösung von mindestens 20 µs kodieren können. Zusammenfassend wurde geschlossen, dass sich die automatische Spracherkennung und die Analyse der Informationskodierung in Nervenaktionspotentialsfolgen in vorteilhafter Weise ergänzen. Gemeinsam eröffnen diese beiden Methoden damit ein wertvolles Werkzeug zur kontinuierlichen Verbesserung bei der Modellierung des auditorischen Systems.
«
Das Hörsystem des Menschen ist jetzigen automatischen Spracherkennungssystemen bei weitem überlegen. Es erscheint daher lohnenswert, die Prinzipien der Informationsverarbeitung im menschlichen Hörsystem zu analysieren und modellieren, und damit der automatischen Spracherkennung zugänglich zu machen. Fortschritte in der Hörforschung der letzen Jahre haben unser Wissen über Verarbeitungsschritte der auditorischen Hörbahn stark erweitert, so dass wir in einigen Bereichen sehr detaillierte Einsich...
»