Typically the performance of speech related recognition tasks degrades when the acoustical characteristics of the speech data in the training phase differ from those of the application phase.
In this work an adaptation technique based on the MLLR algorithm is developed for automatic speaker verification systems. It adapts HMM speaker models trained on fixed telephone data for usage with recordings from the GSM network.
The adaptation can be performed with a single parameter set affecting the complete speaker model or by several sets which operate on acoustic or phonetic sub-clusters of the model.
Different variants of the approach are investigated and evaluated using the German VeriDat speech database.
The adaptation deploying speaker-dependent parameter sets leads to a higher performance improvement than the standard Baum-Welch retraining technique.
Translated abstract:
Wie in den meisten sprachverarbeitenden Erkennungssystemen wirken sich auch in der automatischen Sprecher-Verifikation Schwankungen der akustischen Eigenschaften negativ auf die Erkennungsleistung aus.
In dieser Arbeit wird ein Adaptierungsverfahren auf der Basis des MLLR-Algorithmus entwickelt, das HMM-Sprecher-Modelle, die mit Sprachdaten von Festnetz-Telefonen trainiert wurden, für den Einsatz mit Daten aus dem GSM-Netz adaptiert.
Die Adaption eines Sprechermodells erfolgt wahlweise mit einem Parametersatz oder mit mehreren Parameter-Sätzen, die auf phonetisch oder akustisch bestimmte Gruppen von Gauß-Mixturen des Modells angewendet werden.
Mehrere Varianten der Adaptierung werden untersucht und mit der Sprachdatenbank VeriDat evaluiert.
Bei Verwendung von sprecher-spezifischen Parameter-Sätzen kann im Vergleich zu einem Standard-Trainingsverfahren eine größere Verbesserung der Verifikationsleistung erzielt werden.