Noise Robustness in Small-Vocabulary Speech Recognition
Abstract
Denne masteroppgaven omhandler små-vokabular talegjenkjenning, og mer spesifikt støyrobusthet i systemer designet for dette formål. Tradisjonelle og moderne gjenkjenningssystemer har blitt trent på relativt store mengder norsk taledata og deres ytelse har blitt evaluert ved hjelp av mindre mengder støyete taledata. De moderne nevronett-baserte systemene viste seg å ikke være trenbare uten betydelig med beregningsressurser, men det tradisjonelle systemet ble brukt med suksess. Evaluering av det tradisjonelle systemet indikerte at dets ytelse er brukbar for veldig ren taledata, men at den fort minker for støyete taledata hvor signal-støy-forholdet er mindre enn 30 dB. This thesis deals with the task of small-vocabulary speech recognition, and more specifically noise robustness in systems designed for this task. Traditional and modern speech recognition systems have been trained on a relatively large amount of Norwegian speech data and had their performance evaluated on small sets of noisy speech data. The modern, neural network based systems proved infeasible to train without significant computational resources, while the traditional system was successfully employed. Evaluation of the traditional system indicated that its performance is sufficient for recognition of very clean speech data, but quickly deteriorates for data corrupted by noise with a signal-to-noise ratio below 30 dB.