Vis enkel innførsel

dc.contributor.advisorTaraldsen, Gunnar
dc.contributor.advisorGelderblom, Femke
dc.contributor.authorVik, Mira Lilleholt
dc.date.accessioned2019-10-26T14:00:34Z
dc.date.available2019-10-26T14:00:34Z
dc.date.issued2019
dc.identifier.urihttp://hdl.handle.net/11250/2624605
dc.description.abstractHvem har ikke vært i en samtale forvrengt av bakgrunnslyd som trafikk eller vind? En algoritme som kan forbedre et støyete talesignal er av interesse i mange hverdagslige situasjoner. Vi har implementert en deep learning algoritme for taleforbedring, et betinget generativt adversarielt nettverk inspirert av Pascual et al. (2017). Algoritmen lærer en transformasjon fra støyete til renere tale gjennom et topersonsspill mellom en generator og en diskriminator. Denne tilnærmingen er interessant på grunn av to ting: den forbedrer i tidsdomenet og konstruerer tapsfunksjonen på en utradisjonell måte. Det er vanskelig å fange både kvaliteten og forståeligheten til et støyende talesignal med en tradisjonell tapsfunksjon. Her læres tapsfunksjonen basert på konkurranse mellom generatoren og diskriminatoren; diskriminatoren lærer et tap for at generatorens forbedring skal være nøyaktig. I utgangspunktet var målet med et generativt adversarielt nettverk (GAN) å lære og generere fra en treningsfordeling. Generatoren mottar latent tilfeldig støy som input og lærer en transformasjon til ønsket fordeling. Den latente støyen gjør generert output av algoritmen stokastisk. I taleforbedringssituasjonen brukes støyete tale som en betinget variabel i både generator og diskriminator - målet å lære en god transformasjon fra støyete til ren tale. Hvis transformasjonen er god, er det ikke viktig om outputet er stokastisk eller ikke. Inspirert av lignende tilnærminger i bilde-til-bilde-settingen, har vi sammenlignet forbedringsresultatene for nettverk med og uten latent støy. Algoritmen ble trent med talesignaler fra 220 forskjellige talere fra en norsk taledatabase og 99 forskjellige lydsignaler fra to støydatabaser med naturlige støyopptak. Treningsfilene ble konstruert ved tale-til-støy-forhold på 0, 10 og 15 dB. Testsettet inneholder opptak fra 2 talere med 5 unike setninger hver. Det støyete testsettet ble konstruert ved å kombinere talesignaler med støysignaler, ved det usette tale-støyforholdet 5 dB i tillegg til forholdene 0, 10 og 15 dB. Støysignalene i testsettet er plukket ut for å være realistiske når det gjelder hva man møter i virkeligheten. Metodens ytelse ble evaluert objektivt ved bruk av ITU-T standarden "Perceptual Evaluation of Speech Quality" (PESQ) og "Short-Time Objective Intelligibility" (STOI). Det har også vært noen subjektive vurderinger på de forbedrede filene fra studenten. Det foreslåtte oppsettet uten latent støy forbedrer sammenlignbart med det opprinnelige oppsettet med latent støy, men resultatene oppnådd i form av PESQ og STOI er noe lavere i gjennomsnitt. Begge implementeringene oppnår forbedringer i PESQ som kan sammenliknes med andre implementeringer som bruker et GAN-rammeverk for taleforbedring. STOI-poengene avtar etter forbedring, men det kan være delvis fordi input STOI-poengsummene til de støyete testfilene var høye. Generelt har de forbedrede talesignalene et redusert støynivå, men noen ganger på bekostning av høyfrekvente artefakter og litt taleforvrengning. Treningsfremgangen er ustabil. "Early stopping" kunne ha blitt implementert for å sikre at den endelige modellen er den beste av de forskjellige versjonene som ble utviklet under trening. Pascual et al. (2019) ser ut til å ha funnet løsninger på både ustabile gradienter og høyfrekvente artefakter, men denne artikkelen ble ikke publisert før slutten av april, og ble dessverre oppdaget for sent for å bli inkludert i dette arbeidet.
dc.description.abstractWho has not been in a phone call distorted by background noises like traffic or wind? An algorithm able to denoise a distorted speech signal is of interest in many everyday situations. We have implemented a state-of-the-art deep learning algorithm for speech enhancement, a conditional generative adversarial net inspired by Pascual et al. (2017). The algorithm learns a mapping from noisy to clean speech through a two-player game between a generator and a discriminator. This approach is interesting because of two things: it enhances end-to-end and constructs the loss function in an untraditional way. It is hard to capture the quality and intelligibility of a noisy signal with a traditional loss function. Here, the loss function is learned based on competition between the generator and discriminator; the discriminator learns a loss for the generator's enhancement to be accurate. Initially, the aim of a generative adversarial network (GAN) was to learn to generate samples from a training distribution. The generator receives latent random noise as input and maps to the wanted distribution. The latent noise makes the output of the algorithm stochastic. In the speech enhancement setting, noisy speech is used as a conditional variable in both generator and discriminator - the goal to learn an accurate mapping from noisy to clean speech. If the mapping is accurate, it is not of importance whether or not it is stochastic. Inspired by similar approaches in the image-to-image setting, we have compared the enhancement results for a conditional generative adversarial net with and without latent noise. The algorithm was trained with speech signals from 220 different speakers from a Norwegian speech database and 99 different noise signals from two noise corpora with environmental noise recordings. The training files were constructed at speech-to-noise ratios 0, 10 and 15 dB. The test set contains unseen speech and noise signals, combined at the same ratios of SNR, in addition to the unseen ratio 5 dB. Assessment of the performance of the generative adversarial network was evaluated objectively by use of the ITU-T standard Perceptual Evaluation of Speech Quality (PESQ) and the Short-Time Objective Intelligibility (STOI). There have also been some subjective reviews on the enhanced files from the student. The proposed setup without latent noise perform comparable to the original setup with latent noise, but the scores obtained in terms of PESQ and STOI are slightly lower on average. Both implementations achieve improvements in PESQ similar to other implementations that are using a GAN framework for speech enhancement. The STOI scores decline a little after enhancement, but that might be partly because the STOI scores of the noisy test files were high to begin with. In general, the enhanced speech signals have a reduced noise level. Some of the enhanced signals have high-frequency artifacts and a degree of speech distortion. The training progress is unstable. Early stopping could have been implemented to ensure that the final model is the best one of the different versions developed during training. Pascual et al. (2019) seems to have found solutions to both unstable gradients and high-frequency artifacts, but this article was not published before late April and was unfortunately discovered too late to be included in this work.
dc.languageeng
dc.publisherNTNU
dc.titleSpeech Enhancement with a Generative Adversarial Network
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel