Show simple item record

dc.contributor.advisorSvendsen, Torbjørn Karl
dc.contributor.advisorVaragnolo, Damiano
dc.contributor.advisorHaukom, Torjus
dc.contributor.authorTurøy, Ida
dc.contributor.authorMo, Kari Vikøren
dc.date.accessioned2021-09-15T17:05:15Z
dc.date.available2021-09-15T17:05:15Z
dc.date.issued2021
dc.identifierno.ntnu:inspera:73535019:30038552
dc.identifier.urihttps://hdl.handle.net/11250/2778162
dc.descriptionFull text not available
dc.description.abstractBakgrunnstøy i digitale samtaler er forstyrrende, og det er ønskelig å redusere støy for naturlig kommunikasjon. I samarbeid med Cisco Norge bidrar denne oppgaven til studiet av taleforbedringssystemer basert på dyp læring. Målet vårt er å redusere ulike typer støy ved å implementere kjente nevrale nettverk og rammeverk med innslag av psykoakustiske elementer. Med utgangspunkt i et konvolusjonalt nevralt nettverk ble virkningen av faseinformasjon, komplekse konvolusjoner, og temporale avhengigheter undersøkt. For å optimalisere nettverket sine parametre og treningsmål, ble en "Design of Experiments"-metode anvendt og et av resultatene var å ekskludere de tidsavhengige elementene. Videre ble modellen kombinert med et rammeverk bestående av et motstandsnettverk for å finjustere modellen. Vi vurderte kvalitet og grad av forståelighet til den forbedrede talen gjennom tre objektive evalueringsmetrikker og en subjektiv lyttetest, inkludert en sammenligning med to eksterne modeller. Fra den subjektive lyttetesten kom det frem at fase-bevissthet med komplekse konvolusjoner gav mindre forvrengt tale. I de objektive evalueringene gjorde den komplekse det dårligere i sammenligning med den ikke-komplekse versjonen av nettverket. Analysene våre resulterte i at den konvolusjonsbaserte U-Net, justert med et motstandsnettverk, er modellen som samlet forbedret talesignalene med ulike støynivåer best. I denne oppgaven har vi har designet et dypt nevralt nettverk som reduserer støy fra tale som potensielt kan integreres i et multimediasystem for å sikre digitale samtaler med høy kvalitet.
dc.description.abstractBackground noise in digital voice communication is disturbing, and it is desirable to reduce the noise for pleasant conversation. In cooperation with Cisco Systems Norway, this study contributes to the research on speech enhancement systems based on deep learning. We aim to reduce various types of noise by implementing known neural networks and frameworks, augmented by psychoacoustic elements. A convolutional neural network was modified to examine the impact of the phase information, complex convolutions, and temporal dependencies. To optimize the network's parameters and training target, a Design-of-Experiments approach was utilized, and one of its outcomes was to exclude the recurrent features. The network was also combined in an adversarial framework to fine-tune the model. The enhanced speech's quality and intelligibility were assessed by three objective evaluation metrics and one subjective listening test, including a comparison with two external models. In the subjective listening test, phase-awareness with complex convolutions gave a less distorted speech, although it performed inadequately compared to the real-valued model in the objective evaluations. The model that performed best across different noise levels was the convolutional U-Net fine-tuned in an adversarial framework. Overall, we have designed a deep neural network to reduce noise in speech signals, and it can potentially be integrated into a multimedia system to obtain high-quality digital conversations.
dc.languageeng
dc.publisherNTNU
dc.titleEnhancement of Noisy Speech Using Deep Learning
dc.typeMaster thesis


Files in this item

FilesSizeFormatView

This item appears in the following Collection(s)

Show simple item record