Vis enkel innførsel

dc.contributor.advisorAune, Erlend
dc.contributor.advisorLee, Daesoo
dc.contributor.authorSolberg, Aleksander Johnsen
dc.date.accessioned2023-11-14T18:19:44Z
dc.date.available2023-11-14T18:19:44Z
dc.date.issued2023
dc.identifierno.ntnu:inspera:140649151:20904031
dc.identifier.urihttps://hdl.handle.net/11250/3102574
dc.description.abstractMusikalsk kildeseparering er en utfordrende oppgave innen lydsignalbehandling som har som mål å ekstrahere individuelle kilder fra en musikalsk blanding, for eksempel å separere vokal fra bakgrunnsmusikk. I de siste årene har diffusjonsmod- eller dukket opp som en kraftig klasse av generative modeller med bemerkelsesverdig ytelse på ulike områder. Denne oppgaven utforsker anvendelsen av diffusjonsmodeller til separering av musikalske kilder og undersøker deres fordeler og svakheter i forhold til tidligere modeller. Det primære målet med denne studien er å utvikle og evaluere diffusjonsmod- eller for musikalsk kildesepararering ved hjelp av tre ulike tilnærminger. Den første tilnærmingen benytter en standard diffusjonsprosess for å generere spek- trogrammene til de separate kildene. Den andre tilnærmingen er lignende den første, men bruker en latent diffusjonsprosess. Den tredje tilnærmingen bruker en latent diffusjonsprosess for å generere en tid-frekvens maske som deretter påføres den musikalske blandingen. Disse modellene sammenlignes med en modell som ikke er basert på diffusjon for evaluering. Evalueringen gjennomføres ved bruk av objektive målinger i tillegg til en subjektiv vurdering. Resultatene viser at de trente diffusjonsmodellene ikke klarte å overgå den enklere modellen i denne oppgaven når det gjelder lydkvalitet. Imidlertid er fordelen med direkte generering av spektrogrammene til de separerte kildene fremfor å basere seg på maskeringsmetoder tydelig. Den direkte tilnærmingen viser bedre eliminering av de andre kildene i den estimerte lyden og kan derfor være lovende for fremtidige fremskritt innen musikalsk kildeseparering.
dc.description.abstractMusical Source Separation (MSS) is a challenging task in audio signal processing that aims to extract individual sources from a musical mixture, such as separating vocals from background music. In recent years, diffusion models have emerged as a powerful class of generative models that have shown remarkable performance in various domains. This thesis explores the application of diffusion models to MSS and investigates their advantages and limitations compared to previous models. The primary objective of this study is to develop and evaluate diffusion models for MSS using three different approaches. The first approach involves applying a standard diffusion process to generate the spectrograms of the separated sources. The second approach is similar to the first, but it employs a latent diffusion process. The third approach uses a latent diffusion process to generate a Time-Frequency (TF) mask which is then applied to the mixture audio. These models are compared to a non-diffusion-based model for evaluation. Evaluation is done using objective performance measures in addition to a subjective evaluation. The results show that the trained diffusion models were not able to surpass the simpler model in this task in terms of audio quality. However, the advantage of directly generating the spectrograms of the separated sources rather than relying on mask-based approaches is evident. The direct approach outperforms the mask-based approach in terms of suppressing the other sources in the estimated audio and could therefore hold promise for future advancements in MSS.
dc.languageeng
dc.publisherNTNU
dc.titleMusical Source Separation using Diffusion Models
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel