Vis enkel innførsel

dc.contributor.advisorGambäck, Björn
dc.contributor.authorNottveit, Mats Jaer
dc.contributor.authorStrømsodd, Håkon Anders
dc.date.accessioned2023-11-23T18:20:15Z
dc.date.available2023-11-23T18:20:15Z
dc.date.issued2023
dc.identifierno.ntnu:inspera:142737689:35304285
dc.identifier.urihttps://hdl.handle.net/11250/3104436
dc.description.abstractAutomatisk Musikktranskripsjon (AMT) er en teknikk som innebærer å bruke en algoritme til å konvertere et lydopptak til et musikknotasjonsformat som for eksempel MIDI eller noter. AMT-systemer med god ytelse kan være til nytte for musikere på alle nivåer og kan være svært tidsbesparende dersom en transkripsjon av et musikkstykke er nødvendig. AMT er imidlertid ansett som en svært vanskelig oppgave, selv for mennesker, og ordentlige fremskritt innen feltet har kun skjedd de siste fem årene (2018-2023). Denne nylig økte interessen for AMT og de tilhørende fremskrittene i ytelsen til de toppmoderne AMT-systemene skyldes hovedsakelig økt tilgjengelighet av treningsdata samt nylig utvikling innenfor dyp læring. De nåværende toppmoderne AMT-systemene viser svært gode resultater i enkeltinstrumentstranskripsjon. De fleste av disse modellene er imidlertid begrenset til pianotranskripsjon, ettersom store deler av den tilgjengelige treningsdataen kun inneholder piano. Treningsdata som inneholder flere enn ett instrument er fortsatt veldig begrenset, noe som negativt påvirker ytelsen til AMT-systemene for flerinstrumentstranskripsjon. De nåværende toppmoderne AMT-systemene for flerinstrumentstranskripsjon viser om lag 20% dårligere resultater på datasett med flere instrumenter enn på datasett med kun ett instrument. Dette støtter påstanden om at mangelen på treningsdata fortsatt er den største hindringen for ytterligere forbedring av flerinstrumentstranskripsjon. For å takle denne mangelen på data, hadde denne masteroppgaven som mål å undersøke bruk av selvstyrte læringsalgoritmer sammen med AMT for å observere hvordan dette påvirker ytelsen til en transkripsjonsmodell. Under eksperimentene som ble gjennomført i denne masteroppgaven ble SimSiam-algoritmen brukt til å muliggjøre trening på umerket data. I motsetning til tidligere arbeid innenfor AMT tillater denne treningsmetoden bruk av umerket data (data som kun inneholder lydopptak) i tillegg til tradisjonelle AMT-datasett. Dette utvider dermed utvalget av tilgjengelig treningsdata. Eksperimentene gjennomført i denne masteroppgaven undersøker ulike måter man kan kombinere SimSiam-algoritmen med den eksisterende AMT-modellen «Onsets and Frames». De fleste av disse eksperimentene resulterte i gjennomsnittlig dårligere ytelse enn tradisjonelle AMT-modeller som ikke benytter seg av SimSiam-algoritmen. Den beste modellen fra eksperimentene oppnådde om lag 2,5% dårligere resultater enn de toppmoderne systemene. Selv om noen av eksperimentene beviste at den forhåndstrente modellen greide å lære visse musikalske trekk, var ikke dette tilstrekkelig til å øke ytelsen til modellen. Dette peker mot konklusjonen om å kombinere SimSiam-algoritmen med den eksisterende «Onsets and Frames»-modellen ikke bidrar til økt ytelse. Alle transkripsjonsmodellene fra disse eksperimentene ble trent på Slakh2100-datasettet samt MTG-Jamendo-datasettet (MTG-J) der sistnevnte kun inneholder lydklipp. Under arbeidet ble en PyTorch-datainnlaster med åpen kildekode utviklet, spesifikt for lasting av MTG-J-datasettet. Denne datainnlasteren gjør at data kan hentes raskt og enkelt under trening og sørger for at parallellisering kan utnyttes. Sistnevnte medfører at innlastingstidene under trening reduseres med en faktor på 10.
dc.description.abstractAutomatic Music Transcription (AMT) is a technique that involves utilising an algorithm to convert a musical recording into a musical notation format such as Musical Instrument Digital Interface (MIDI) or sheet music. AMT systems with good performance can provide value to musicians of all levels and can save considerable amounts of time when a transcription is needed. However, AMT is a difficult task, even for humans, and has only seen significant leaps in performance in the past five years (2018-2023). This recent interest in AMT and the accompanying increase in state-of-the-art performance is primarily attributed to the improved availability of training data and recent developments in deep learning. Current state-of-the-art AMT systems perform very well in single-instrument settings. However, most of these models are limited to piano transcriptions since the available datasets primarily consist of piano performances. Training data containing multiple instruments is still severely limited, which negatively impacts the performance of multi-instrument AMT models. Current state-of-the-art multi-instrument transcription models perform around 20% worse on multi-instrument datasets than on single-instrument datasets. This supports the observation that the lack of multi-instrument training data is still the biggest roadblock for further improvement of multi-instrument AMT models. To address this lack of data, this thesis aimed to investigate the use of self-supervised learning with AMT and observe how this affects the performance of the transcription model. In the experiments conducted in this thesis, the Simple Siamese representation learning algorithm was used to enable pre-training on unlabelled data. Unlike any previous related work, this method allows for the use of datasets containing only audio in addition to traditional AMT datasets, thereby expanding the range of usable training data. The experiments carried out in this thesis investigate different ways of combining the Simple Siamese learning algorithm with the existing Onsets and Frames AMT model. The majority of these experiments performed on average worse when compared to traditional AMT models not utilising the Simple Siamese training algorithm. The best model from the experiments achieved multi-instrument performance metrics 2.5% lower than state-of-the-art models. While some experiments proved that the pre-trained model was able to learn some musical features, it was not enough to enhance transcription performance. These results point to the conclusion that combining the Simple Siamese training algorithm with the Onsets and Frames architecture does not contribute to a positive increase in performance. All transcription models from the experiments were trained on the Slakh2100 dataset, while the MTG-Jamendo (MTG-J) dataset containing only audio recordings was utilised during pre-training. An open-source PyTorch data loader specifically for use with the MTG-J dataset was created, enabling fast and easy loading of audio. Additionally, this data loader provided parallelisation during loading and is capable of speeding up loading times during training by a factor of 10.
dc.languageeng
dc.publisherNTNU
dc.titleAutomatic Music Transcription Using Self-Supervised Learning
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail
Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel