Multi-Instrument Automatic Music Transcription with Deep Learning

Grønbech, Henrik

dc.contributor.advisor	Gambäck, Björn
dc.contributor.author	Grønbech, Henrik
dc.date.accessioned	2022-02-15T18:19:28Z
dc.date.available	2022-02-15T18:19:28Z
dc.date.issued	2021
dc.identifier	no.ntnu:inspera:74730513:21724484
dc.identifier.uri	https://hdl.handle.net/11250/2979217
dc.description.abstract	Automatisk transkribering av musikk går ut på å bruke datamaskiner til å transformere lydfiler til en symbolsk representasjon, som MIDI-filer («Musical Instrument Digital Interface») eller noter. Denne oppgaven er den musikalske versjonen av tale til tekst og er vel så nyttig som tekst er for naturlig språk. Noter hjelper musikere å lære musikk og brukes også under fremføringer. Digitale representasjoner av musikk kan brukes til å remikse musikk eller lage nye arrangementer og for å analysere akkordprogresjoner og andre strukturer i musikken. Automatisk transkribering av musikk har lenge blitt sett på som en av de vanskeligste oppgavene innenfor digital signalbehandling, men med utviklingen av dyp læring har problemet nesten blitt løst for piano med en state-of-the-art note-F1-verdi på 96,72. Målet med denne masteroppgaven er å utvide transkriberingen til et flerinstrumentmiljø. Den første gruppen eksperimenter i denne oppgaven undersøker ulike arkitekturer og effekten av å separere lydfilene med eksisterende modeller på forhånd. Disse eksperimentene viser at den eksisterende enkeltinstrumentarkitekturen fungerer godt i et flerinstrumentmiljø. Resultatene blir enda bedre med en kombinert musikkseparerings- og transkriberingsarkitektur. Separering av lydfilene på forhånd ga ikke bedre resultater, men modellen var heller ikke finjustert på datasettet brukt i eksperimentene. Et annet eksperiment viser at det er mulig å trene en universell transkriberingsmodell. Denne modellen er trent på lydfiler av et fullt band og klarer å transkribere enkeltinstrumenter med en note-F1-verdi på 90,6 på piano og 95,8 bass – rett bak state-of-the-art-verdiene for piano. Resultatene varierer likevel mye mellom ulike instrumenttyper, og note-med-slutt-resultatene ligger langt bak state-of-the-art for alle instrumenttypene utenom bass. I det siste eksperimentet er det trent en modell som transkriberer alle instrumenter på én gang og klassifiserer notene som piano, gitar, bass, trommer og annet. Alle modellene kjører i 5-10 ganger sanntid på CPU og 10-100 ganger på GPU. Alle eksperimentene er utført på det MIDI-genererte datasettet Slakh. Gjennom arbeidet med dette datasettet har flere feil ble funnet og rapportert til de som lagde datasettet. En effektiv datalaster i maskinlæringsverktøyet PyTorch har blitt laget som tar høyde for disse feilene og gjør det lett for andre å reprodusere eksperimentene.
dc.description.abstract	Automatic music transcription (AMT) is the task of using computers to turn audio of music into a symbolic representation such as Musical Instrument Digital Interface (MIDI) or sheet music. This task can be regarded as the musical analog of speech-to-text and the symbolic representation is at least as useful as written text is for natural language. Sheet music enables musicians to learn new pieces and can aid during live performances. Digital music representations can be used to remix music, create new arrangements, and analyze chord progressions and other musical structures. Automatic music transcription has long been regarded as one of the most difficult tasks in signal processing, but with the progress in deep learning the performance in a single-instrument setting on piano is almost solved with a state-of-the-art note F1 score of 96.72. The goal of this Master’s Thesis is to extend this to a multi-instrument setting and several experiments have been conducted. The first set of experiments investigates different architectures and music source separation pre-processing for multi-instrument AMT. These experiments show that the current single-instrument AMT model works well on a multi-instrument audio source, and can be further enhanced by using a joint music source separation and automatic music transcription architecture. Music source separation pre-processing did not improve performance, but the model was not fine-tuned on the used dataset. Another experiment shows that it is possible to train a universal note-level AMT model solely on a mixture audio source. This model reaches a note F1 scores of 90.6 on piano and 95.8 on bass audio, only slightly behind the current state-of-the-art in the single-instrument setting. The transcription performance varies greatly between instrument classes and the note-with-offset scores are still far behind the current single-instrument for all instrument classes except bass. Finally, a stream-level model is trained that is able to transcribe piano, guitar, bass, drum and all the pitched instruments simultaneously in 5-10 times real-time performance on CPU and 10-100 times real-time performance on GPU. All the experiments are conducted on the synthetically rendered MIDI dataset Slakh. During the work on this dataset, several systematic and non-systematic errors were found and reported to the creators of the dataset. An efficient and convenient PyTorch data-loader is created for this dataset which addresses these errors and enables reproducibility.
dc.language	eng
dc.publisher	NTNU
dc.title	Multi-Instrument Automatic Music Transcription with Deep Learning
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:74730513:21724 ...
Størrelse:: 13.94Mb
Format:: PDF

Åpne

Filnavn:: no.ntnu:inspera:74730513:21724 ...
Størrelse:: 553.9Kb
Format:: application/zip

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6559]

Vis enkel innførsel