Utilizing Audio Plugins for Automatic Music Transcription

Dyvik, Klaus; Waaler, Fredrik

dc.contributor.advisor	Gambäck, Björn
dc.contributor.author	Dyvik, Klaus
dc.contributor.author	Waaler, Fredrik
dc.date.accessioned	2022-10-20T17:20:03Z
dc.date.available	2022-10-20T17:20:03Z
dc.date.issued	2022
dc.identifier	no.ntnu:inspera:112046434:23691194
dc.identifier.uri	https://hdl.handle.net/11250/3027416
dc.description.abstract	Denne masteroppgaven undersøker hvilken effekt digitale verktøy for musikkproduksjon kan ha på ytelsen til løsninger innenfor Automatisk Transkripsjon av Musikk (ATM). For å gi en detaljert og grundig undersøkelse av dette, presenterer denne rapporten et system som kan prosessere både lyd og MIDI med digitale effekter og instrumenter. Dette systemet benyttes til å generere nye datasett basert på flere datasett populært brukt i ATM-løsninger. De produserte datasettene blir videre brukt som treningsdata i et moderne ATM-system for å se til hvilken grad teknikkene brukt fungerer gjennom ulike eksperimenter. ATM handler om å automatisk innhente informasjon om hvilke noter som blir spilt av i et musikalsk stykke, samt hvilken stil stykket er i. Dette er et fagfelt med mange mulige bruksområder, f.eks. i læring og produsering av musikk. Selv om det i de siste årene har blitt rapportert om løsninger i feltet med brukbar ytelse, er det fortsatt et stykke igjen å gå før disse løsningene oppnår perfekt transkripsjonsevne. Den største bremsen for fremgang innenfor ATM antas å være mangel på store og godt annoterte datasett. For å kompensere for dette har flere løsninger tidligere blitt foreslått som forsøker å augmentere eksisterende musikk-data for å øke ytelsen til automatiske transkriberingsmodeller. Disse løsningene har brukt varierende fremgangsmåter som enkle endringer i toner, til mer avanserte teknikker som for eksempel endring av lyd ved hjelp av kunstig intelligens. Det er dog til nå ingen som har undersøkt hvordan digitale verktøy for musikkproduksjon kan brukes til å automatisk endre musikalsk data, samt hva slags innvirkning dette har på automatisk transkribering. Dette er verktøy som er spesialutviklet for å endre musikalske signaler på nær uendelige måter. Gitt riktig bruk burde de derfor kunne benyttes til å generere data som kan supplementere eksisterende musikalske datasett for økt ytelse og resultater. Eksperimentene gjort i sammenheng med denne rapporten viser at slike metoder kan ha positiv innvirkning på transkripsjonsytelse. Transkripsjonsevne økes for enkelte filer i valideringsdataen til flere datasett. I tillegg viser noen eksperimenter økt presisjon over hele datasett. Slike metoder har i sin helhet dog hatt negativ innvirkning på ytelse for ATM-systemet. I rapporten er det foretatt en grundig evaluering av hvorfor disse resultatene har forekommet. Videre diskuteres hvilke faktorer som må ligge til grunn for at digitale verktøy for musikkproduksjon kan øke ytelse for ATM-systemer i senere forsøk.
dc.description.abstract	Pertaining to the field of Automatic Music Transcription (AMT), this thesis investigates the effect that digital audio plugins has on transcription performance, when used to augment existing musical data. To best examine this, the thesis presents a complete system, capable of rendering both audio and Musical Instrument Digital Interface (MIDI) data through digital effects and digital instruments. Additionally, the system comes with a variety of optional settings, providing intricate control of the rendering process. The presented system is used to produce new datasets, based on popular datasets used in AMT. The produced data is then used together with a state-of-the-art music transcription model to get numerical quantification of how the rendering affects the prediction performance of the model. This is done over a variety of experiments to get a broad understanding of the weak and strong points of the rendering approach. Generally, AMT refers to the process of using a computer to recreate the notes and performance style details from a piece of music. Its many possible use cases spans learning applications (e.g. presenting an instrument learner with the notation to any given song) and artistic work (e.g. sampling and remixes), to name a few. However, lack of large and well annotated datasets is among the hinders that so far have kept AMT models from reaching satisfactory performance. Previously there have been several attempts to remedy the deficiency in musical data, using different kinds of augmentation approaches. These have spanned simple pitch-shifting to advanced Artificial Intelligence (AI) based vocoders. While some of these attempts have been successful, the augmentation process is usually quite uniform across the data, relying on one or a few techniques for all augmentations. This puts a limitation on how diverse the augmented data can become, and consequently on which weak-points can be addressed in the existing musical data. This thesis hypothesizes that by using audio plugins for musical augmentation, the rendering possibilities at hand are near infinite. In turn, this should give vast potential for remedying many deficiencies in current musical datasets. The experiments conducted in this thesis show that validation performance has increased on several individual files, and even the overall precision score over entire datasets, when trained with the augmented data. On a general basis, however, the experiments show that plugin-rendered data tend to perform worse than their original counterparts. Together with these findings and a thorough review of the limitations and current capabilities of the system, this thesis serves as a starting point for using audio plugins to improve state-of-the-art AMT. Additionally, in light of the experimental results, a range of possibilities for future improvements are discussed.
dc.language	eng
dc.publisher	NTNU
dc.title	Utilizing Audio Plugins for Automatic Music Transcription
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:112046434:2369 ...
Størrelse:: 10.30Mb
Format:: PDF

Åpne

Filnavn:: no.ntnu:inspera:112046434:2369 ...
Størrelse:: 374.5Kb
Format:: application/zip

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6564]

Vis enkel innførsel