Utilizing Audio Plugins for Automatic Music Transcription: How Production Tools Can Help Alleviate Dataset Deficiencies
Abstract
Denne masteroppgaven undersøker hvilken effekt digitale verktøy for musikkproduksjonkan ha på ytelsen til løsninger innenfor Automatisk Transkripsjon av Musikk (ATM).For å gi en detaljert og grundig undersøkelse av dette, presenterer denne rapporten etsystem som kan prosessere både lyd og MIDI med digitale effekter og instrumenter. Dettesystemet benyttes til å generere nye datasett basert på flere datasett populært brukti ATM-løsninger. De produserte datasettene blir videre brukt som treningsdata i etmoderne ATM-system for å se til hvilken grad teknikkene brukt fungerer gjennom ulikeeksperimenter.
ATM handler om å automatisk innhente informasjon om hvilke noter som blir spilt av iet musikalsk stykke, samt hvilken stil stykket er i. Dette er et fagfelt med mange muligebruksområder, f.eks. i læring og produsering av musikk. Selv om det i de siste årene harblitt rapportert om løsninger i feltet med brukbar ytelse, er det fortsatt et stykke igjen ågå før disse løsningene oppnår perfekt transkripsjonsevne.
Den største bremsen for fremgang innenfor ATM antas å være mangel på store og godtannoterte datasett. For å kompensere for dette har flere løsninger tidligere blitt foreslåttsom forsøker å augmentere eksisterende musikk-data for å øke ytelsen til automatisketranskriberingsmodeller. Disse løsningene har brukt varierende fremgangsmåter somenkle endringer i toner, til mer avanserte teknikker som for eksempel endring av lyd vedhjelp av kunstig intelligens.
Det er dog til nå ingen som har undersøkt hvordan digitale verktøy for musikkproduksjonkan brukes til å automatisk endre musikalsk data, samt hva slags innvirkning dette har påautomatisk transkribering. Dette er verktøy som er spesialutviklet for å endre musikalskesignaler på nær uendelige måter. Gitt riktig bruk burde de derfor kunne benyttes til ågenerere data som kan supplementere eksisterende musikalske datasett for økt ytelse ogresultater.
Eksperimentene gjort i sammenheng med denne rapporten viser at slike metoder kanha positiv innvirkning på transkripsjonsytelse. Transkripsjonsevne økes for enkelte fileri valideringsdataen til flere datasett. I tillegg viser noen eksperimenter økt presisjonover hele datasett. Slike metoder har i sin helhet dog hatt negativ innvirkning på ytelsefor ATM-systemet. I rapporten er det foretatt en grundig evaluering av hvorfor disseresultatene har forekommet. Videre diskuteres hvilke faktorer som må ligge til grunnfor at digitale verktøy for musikkproduksjon kan øke ytelse for ATM-systemer i senereforsøk. Pertaining to the field of Automatic Music Transcription (AMT), this thesis investigates the effect that digital audio plugins has on transcription performance, when used to augment existing musical data. To best examine this, the thesis presents a complete system, capable of rendering both audio and Musical Instrument Digital Interface (MIDI) data through digital effects and digital instruments. Additionally, the system comes with a variety of optional settings, providing intricate control of the rendering process. The presented system is used to produce new datasets, based on popular datasets used in AMT. The produced data is then used together with a state-of-the-art music transcription model to get numerical quantification of how the rendering affects the prediction performance of the model. This is done over a variety of experiments to get a broad understanding of the weak and strong points of the rendering approach.
Generally, AMT refers to the process of using a computer to recreate the notes and performance style details from a piece of music. Its many possible use cases spans learning applications (e.g. presenting an instrument learner with the notation to any given song) and artistic work (e.g. sampling and remixes), to name a few. However, lack of large and well annotated datasets is among the hinders that so far have kept AMT models from reaching satisfactory performance.
Previously there have been several attempts to remedy the deficiency in musical data, using different kinds of augmentation approaches. These have spanned simple pitch-shifting to advanced Artificial Intelligence (AI) based vocoders. While some of these attempts have been successful, the augmentation process is usually quite uniform across the data, relying on one or a few techniques for all augmentations. This puts a limitation on how diverse the augmented data can become, and consequently on which weak-points can be addressed in the existing musical data. This thesis hypothesizes that by using audio plugins for musical augmentation, the rendering possibilities at hand are near infinite. In turn, this should give vast potential for remedying many deficiencies in current musical datasets.
The experiments conducted in this thesis show that validation performance has increased on several individual files, and even the overall precision score over entire datasets, when trained with the augmented data. On a general basis, however, the experiments show that plugin-rendered data tend to perform worse than their original counterparts. Together with these findings and a thorough review of the limitations and current capabilities of the system, this thesis serves as a starting point for using audio plugins to improve state-of-the-art AMT. Additionally, in light of the experimental results, a range of possibilities for future improvements are discussed.