Vis enkel innførsel

dc.contributor.advisorSætre, Rune
dc.contributor.authorTherkelsen, Bjørn Are
dc.date.accessioned2022-10-07T17:31:26Z
dc.date.available2022-10-07T17:31:26Z
dc.date.issued2022
dc.identifierno.ntnu:inspera:112046434:31044888
dc.identifier.urihttps://hdl.handle.net/11250/3024695
dc.description.abstractDenne masteroppgaven utforsker hvordan man kan skille forskjellige pianister basert på deres stiler. Stilene kvantifiseres ved hjelp av sansbare egenskaper (såkalte Mid-Level Perceptual Features, MLPF) i opptak fra enkeltsanger. Et nytt datasett med MLPF-er ble samlet inn ved hjelp av musikalske domeneeksperter, og gullstandarder ble beregnet basert på gjennomsnittlige fordelinger av ekspertenes svar. Rekurrente nevrale nettverk (RNN-er) ble opplært til å predikere MLPF-ene og til å gjenkjenne individuelle pianister. RNN-ene bruker sekvenser av preprosesserte noter som er blitt automatisk justert mot de opprinnelige nedskrevne notene. Ytelsen til RNN-baserte modeller på MLPF-prediksjonsoppgaven ble evaluert ved å bruke $R^2$ score. Selv om gullstandarden var basert på svarene til domeneeksperter, kom RNN-modellene nærmere gullstandarden enn ekspertene selv. Imidlertid fikk både modellene og ekspertene negative R^2 verdier. De RNN-baserte modellene var i stand til å gjenkjenne individuelle pianister med en nøyaktighet på 82,8%. Gjenkjenningsnøyaktigheten ble redusert med minst 7,5% når MLPF-ene ble introdusert som et mellomtrinn i beregningsprosessen. Beregning av interklassekorrelasjonene i MLPF-datasettet viser at bare noen få av MLPF-ene anses som pålitelige. Dette antyder at dette nye datasettet med MLPF-er er for lite eller at svarene er for subjektive til å trene modeller til å forutsi MLPF-er. Ytterligere datainnhenting og en kommende prediksjonskonkurranse vil prøve å løse disse utfordringene.
dc.description.abstractThis master's thesis explores how to distinguish pianists based on their expressive style. The styles are quantified based on extracted Mid-Level Perceptual Features (MLPFs) from piano performances. A new dataset of MLPFs was collected using musical domain experts, and ground truths were calculated based on the distributions of the experts' labels. Recurrent Neural Networks (RNNs) were trained to predict MLPFs and recognize individual pianists. The RNNs use sequences of played notes, automatically aligned to the original scores, as input. The performance of the RNNs on the MLPF prediction task was evaluated using R^2 (coefficient of determination) scores. Even though the ground truths were based on the labels of domain experts, RNN models got closer to the ground truths than the experts. However, both the models and the experts had negative R^2 scores. RNN-based models were able to recognize individual pianists with an accuracy of 82.8%. The recognition accuracy was reduced by at least 7.5% when the MLPFs were used as an intermediate step. Calculating the interclass correlations of the dataset shows that only a few of the MLPFs for piano performance styles are considered reliable. This indicates that the new dataset of MLPFs is too small and subjective to train models to predict MLPFs. Extra collection of data and an MLPF prediction competition will try to solve these problems.
dc.languageeng
dc.publisherNTNU
dc.titleAutomatically Quantifying the Expressive Style of Piano Performances
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail
Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel