Music That Feels Just Right
Abstract
Denne masteroppgaven utforsker gjenkjenning av følelser i musikk, og automatisk komponering av ny musikk ved bruk av den følelse-klassifiserte musikken som grunnlag.
For klassifisering av følelser brukes et dypt nevralt nettverk på et datasett bestående av 900 sanger innenfor populærmusikksjangeren. Musikken prosesseres som rene lydbølger, uten preprosessering av eksplisitte overordnede trekk ved musikken. Følelsene som brukes til klassifisering er kategorisert som fire kvadranter i et X/Y plan over valens og energi.
For musikkomponering brukes en generativ modell basert på kunstig relativ selvbevissthet ved navn Pop Music Transformer. Musikken representeres som sekvenser av MIDI-lignende hendelser. Dette fasiliterer for sammenheng over lengre tid i musikken, rytmiske møstre og lokale tempoendringer. Trening gjøres på MAESTRO-datasettet, et datasett som består av klassisk pianomusikk i både MIDI- og MP3-format.
I skjæringspunktet mellom klassifiseringsmodellen og komposisjonsmodellen er det satt opp en automatisk sammenkobling som tar inn en ønsket følelse som parameter. Klassifiseringsmodellen ble brukt til å predikere følelsene uttrykt i MAESTRO-datasettet. Systemet klarte i hovedsak kun å bruke de to lav-energi-kvadrantene i denne klassifiseringen, grunnet den naturlige lavere energien man i hovedsak finner i pianomusikk sammenlignet med popmusikk generelt.
Klassifiseringsmodellen nådde testnøyaktighet på mellom 50 og 60% i en rekke eksperimentelle oppsett beskrevet i denne masteroppgaven. Musikkomponeringen ble vurdert ved hjelp av en spørreundersøkelse, som hadde som hovedmål å undersøke hvorvidt den ønskede følelsen virkelig ble formidlet i den komponerte musikken. Resultatene fra spørreundersøkelsen viste at den komponerte musikken ikke svarte til tersklene for de ønskede kvadrantene. Allikevel var det mulig å til en viss grad skille resultatene for de ulike kvadrantene, særlig innenfor valensaksen, noe som viser systemets evne til å lære seg særtrekk for hva som utgjør høy og lav valens i musikken. This Master's Thesis explores the challenge of emotion recognition in music (MER), and the automatic composition of new music by using the emotion-annotated music as its basis.
For emotion classification, a deep neural network is used on a 900-sample dataset of popular music. Music is processed as raw waveforms, without any pre-processing of specific music features. Emotions are distinguished in four quadrants in the X/Y plane of valence and arousal.
For music composition, a self-attention-based generative model named the Pop Music Transformer is used. Music is represented as sequences of MIDI-like events, facilitating for long-range coherence, rhythmic patterns and local tempo changes. Training is done on the MAESTRO dataset, a dataset consisting of classical piano pieces, containing both MIDI and MP3 file formats of each sample.
Between the classification model and the composition model, an automatic pipeline taking a desired emotion as input is set up. The emotion classification system is used to predict emotions on the MAESTRO dataset. The system could mostly only predict music belonging to low-energy quadrants, due to the naturally lower energy overall in the classical piano genre compared to pop music overall.
The classification system reaches testing accuracy of between 50 and 60% in different experimental setups described in this thesis. Music composition is evaluated by the use of a survey, with the main purpose of discovering whether the intended emotions were indeed conveyed by the composed music. Survey results proved that the composed music did not adhere directly to the intended quadrants. However, valence levels proved somewhat distinguishable in the music composed, proving the system's ability to learn characteristic features of valence in emotions.