Emotion Recognition from Speech and Instrumental Music: Proof of Shared Emotional Code Through Transfer Learning
Master thesis
Permanent lenke
https://hdl.handle.net/11250/3056859Utgivelsesdato
2022Metadata
Vis full innførselSamlinger
Sammendrag
Følelser er en stor del av menneskelig tilværelse---både i oss selv, men også gjenkjennelig f.eks. i andre mennesker via stemme og i musikk. Å forstå hvordan følelser overføres via lyd er derfor veldig relevant. Tidligere forskning har hypotetisert og funnet bevis for delt emosjonell koding mellom disse to typene for affektiv lyd. Hovedmålet for denne avhandlingen er å undersøke overlappet for den emosjonelle kodingen mellom naturlig tale (ikke skuespill) og instrumentell musikk. Instrumentell musikk er den formen for musikk som inneholder minst tale, og er derfor den sterkeste settingen å utlede bevis fra (kontra musikk med vokaler).
En strukturert litteraturgjennomgang for SER ('speech emotion recognition') og MER ('music emotion recognition') er inkludert her, samt 'transfer learning'-forskning mellom domenene. To følelses-taksonomier blir sammenlignet, med fokus på egnethet og potensiale for denne konteksten. Videre kompileres et helt nytt datasett for instrumentell musikk (tilgjengelig på Github), med statiske følelsesrangeringer i form av de emosjonelle dimensjonene 'valence' og 'arousal'. I tillegg ble det laget en optimalisert og 'graph'-kompatibel 'Keras-layer'-implementasjon for 'dilated LSTM'.
Eksperimenter utføres i stor skala med transfer learning fra SER (trening) til MER (testing). Dette har aldri blitt gjort før. En ekstra eksperimentell setting gjøres for å kunne sammenligne; MER-til-MER. To skreddersydde nevrale nettverksarkitekturer (maskinlæring) utforskes: DCNN ('dilated CNN') og ADCRNN ('attention dilated CNN RNN').
DCNN klarte 33.2% 'accuracy' i SER-til-MER-settingen, og 43.1% for MER-til-MER. ADCRNN skåret 30.7% og 49.2%, for SER-til-MER og MER-til-MER, henholdsvis. Resultatene er bevis på at minst noen deler av domenenes emosjonelle koding er den samme---som også stemmer overens med resultater fra nevrologisk forskning i hjernen. Dette beviset er reflektert via signifikant bedre SER-til-MER ytelse enn en sammenligningsmodell som brukte ren tilfeldighet (24% accuracy). Mer spesifikt, så har overlapp blitt bevist for den emosjonelle dimensjonen arousal (sterkere) og valence (svakere overlapp). Siden den sanne mengden av overlapp, i virkeligheten, fremdeles er ukonkludert, så foreslås fremtidig arbeid for videre undersøkelse. Emotion is a large part of the human experience---within ourselves, but also recognizable from e.g. affective sound like speech and music. Understanding how emotion is transmitted through sound is therefore highly relevant. Previous research has hypothesized and found supporting evidence of a shared emotional coding between these two forms of affective sound. The main goal of this thesis is to investigate the emotional coding overlap between natural (non-acted) speech and instrumental music. Instrumental music contains the least speech, and is therefore a stronger case to derive evidence from (than music with vocals).
A structured literature review of speech emotion recognition (SER) and (MER) is included, plus some additional transfer learning research between the domains. Two emotional taxonomies are compared in terms of suitability and potential. Moreover, a novel instrumental music dataset is compiled (available on Github), with static valence and arousal ratings. An optimized and graph-compatible Keras-layer implementation for a dilated LSTM was also made.
Experiments are done in large scale through direct transfer learning from SER (training) to MER (testing), which has never before been attempted. The second experimental setting is MER to MER, for comparison. Two customized neural network architectures are explored: DCNN (dilated CNN) and ADCRNN (attention dilated CNN RNN).
The DCNN managed 33.2% accuracy in the SER to MER setting, and 43.1% in the MER to MER setting. ADCRNN scored 30.7% and 49.2%, for the SER to MER and MER to MER settings (respectively). The experimental results are proof that at least some part of the domains' emotional coding are common---which is also analogous to previous neurological findings in the human brain. This proof is reflected by significantly stronger SER to MER performance than the random baseline (24% accuracy). More specifically, overlap has been proved for the emotional dimensions of arousal (stronger) and for valence (less). As the true overlap, in reality, is inconclusive based on the present results, future work is proposed for further exploration.