Uniting Music and Painted Art Using Emotion Categories and Metadata

Langvik, Hedda Mathilde Sæther

dc.contributor.advisor	Gambäck, Björn
dc.contributor.author	Langvik, Hedda Mathilde Sæther
dc.date.accessioned	2022-10-07T17:31:06Z
dc.date.available	2022-10-07T17:31:06Z
dc.date.issued	2022
dc.identifier	no.ntnu:inspera:112046434:30065229
dc.identifier.uri	https://hdl.handle.net/11250/3024687
dc.description.abstract	Kunst i form av lyd kan fremprovosere audiell stimulus og visuell kunst kan provosere frem visuell stimulus. Begge disse typene av stimuli kan fremkalle følelser hos den som lytter eller observerer. Å se på malerier mens du lytter til musikk kan virke enda mer innflytelsesrikt enn å nyte kun én av kunstformene. Denne masteroppgaven prøver å finne en måte å forene auditiv og visuell kunst gjennom følelser. Motivasjonen for denne oppgaven handler om musikkens og kunstens eekt på mennesker og måter å fremprovosere visse følelser ved å bruke disse to kunstformene. Systemet som er beskrevet i denne oppgaven kan være nyttig for eksempel for å velge riktige malerier og musikk for en leges eller terapeuts venterom for å sette pasientene i det rette humøret. Musikkplattformer som Spotify kan også bruke dette systemet for å vise frem et passende maleri til lytteren som skal gi de samme følelsene som sangen. Det er opprettet et system som mottar en sang-ID fra TheAudioDB-databasen som input og gir malerier fra ulike datasett som output. Russells fire kvadranter (Q1 – glad, Q2 – sint, Q3 – trist og Q4 – avslappet) som er basert på “valence” og “arousal” har lagt grunnlaget for klassifisering av følelser. Sangen er kategorisert i en av Russells kvadranter basert på metadataene. Et datasett som inneholder informasjon om 900 sanger og deres valgte kvadranter er brukt til å trene opp en modell som kan kategorisere aldri-før-sett sanger basert på deres metadata. To datasett med bilder er brukt. Den første er WikiArt Emotions, som inkluderer over 4000 malerier og bilder og metadata om bildenes følelser. Det andre datasettet inkluderer fotografier av landskap i forskjellige årstider og er laget fra bunnen av ved hjelp av oentlige bilder fra Flickr. Bilde-til-bilde-oversettelse med CycleGAN har forvandlet disse fotografiene til Monet-lignende malerier. Bildene fra begge datasettene har blitt plassert i Russells fire kvadranter. Informasjonen om følelsene har blitt brukt til å bestemme bildenes kvadranter for det første datasettet. For det andre datasettet ble en hypotese brukt som grunnlag i kategorisering. Hypotesen sier at sommer- og vårlandskap passer godt inn i Q1 og Q4, mens høst- og vinterlandskap er bedre egnet i kvadrantene Q2 og Q3. Resultatene fra oppgavens system støtter forsiktig opp under denne hypotesen. Systemet er evaluert gjennom en brukerundersøkelse. Fem sanger ble valgt ut for å teste systemet. Totalt fire bilder ble valgt som output for hver testsang. Resultatene viser at deltakerne er uenige med systemet i de fleste av kategoriseringene til sangene. Bare én sang fikk samme kvadrant fra systemet og deltakerne i undersøkelsen. Noen av de intervjuede deltakerne nevnte at det var vanskelig å pare moderne poplåter med malerier fra det forrige århundre. Mer justering av parametere og bedre bruk av datasett kan forbedre teknologien og skape en morsom og spennende måte å koble musikk med kunst.
dc.description.abstract	Auditory art may provoke auditory stimuli, and visual art may provoke visual stimuli. Both of these types of stimuli can evoke emotions in the observer. Looking at paintings while listening to music can be even more influential than simply enjoying one art form. This Master’s Thesis researches a way to unite auditory and visual art through emotions. The motivation for this Master’s Thesis links to music and art’s eect on people and ways to provoke certain feelings using these two art forms. The system described in this thesis may be helpful, for example, in selecting the correct paintings and music for a doctor’s or therapist’s waiting lounge and setting the patients in the correct emotional space. Music platforms such as Spotify may also use the system to display a suitable painting to the listener that should evoke the same emotion as the song. A system is created which receives a song ID from TheAudioDB database as input and provides paintings from dierent image datasets as output. Russell’s four quadrants (Q1 – happy, Q2 – angry, Q3 – sad, and Q4 – relaxed) which are based on valence and arousal, provided the foundation of emotion classification. The song is categorised into one of Russell’s quadrants based on its metadata. A dataset containing information about 900 songs and their selected quadrants are used to train a model that can categorise never-before seen songs based on their metadata. Two image datasets are used. The first is WikiArt Emotions, which includes over 4000 paintings and pictures and metadata about the images’ labelled emotions. The second dataset includes photographs of landscapes in dierent seasons and is created from scratch using public images from Flickr. Image-to-image translation with CycleGANs is used to transform the photographs into Monet-like paintings. The images from both datasets are categorised into Russell’s quadrants. The emotion labels have been used to determine the images’ quadrant in the first dataset. For the second dataset, a hypothesis is used as the foundation in quadrant categorisation. The hypothesis states that summer and spring landscapes fit well into Q1 and Q4, while autumn and winter landscapes are better suited in the Q2 and Q3 quadrants. The results from the thesis slightly support this hypothesis. The system has been evaluated through a user survey. Five songs were selected to test the system, and a total of four images were selected as the output for each test song. The results show that the participants disagree with most of the system’s song categorisations. Only one song received the same quadrant from the system and the survey participants. Some interviewed participants mentioned that it was dicult to pair modern pop songs with paintings from the last century. More tuning of system parameters and better use of datasets could improve this technology and create a fun and exciting way to pair music with art.
dc.language	eng
dc.publisher	NTNU
dc.title	Uniting Music and Painted Art Using Emotion Categories and Metadata
dc.type	Master thesis

Files in this item

Name:: no.ntnu:inspera:112046434:3006 ...
Size:: 26.34Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Institutt for datateknologi og informatikk [6559]

Show simple item record