The Machine That Could See Music
Abstract
Musikk er et effektivt verktøy for å kommunisere følelser, og denne masteroppgaven dreier seg om å generere audio-reaktive musikkvisualiseringer ved å styre det overordnede uttrykket til visualiseringen ved hjelp av følelsen som musikken frembringer. Oppgaven tar sikte på å kombinere teknologiske fremskritt fra forskjellige forskningsområder knyttet til kunstig intelligens, spesielt innen bildegenerering ved bruk av Generative Adversarial Networks (GANs), samt Music Emotion Recognition (MER).
GANs har mottatt mye oppmerksomhet for sine evner til å syntetisere bemerkelsesverdige realistiske bilder. Dette rammeverket for å trene dype nevrale nettverk tillater modellene å lære seg å generere nye bilder i et hvilket som helst domene basert på et treningssett bestående av noen tusen bilder. Det er i tillegg mulig å bruke modellene til å lage audio-reaktive musikkvisualiseringer ved å kontrollere inputene med karakteristikker fra audioen og sette sammen outputbildene til en video.
Forskningsfeltet har fokusert på å ta i bruk lav-nivå musikkarakteristikker til å kontrollere visualiseringene, men det har vært begrenset innsats i å utnytte høy-nivå musikkarakteristikker. Disse representerer mer globale egenskaper ved musikk, og kan følgelig bli brukt til å styre det generelle uttrykket til visualiseringene gjennom valg av hvilke spesifikke bilder som vises.
Et teoretisk litteraturstudie la grunnlaget for utformingen og implementasjonen av et nytt system som tar en sang som input og lager en følelses-basert audio-reaktiv musikkvideo. Russels kvadranter er brukt for å modellere følelser, og en MER-modell klassifiserer sangene etter disse kvadrantene. En StyleGAN2-ADA-modell genererer så en abstrakt video som stemmer overens med følelsen ved å bruke en kromagramvektet sum av melodien. De spesifikke bildene som interpoleres mellom er valgt av en algoritme som klassifiserer følelse i bilder.
Hovedbidragene fra oppgaven er et nytt, visuelt dataset bestående av moderne, abstrakt kunst, samt en ny tilnærming til å inkorporere følelser inn i audio-reaktive GAN visualiseringer. Det foreslåtte systemet har blitt evaluert gjennom kvalitative eksperimenter, og en kvantitativ brukerundersøkelse. Resultatene fra undersøkelsen er varierende, men lovende, og indikerer en over-midten brukertilfredshet. Generelt er systemet i stand til å generere videoer som passer følelsene til sangene og som kan oppleves som visuelt tiltalende, men ikke på en konsistent basis. Mer justering av GAN parametere, i tillegg til mer sofistikerte tilnærminger til å gjenkjenne følelse i musikk og bilder, har potensialet til å forbedre systemet og resultatene ytterligere. Music is a powerful tool for communicating emotions, and this thesis revolves around generating expressive audio-reactive music visualizations by leveraging emotion to drive the overall identity of the visualizations. The research aims to combine achievements from different artificial intelligence fields, most notably image synthesis with Generative Adversarial Networks (GANs) and Music Emotion Recognition (MER).
GANs have received much attention for their ability to synthesize remarkably photo-realistic images. This framework for training deep neural networks allows the models to learn to generate new images in any domain based on a training set of some thousand images. Moreover, it is possible to harness their powers to create audio-reactive visualizations of music by controlling the inputs with features from the audio and stringing together the output images to form a video.
Research has focused on using low-level music features to control the movements of the visualizations, but there has been limited effort to leverage high-level music features. These represent more global properties of music and could be utilized to steer the general identity of the visualizations through the specific imagery shown.
A theoretical literature study laid the foundation for the design and implementation of a novel music video generation system. It takes a song as input and creates an emotion-based audio-reactive music video. The quadrants of Russel's circumplex model of affect are used as emotion model, and a MER model classifies the song accordingly. A StyleGAN2-ADA model generates an abstract video that matches the emotion using a chromagram-weighted sum of the melody. The specific images to interpolate between are chosen by an image emotion recognition algorithm.
The main contributions of this thesis are a new visual dataset comprising modern, abstract art, and a novel approach to integrating emotion into audio-reactive GAN visualizations. The proposed system has been evaluated through qualitative experiments, and a quantitative user survey. The survey results are varying but promising and indicate above-medium user satisfaction. Generally, the system is able to generate videos that match the emotions of the songs and that can be perceived as visually appealing, but not on a consistent basis. More parameter tuning of the GAN, in addition to more sophisticated approaches to music and image emotion recognition, has the potential to elevate the system and results further.