• norsk
    • English
  • English 
    • norsk
    • English
  • Login
View Item 
  •   Home
  • Fakultet for informasjonsteknologi og elektroteknikk (IE)
  • Institutt for datateknologi og informatikk
  • View Item
  •   Home
  • Fakultet for informasjonsteknologi og elektroteknikk (IE)
  • Institutt for datateknologi og informatikk
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Composing Catchy AI Melodies on Your Device

Mahalingam, Hary Pirajan
Master thesis
Thumbnail
View/Open
no.ntnu:inspera:178456246:47776972.pdf (7.663Mb)
no.ntnu:inspera:178456246:47776972.zip (435.5Kb)
URI
https://hdl.handle.net/11250/3172399
Date
2024
Metadata
Show full item record
Collections
  • Institutt for datateknologi og informatikk [7357]
Abstract
Denne oppgaven undersøker muligheten for å generere fengende melodier på forbrukerenheter ved hjelp av Transformer-baserte modeller, en type dyplæring-basert modellarkitektur kjent for sin suksess innen naturlig språkbehandling. Forskningen fokuserer på å utvikle en lett og effektiv modell som kan forutsi fremtidige MIDI-hendelser basert på eksisterende sekvenser, med mål om å opprettholde musikkstilen og tempoet til inputen. Den utforsker bruken av REMI-representasjon, en metode for å tokenisere MIDI-data som vektlegger rytmiske aspekter, noe som potensielt kan forbedre modellens forståelse av musikk. Studien undersøker også effektiviteten av Bayes sannsynlighetsmodell som en modell for gjenkjenning av melodi, for å evaluere i hvilken grad genererte melodier høres ut som musikk og tilby et kvantitativt mål på modellens ytelse.

Forskningen støter på utfordringer med å trene slike modeller på begrensede ressurser. Studien gjennomfører eksperimenter på en forbrukerdatamaskin, noe som raskt fremhever de praktiske begrensningene ved å trene Transformer-modeller med begrensede ressurser. Mens den foreslåtte modellen møter på utfordringer med å generere avspillbare melodier på grunn av begrensninger i maskinvare og treningsdata, gir forskningen fortsatt verdifull innsikt og identifiserer områder for forbedringer. Derimot, gir modellen for melodigjenkjenning lovende resultater. Med høy nøyaktighet, dekning (recall) og F1-score understreker den potensialet som et nyttig evalueringsverktøy for melodigenerering. Ved å fokusere på energieffektivitet og bærekraft bidrar denne oppgaven til å utvikle miljøvennlige AI-løsninger innen musikkbransjen. Denne forskningen legger grunnlag for fremtidige innovasjoner innen melodigenerering på forbrukerenheter og tilbyr et glimt inn i mulighetene for lett tilgjengelige og kreative AI-drevne verktøy for musikere og musikkentusiaster.
 
This thesis investigates the feasibility of generating catchy melodies on consumer-grade devices using decoder-only Transformer models, a type of deep learning architecture known for its success in natural language processing. The research focuses on developing a lightweight model that can predict future MIDI events based on existing sequences, aiming to maintain the musical style and tempo of the input. It explores using the REMI representation, a method for tokenizing MIDI data that emphasizes rhythmic aspects, potentially enhancing the model's understanding of musical structure. The study also researches the effectiveness of the Bayes' probability model as a tool for evaluating the musicality of generated melodies, offering a quantitative measure of the model's performance.

The research encounters challenges in training such models on limited hardware resources. The study conducts experiments on a consumer-grade computer, highlighting the practical considerations and limitations of training Transformer models. While the proposed model faces challenges in generating playable melodies due to hardware constraints and training data limitations, the research provides valuable insights and identifies areas for improvement. On the other hand, the melody recognition model demonstrates promising results in distinguishing between melodic and non-melodic tracks. Its high accuracy, recall, and F1-score highlight its potential as a valuable evaluation tool for music generation models. By focusing on energy efficiency and sustainability, this thesis contributes to developing eco-friendly AI solutions in the music industry, aligning with broader goals of responsible consumption and production. Overall, this research lays the groundwork for future innovations in on-device melody generation, offering a glimpse into the possibilities of accessible and creative AI-powered tools for musicians and music enthusiasts.
 
Publisher
NTNU

Contact Us | Send Feedback

Privacy policy
DSpace software copyright © 2002-2019  DuraSpace

Service from  Unit
 

 

Browse

ArchiveCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsDocument TypesJournalsThis CollectionBy Issue DateAuthorsTitlesSubjectsDocument TypesJournals

My Account

Login

Statistics

View Usage Statistics

Contact Us | Send Feedback

Privacy policy
DSpace software copyright © 2002-2019  DuraSpace

Service from  Unit