Generating Audio from Sample Libraries

Rebnord, Eivind Aksnes

dc.contributor.advisor	Gambäck, Björn
dc.contributor.author	Rebnord, Eivind Aksnes
dc.date.accessioned	2022-10-20T17:20:11Z
dc.date.available	2022-10-20T17:20:11Z
dc.date.issued	2022
dc.identifier	no.ntnu:inspera:112046434:31616649
dc.identifier.uri	https://hdl.handle.net/11250/3027418
dc.description.abstract	Et sample-bibliotek er en samling av digitale lyder, kalt samples, og brukes av komponister, utøvende musikere og musikkprodusenter. Prosessen der lyder velges til en lydproduksjon kan være tidkrevende og vanskelig, siden det vanligvis innebærer mye leting og til og med kjøp i jakten på den ``riktige'' lyden. Nye visualiseringsteknikker for sample-bibliotek har blitt laget for å gjøre det lettere å finne lyder, blant annet ved å lage kart der lyder med de samme karateristikkene samles i kluster. Ingen av disse visualiseringsteknikkene er derimot kapable til å generere lyder som ikke finnes i lydbiblioteket fra før. Ny forskning innen maskinlæring har på den andre siden vist at det er mulig å generere lyd i bølgedomenet og å lære lydkarakteristikker fra treningsdata. Denne masteroppgaven kombinerer visualisering av sample-bibliotek med generativ lydmodellering ved å beskrive design og implementasjon av en interaktiv todimensjonal visualisering av samples som kan brukes til å generere lyder med spesifikke karakteristikker. Denne masteroppgaven implementerer et spektrogram-basert system med en modulær arkitektur. Den generative modellen i systemet er en Variasjonell Autoencoder (VAE) med invers autoregressiv flyt, og er ansvarlig for å lære og generere Mel spektrogram av lyd. Ved å bruke VAE-enkoderen til å lage flerdimensjonale latentvektorer av spektrogrammene fra lydene i biblioteket kan lydene visualiseres i to dimensjoner ved å redusere dimensjonaliteten med Uniform Manifold Approksimasjon og Projeksjon (UMAP). Systemet lager nye latentvektorer fra brukerdefinerte punkt på den todimensjonale visualiseringen med en invers UMAP-transformasjon og bruker VAE-dekoderen til å generere spektrogram. Disse spektrogrammene kan deretter rekonstrueres tilbake til lyd ved hjelp av Griffin-Lim-algoritmen. Systemet evalueres basert på hvor mange ulike samples som genereres og hvor god lydkvaliteten er. Systemet genererte et bredt spekter av lydkarakteristikker fra treningsdata, men hadde problemer med å lære forskjellen på ulikhetene internt i hver klasse. VOvertilpasning av VAE til treningsdata resulterte i bedre lokal variasjon og mer detaljerte spektrogram. Mer presise spektrogram resulterte i bedre lydkvalitet. Til tross for dette ble lydkvaliteten til mesteparten av de generte samplesene evaluert til å være lav. Reduksjonen i lydkvalitet skyldes begrensninger i prosessen som rekonstruerer lyd fra spektrogram. Lengden til de genererte samplesene var begrenset til to sekunder. Eksempler av de genererte lydene finnes på linken https://tinyurl.com/4s4cwmaf og det anbefales på det sterkeste å lytte til disse lydene før denne rapporten leses. Koden til det implementerte systemet finnes på lenken https://github.com/EivindRebnord/SampleGenerator og inkluderer instruksjoner for trening og bruk av systemet.
dc.description.abstract	The sample library is a collection of digital sounds, known as samples, used by composers, performers, and producers of music. The process of selecting sounds for an audio production can be tedious and expensive, as it usually involves scrolling through large corpora of sounds and buying other collections of audio in the search for ``the right'' sample. Deep learning-based visualization tools have been developed to cope with the difficult sample selection process, clustering similar sounding samples together in two-dimensional maps. However, none of the existing visualization tools can generate new sounds if a user does not have the desired sample in their collection. Recent machine learning research has shown that generating audio in the waveform domain and learning timbre from training data is possible. This thesis bridges the gap between sample library visualization and generative audio modeling to create an interactive two-dimensional map of audio samples that lets the user meticulously generate samples with desired characteristics. Considering this, a spectrogram-based system with a pipeline architecture was created. The generative model in the system is a Variational Autoencoder (VAE) with Inverse Autoregressive Flow which is responsible for learning and generating Mel spectrograms of samples. By using the VAE encoder to create latent embeddings for the spectrograms of the sounds in a sample library, these can be visualized in a two-dimensional map by performing dimensionality reduction with Uniform Manifold Approximation and Projection (UMAP). The system can generate a new latent embedding from any point on this map with an inverse UMAP transform and use the VAE decoder to output a new spectrogram. The Griffin-Lim algorithm is then used to reconstruct audio from the generated Mel spectrogram. The system was evaluated by its ability to generate diverse samples and the quality of the generated audio. The system generated a wide variety of timbres from the samples in the training data but struggled with learning the differences within each class of samples. Overfitting the VAE to the training data resulted in a more local diversity and detailed spectrograms. Finer-detailed spectrograms resulted in slightly better audio quality for the reconstructed samples. However, the audio quality of most samples was considered to be poor. The reduction in quality was considered a result of spectrogram reconstruction limitations. The generated samples were limited to a fixed length of two seconds. Examples of the generated samples can be found on https://tinyurl.com/4s4cwmaf, and it is strongly suggested to listen to these ahead of reading this report. The code repository can be accessed on https://github.com/EivindRebnord/SampleGenerator and includes instructions for using the system.
dc.language	eng
dc.publisher	NTNU
dc.title	Generating Audio from Sample Libraries
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:112046434:3161 ...
Størrelse:: 15.59Mb
Format:: PDF

Åpne

Filnavn:: no.ntnu:inspera:112046434:3161 ...
Størrelse:: 200.3Mb
Format:: application/zip

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6569]

Vis enkel innførsel