Vis enkel innførsel

dc.contributor.advisorJo Eidsvik
dc.contributor.authorAdrian Thomas Bruland
dc.date.accessioned2021-09-15T17:28:49Z
dc.date.available2021-09-15T17:28:49Z
dc.date.issued2021
dc.identifierno.ntnu:inspera:75366163:33211769
dc.identifier.urihttps://hdl.handle.net/11250/2778391
dc.description.abstractKunstige nevrale nettverksmodeller har vært populære i forskjellige applikasjoner i det siste. De prediktive evnene til disse tilnærmingene har vært ekstremt lovende. Likevel har det ikke vært lett å lage pålitelige usikkerhetsestimater knyttet til disse nettverksmodellresultatene. Det arbeides derfor kontinuerlig med å formulere kunstige nevrale nettverksmodeller i en Bayesisk kontekst, der posteriorfordelingen vil muliggjøre tolkbar usikkerhetskvantifisering. I denne oppgaven studeres en Bayesiansk nevralnettverksmodell kalt Bayes-by-Backdrop. Modellen skiller seg fra standard "feedforward" nevrale nettverk ved at punktestimater for et nevrons vekter erstattes av en fullstendig prior-distribusjon, slik at Bayesianske metoder kan brukes. Implementeringen bruker spike-and-slab priors, en gaussisk blanding med samme gjennomsnitt for hver komponentfordeling. Variasjonell inferens brukes til å komme til en posterior-fordeling av nettverkets prediksjoner. I et eksperimentelt oppsett for tuning av forskjellige hyperparametere blir implementeringen av Bayes-by-Backprop-algoritmen testet og undersøkt på en univariat ikke-lineær regresjonsoppgave med et sinusformet signal og Gaussisk støy. Denne klassen av algoritmer bruker Bayesiansk formalisme for å skape en systematisk og teoretisk velbegrunnet måte å estimere datavariabilitet i spådommen. Imidlertid er usikkerhetsestimatene for algoritmen her vist å være veldig følsomme for innstillinger for hyperparameter, så vel som det store antallet datapunkter. Antall hyperparametere i et ANN er vanligvis stort. Å gjøre et rutesøk av alle hyperparametere er i de fleste tilfeller uoverkommelig. I stedet prøver man ofte manuelt et hyperparameter om gangen, ser hva det gjør, og velger deretter en lite delmengde som virker lovende for videre innstilling. Imidlertid kan innstilling av sentrum og spredning (gjennomsnitt og varians) av den variasjonelle posterior ikke helt frakobles i Bayes-by-Backprop-algoritmen. Likevel prøves den grunnleggende strategien for hyperparameterjustering som er brukt i denne oppgaven å forenkle prosessen. Finn en god setting for posterior-gjennomsnittet, og still deretter inn hyperparametrene for posterior-spredningen. For posterior variansjustering er nevrale nettverksbredder vist å være en mer stabil hyperparameter for tuning enn variasjonen av parameterenes priorfordeling. Oppgaven går kort over teori og bakgrunn, og presenterer og diskuterer eksperimenter. Til slutt blir resultatene oppsummert og kontekstualisert.
dc.description.abstractArtificial neural network models have been popular in diverse applications lately. The predictive abilities of these approaches have been extremely promising. Yet, it has not been easy to construct reliable uncertainty statements related to these network model results. There is hence ongoing work in formulating artificial neural network models in a Bayesian context, where the posterior distribution would enable coherent uncertainty quantification. In this thesis, a Bayesian neural network model called Bayes-by-Backdrop is studied. The model differs from standard feedforward neural networks in that point estimates for a neuron's weights and biases are replaced by a full prior distribution, allowing for the application Bayesian methods. The implementation uses spike-and-slab priors, a Gaussian mixture with the same mean for each component distribution. Variation Inference is used to arrive at a posterior distribution of the network's predictions. In an experimental setup for tuning different hyperparameters, the implementation of the Bayes-by-Backprop algorithm is tested and investigated on a univariate nonlinear regression task including a sinusoidal signal and Gaussian noise. This class of algorithms utilizes Bayesian formalism to create a systematic and theoretically well-founded way of estimating data variability in the prediction. However, the uncertainty estimates of the algorithm is here shown to be very sensitive to hyperparameter settings, as well as the sheer number of data points. The number of hyperparameters in an ANN is usually large. Doing a grid search of all hyperparameters is prohibitive in most cases. Instead, deep learning practitioners often manually try out one hyperparameter at a time, see what it does, and then select a small subset that seem promising for further tuning. However, tuning the centre and spread (mean and variance) of the variational posterior cannot be entirely decoupled in the Bayes-by-Backprop algorithm. Even so, the basic strategy hyperparameter tuning strategy applied in this thesis tries to simplify the process. Find a good setting for the posterior mean, then tune the hyperparameters of posterior spread. For posterior variance tuning, the neural network width is shown to be a more stable dial than the variance of weight priors. The thesis briefly goes over theory and background, then presents and discusses experiments. Finally, results are summarised and contextualised.
dc.languageeng
dc.publisherNTNU
dc.titleManual Hyperparameter Tuning for Optimal Regression Uncertainty Estimates in Bayesian Deep Learning
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel