Study on Uncertainty Quantification in Deep Learning and its Influence on AI-Enabled Decision-Making
Abstract
Moderne fremskritt innen maskinlæring og kunstig intelligens har understreket behovet for pålitelige og effektive sikkerhetsrutiner knyttet til implementeringen av slike systemer i virkelighetsnære applikasjoner, da skade forårsaket av feilaktige prediksjoner og slutninger kan ha alvorlige negative konsekvenser. På bakgrunn av dette må ethvert autonomt system basert på dyp læring inkorporere en form for tillit eller usikkerhet når det gjelder prediksjoner og beslutninger for å være levedyktig. Tradisjonelle tilnærminger innen dyp læring har manglet evnen til å fange opp og representere usikkerheten knyttet til deres slutninger på en effektiv måte, noe som har nødvendiggjort utviklingen av spesialiserte metoder og teknikker som er designet for å håndtere og motvirke denne mangelen. Disse bekymringene gir opphav til feltet usikkerhetskvantisering, som utgjør det teoretiske grunnlaget for denne avhandlingen.
Det primære målet med oppgaven er å gjøre leseren kjent med usikkerhetskvantisering i dyp læring, ved å presentere grunnleggende teoretiske prinsipper og utfordringer, i tillegg til eksisterende metodikker og teknikker innen feltet. Oppgaven tilbyr en kombinasjon av teoretisk forståelse og praktiske innsikter gjennom implementering av metoder, for å undersøke hvordan de teoretiske konseptene relaterer seg til virkelighetsnær anvendelse. I tillegg vil anbefalinger og retningslinjer blir presentert for å gi leserne generell veiledning. Ved å gi en omfattende oversikt over feltet har oppgaven som mål å utruste forskere, praktikere og beslutningstakere med kunnskapen og verktøyene som er nødvendige for å styrke robustheten, påliteligheten og sikkerheten til maskinlæringsstystemer i praktiske applikasjoner.
De viktigste funnene i studien antyder at bruk av Deep Ensembles med fem medlemmer er et fornuftig utgangspunkt når man kvantifiserer usikkerhet i dyp læring. I scenarier som involverer overføringslæring eller bekymringer knyttet til infrastrukturell belastning ved hosting av flere modeller derimot, er en alternativ tilnærming å benytte seg av Monte Carlo Dropout med et spekter på 30 til 100 stokastiske gjennomkjøringer gjennom nettverket. I tillegg anbefales Temperature Scaling som en post-hoc teknikk for å kalibrere prediksjonssannsynligheter for klassifiseringsmodeller. Contemporary advances in machine learning and artificial intelligence have emphasized the need for reliable and efficient safety routines when implementing any such system into real-world applications, as the harm caused by erroneous predictions and inferences could have severe negative consequences. Therefore, for any autonomous system based on a deep learning framework to be viable it must incorporate some notion of confidence or uncertainty in terms of its predictions and decisions. Traditional approaches in deep learning have generally lacked this ability, which has necessitated the development of specialized methodologies and techniques explicitly designed to address and mitigate this deficiency. These concerns introduce the field of uncertainty quantification, which serves as the theoretical foundation of this study.
The primary objective of this thesis is to familiarize the reader with uncertainty quantification in deep learning, by presenting fundamental theoretical concepts and challenges, alongside the state-of-the-art of current methodology and techniques within the field. The thesis offers a combination of theoretical understanding and practical insights through implementation of methods, investigating how the theoretical concepts relate to real-world application. Additionally, recommendations and guidelines are presented, to offer readers general guidance. By providing a comprehensive overview of the field, the thesis aims to equip researchers, practitioners, and decision-makers with the knowledge and tools necessary to enhance the robustness, trustworthiness, and safety of machine learning systems in real-world applications.
The key findings of the study suggest that using Deep Ensembles with five members is a sensible starting point when quantifying uncertainty in deep learning. However, in scenarios involving transfer learning or concerns regarding the infrastructure load of hosting multiple models, an alternative approach is to employ Monte Carlo Dropout with a range of 30 to 100 stochastic forward passes through the network. Additionally, Temperature Scaling is recommended as a post-hoc technique to calibrate predictive probabilities in classification models.