Vis enkel innførsel

dc.contributor.advisorStahl, Annette
dc.contributor.advisorSaad, Aya
dc.contributor.authorHaug, Martin Lund
dc.date.accessioned2021-09-23T18:56:37Z
dc.date.available2021-09-23T18:56:37Z
dc.date.issued2021
dc.identifierno.ntnu:inspera:76427839:45158063
dc.identifier.urihttps://hdl.handle.net/11250/2781086
dc.description.abstractDe mest fremtredende maskinlæringsmetodene (ML) for klassifisering er avhengige av en enorm mengde annotert data for å utvikle og trene nevrale nettverk til å utføre klassifisering så nøyaktig som mulig. Med den komplekse strukturen til planktonarter og en enorm mengde data fanget fra autonome undervannsbåter, legges det en betydelig belastning på domeneeksperter i form av manuell annotering av planktonarter. Aktiv læring (AL) er et subdomene av maskinlæring (ML) som reduserer denne manuelle innsatsen gjennom bruk av algoritmer som støtter konstruksjonen av treningsdatasettene. Dette gjør at datasettene kan genereres med minimal menneskelig innsats. For å bygge treningsdatasettet bruker AL ulike heuristikker for å velge delmengder av datapunkter fra et ikke-klassifisert datasett. AL algoritmen skal velge datapunktene som fanger opp den statistiske fordelingen i det ikke-klassifiserte datasettet og inneholder all informasjon som trengs for å trene et nevralt nettverk. I tillegg bør algoritmen prioritere datapunkter som kan tilhøre flere forskjellige klasser, det vil si datapunkter som ligger i grenselandet mellom to ulike klassifiseringer og som kan bidra til å forvirre det nevrale nettverket. Mange av dagens AL-metoder klarer ikke å kombinere datapunkter som både representerer den statistiske fordelingen men som også er datapunkter læringsmodellen er usikker på. Inspirert av denne begrensningen i litteraturen presenterer denne oppgaven et nytt rammeverk som kombinerer disse to typene valg av datapunkt for å utnytte hele distribusjonen av datapunkter, hindre redundante datapunkter og finjustere beslutningsgrensene til det nevrale nettverket. Resultatene fra omfattende eksperimenter på det nye rammeverket samt andre metoder fra AL-litteraturen viser at flere av de sistnevnte metodene mangler robusthet under forskjellige eksperimentelle forhold. Det foreslåtte hybrid-rammeverket viser seg imidlertid å være robust og nøyaktig under komplekse oppgaver for aktiv læring og konkurransedyktig med andre strategier for aktiv læring under forskjellige eksperimentelle forhold. Oppgaven viser videre at bruken av en modul til å kunstig øke størrelsen til datasettet forbedrer den generelle klassifiseringsytelsen og er samtidig til nytte for aktiv-læring-strategiene.
dc.description.abstractThe most prominent machine learning (ML) methods for classification rely heavily on a massive amount of labeled data to create and train neural network classifier models that perform their tasks accurately. With the complex structure of planktonic species and an immense amount of data captured from autonomous underwater vehicles (AUVs), a large burden is placed on the domain experts for plankton taxa labeling. Active Learning (AL) is an ML paradigm that reduces this manual effort by proposing algorithms that support the construction of the training datasets, thus enlarging the sets while minimizing human involvement. To build the training set, AL methods apply heuristics to select a subset of images, i.e., samples, from the entire data. The applied AL algorithm should select samples that capture the common statistical patterns or feature space and are likely to include all the information needed for the training and the learning processes. In addition, the algorithm should prioritize samples that are likely belonging to multiple classes, i.e., having close inter-class boundaries, and might lead to model confusion. Many of the current AL approaches fail to incorporate both types of samples representing the statistical pattern and the samples in which the particular machine learning model is uncertain about. Inspired by these limitations, this thesis presents a novel framework that combines these two types of sampling to utilize the full data distribution, prevent redundant sampling from correlated queries, and fine-tune the inter-class decision boundary. The results from extensive experiments on the proposed framework and methods from the AL literature show that several of the methods lack robustness to different experimental conditions. However, the proposed hybrid framework proves to be robust and accurate on complex active learning tasks and competitive with other active learning strategies under various experimental conditions. The thesis further shows that the employment of a data augmentation module enhances the overall classification performance and in particular can benefit the sampling strategy in an AL framework.
dc.languageeng
dc.publisherNTNU
dc.titleApplying active learning techniques in machine learning to minimize labeling effort
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel