Vis enkel innførsel

dc.contributor.advisorDowning, Keith
dc.contributor.authorNorum, Ole-Magnus Vian
dc.date.accessioned2023-11-14T18:20:07Z
dc.date.available2023-11-14T18:20:07Z
dc.date.issued2023
dc.identifierno.ntnu:inspera:142737689:35330884
dc.identifier.urihttps://hdl.handle.net/11250/3102580
dc.description.abstractFugler har en essensiell rolle i økosystemet de tilhører og kan bli brukt som indikasjonsarter for å vurdere helsen til et økosystem. På grunn av disse faktorene, har fugleartmonitorering blitt en mulig strategi for å evaluere økosystemers helse. I senere år har fugleklassifikasjon blitt et populært emne blant maskinlæringskonkurranser, hvor de fleste bruker nevrale nettverk for å løse oppgaven. En utfordring med å trene store nevrale nettverk for å klassifisere fuglelyder er at mesteparten av de tilgjengelige dataene er ikke annotert eller bare delvis annotert. I nyere tid har metoder for å bruke ikke-annoterte data for å trene modeller, kalt selvstyrt læring, vist lovende resultater. Etter som mesteparten av fuglelydene ikke er annotert, kan selvstyrt læring være en passende metode å bruke for fuglesangklassifikasjon. Denne masteroppgaven utforsker bruken av forhåndstrening via selvstyrt læring for fugleklassifikasjonsoppgaven. Ved å bruke en implementasjon av selvstyrt læring, kalt SimSiam, utforskes effekten av ulike augmentasjoner som blir brukt under den selvstyrte læringen. De selvstyrte modellene som brukte de mest effektive augmentasjonene, sammenlignes også med en modell som har blitt forhåndstrent på annoterte bilder. Modellene finjusteres med flere ulike mengder av et annotert fuglesang-datasett, og evalueres basert på deres klassifiseringsevne. Resultatene fra å teste ulike augmentasjoner viser at det å bruke en kombinasjon av augmentasjoner under den selvstyrte læringen gir bedre resultater enn det å bruke enkeltstående augmentasjoner. Den beste kombinasjonen av augmentasjoner som ble testet i denne masteroppgaven var å trimme spektrogrammet og legge til støy. Ved å sammenligne modellene som brukte selvstyrt læring med modellen som var forhåndstrent på bilder, ble det funnet at modellen forhåndstrent på bilder gjorde det bedre enn modellene som brukte selvstyrt læring. Ved å se på representasjonene produsert av de selvstyrte modellene, er det tydelig at modellene ikke var i stand til å lære viktige egenskaper ved dataen som kunne vært nyttige for den påfølgende klassifiseringsoppgaven.
dc.description.abstractBirds play an essential role in the ecosystem they inhabit and can be used as indicator species for assessing the health of an ecosystem. Because of these factors, bird species monitoring has become a viable strategy for evaluating ecosystem health. In recent years bird vocalization classification has become a popular topic within machine learning competitions, where solutions using neural networks are the most popular. Training large neural network models to classify bird vocalizations faces the challenge of most of the available bird recordings being unlabeled or weakly labeled. In recent years, methods for using unlabeled datasets for pre-training machine learning models called self-supervised learning, have shown promise. Since most of the bird vocalization recordings are unlabeled, self-supervised learning might be a good application for bird vocalization classification. This thesis investigates the use of self-supervised learning for the bird vocalization classification task. By using a self-supervised learning implementation, called SimSiam, the impact of different augmentations used during self-supervised learning is explored. The self-supervised models, using the best performing augmentations, are also compared to a model pre-trained on the image domain. The models are linearly fine-tuned and fine-tuned end-to-end, using varying amounts of training data to assess their performance. The results from testing different augmentations found that using a combination of augmentations during self-supervised learning performs better than single augmentations. The best combination tested in this thesis were cropping and adding noise. From comparing the self-supervised models with an identical model pre-trained on images, it was found that the model pre-trained on images outperformed the self-supervised models on all tasks. From looking at the embeddings produced by the self-supervised models, it is clear that the self-supervision was not able to learn the models' appropriate feature extractions to create embeddings useful for the downstream task of bird vocalization classification.
dc.languageeng
dc.publisherNTNU
dc.titleExploring Self-Supervised Learning for Bird Vocalization Classification
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel