Exploring Self-Supervised Learning for Bird Vocalization Classification

Norum, Ole-Magnus Vian

dc.contributor.advisor	Downing, Keith
dc.contributor.author	Norum, Ole-Magnus Vian
dc.date.accessioned	2023-11-14T18:20:07Z
dc.date.available	2023-11-14T18:20:07Z
dc.date.issued	2023
dc.identifier	no.ntnu:inspera:142737689:35330884
dc.identifier.uri	https://hdl.handle.net/11250/3102580
dc.description.abstract	Fugler har en essensiell rolle i økosystemet de tilhører og kan bli brukt som indikasjonsarter for å vurdere helsen til et økosystem. På grunn av disse faktorene, har fugleartmonitorering blitt en mulig strategi for å evaluere økosystemers helse. I senere år har fugleklassifikasjon blitt et populært emne blant maskinlæringskonkurranser, hvor de fleste bruker nevrale nettverk for å løse oppgaven. En utfordring med å trene store nevrale nettverk for å klassifisere fuglelyder er at mesteparten av de tilgjengelige dataene er ikke annotert eller bare delvis annotert. I nyere tid har metoder for å bruke ikke-annoterte data for å trene modeller, kalt selvstyrt læring, vist lovende resultater. Etter som mesteparten av fuglelydene ikke er annotert, kan selvstyrt læring være en passende metode å bruke for fuglesangklassifikasjon. Denne masteroppgaven utforsker bruken av forhåndstrening via selvstyrt læring for fugleklassifikasjonsoppgaven. Ved å bruke en implementasjon av selvstyrt læring, kalt SimSiam, utforskes effekten av ulike augmentasjoner som blir brukt under den selvstyrte læringen. De selvstyrte modellene som brukte de mest effektive augmentasjonene, sammenlignes også med en modell som har blitt forhåndstrent på annoterte bilder. Modellene finjusteres med flere ulike mengder av et annotert fuglesang-datasett, og evalueres basert på deres klassifiseringsevne. Resultatene fra å teste ulike augmentasjoner viser at det å bruke en kombinasjon av augmentasjoner under den selvstyrte læringen gir bedre resultater enn det å bruke enkeltstående augmentasjoner. Den beste kombinasjonen av augmentasjoner som ble testet i denne masteroppgaven var å trimme spektrogrammet og legge til støy. Ved å sammenligne modellene som brukte selvstyrt læring med modellen som var forhåndstrent på bilder, ble det funnet at modellen forhåndstrent på bilder gjorde det bedre enn modellene som brukte selvstyrt læring. Ved å se på representasjonene produsert av de selvstyrte modellene, er det tydelig at modellene ikke var i stand til å lære viktige egenskaper ved dataen som kunne vært nyttige for den påfølgende klassifiseringsoppgaven.
dc.description.abstract	Birds play an essential role in the ecosystem they inhabit and can be used as indicator species for assessing the health of an ecosystem. Because of these factors, bird species monitoring has become a viable strategy for evaluating ecosystem health. In recent years bird vocalization classification has become a popular topic within machine learning competitions, where solutions using neural networks are the most popular. Training large neural network models to classify bird vocalizations faces the challenge of most of the available bird recordings being unlabeled or weakly labeled. In recent years, methods for using unlabeled datasets for pre-training machine learning models called self-supervised learning, have shown promise. Since most of the bird vocalization recordings are unlabeled, self-supervised learning might be a good application for bird vocalization classification. This thesis investigates the use of self-supervised learning for the bird vocalization classification task. By using a self-supervised learning implementation, called SimSiam, the impact of different augmentations used during self-supervised learning is explored. The self-supervised models, using the best performing augmentations, are also compared to a model pre-trained on the image domain. The models are linearly fine-tuned and fine-tuned end-to-end, using varying amounts of training data to assess their performance. The results from testing different augmentations found that using a combination of augmentations during self-supervised learning performs better than single augmentations. The best combination tested in this thesis were cropping and adding noise. From comparing the self-supervised models with an identical model pre-trained on images, it was found that the model pre-trained on images outperformed the self-supervised models on all tasks. From looking at the embeddings produced by the self-supervised models, it is clear that the self-supervision was not able to learn the models' appropriate feature extractions to create embeddings useful for the downstream task of bird vocalization classification.
dc.language	eng
dc.publisher	NTNU
dc.title	Exploring Self-Supervised Learning for Bird Vocalization Classification
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:142737689:3533 ...
Størrelse:: 17.28Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6769]

Vis enkel innførsel