A semi-supervised approach to bird song classification

Caprioli, Emanuele

dc.contributor.advisor	Downing, Keith
dc.contributor.author	Caprioli, Emanuele
dc.date.accessioned	2023-10-02T17:26:35Z
dc.date.available	2023-10-02T17:26:35Z
dc.date.issued	2022
dc.identifier	no.ntnu:inspera:112046434:26542731
dc.identifier.uri	https://hdl.handle.net/11250/3093609
dc.description.abstract	Økosystemer har sett mer dramatiske endringer enn noen annen gang I menneskets historie. Bioindikatorer som fugler overvåkes av ornitologer, for screening av miljøets kvalitet. Dyplæringsmetoder har produsert lovende resultater innen polyfoniske lyderhendelser og gjenkjenning av fuglesangfeltet. Likevel krever slike metoder omfattende datasett, som krever mange timer med feltforskning samt betydelig domenekunnskap for å samle inn og merke fuglelydopptak. Med fremskritt innen elektronikk og mikrofonteknologi kan opptaksenheter som er i stand til å ta opp 24/7 plasseres praktisk talt overalt, noe som reduserer behovet for menneskelig tilstedeværelse og kan enkelt bygge store umerkede datasett. I denne oppgaven presenteres en Semi-Supervised (SSL) løsning til klassifisering av fuglesang basert på FixMatch. FixMatch er en ny SSL-metode utviklet for bildeklassifisering, og med omfanget av å utnytte umerkede opptak for å øke klassifiseringsytelsen. Resultatene viste at FixMatch er både anvendelig for fuglesangsklassifiseringsdomenet og kompatibel med Transfer Learning, ved å bruke vekter beregnet på et bildedatasett. Funnene viste at rålyd augmentering ikke ga noen spesielle fordeler mot lyd-tenkte bilde augmentering. Metoden klarte å øke klassifiseringsytelsen, også når den ble presentert med et umerkede datasett der halvparten av lydsporene stammer fra ukjente klasser. Systemet som ble laget i denne oppgaven viste potensiale, og antydet at fremtidig arbeid som å bygge en modell som er i stand til å klassifisere flere fugletyper og teste på ekte lydlandskapsopptak, bør undersøkes.
dc.description.abstract	Ecosystems have, in the last years, seen dramatic changes than at any other times in human history. Bioindicators like birds are monitored by ornithologists, to screen the environment's quality. Deep learning methods showed promising results in the field of polyphonic sound events and bird song recognition. Nevertheless, such methods require extensive datasets, requiring many hours of field research as well as substantial domain knowledge to collect and label bird sound recordings. With the advance of electronics and microphone technology, recording units capable of recording 24/7 can be deployed virtually anywhere, reducing the need of human presence on site, and easily building big unlabeled datasets. In this thesis, a Semi-Supervised (SSL) approach to bird song classification based on FixMatch is presented. FixMatch is a novel SSL method developed with the image classification domain in mind, and with the purpose of exploiting unlabeled recordings in order to increase a classifier performance. Results showed that FixMatch is indeed both applicable to the domain of bird song classification and compatible with Transfer Learning, using weights computed on an image dataset. The findings showed that raw-audio augmentation yielded no particular advantages against audio-sensitive image augmentation. The method managed to increase the classifier performance, also when presented with an unlabeled set composed by half unknown classes. The system built in this thesis showed potential, suggesting that future work like building a model capable of classifying more bird types and testing on real soundscape recordings, should be investigated.
dc.language	eng
dc.publisher	NTNU
dc.title	A semi-supervised approach to bird song classification
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:112046434:2654 ...
Størrelse:: 11.86Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6620]

Vis enkel innførsel