Show simple item record

dc.contributor.advisorDutilleux, Guillaume
dc.contributor.authorGrimstad, Ingrid
dc.date.accessioned2021-09-15T17:12:24Z
dc.date.available2021-09-15T17:12:24Z
dc.date.issued2021
dc.identifierno.ntnu:inspera:77039769:26356745
dc.identifier.urihttps://hdl.handle.net/11250/2778194
dc.description.abstractMonitorering av fuglers aktivitet er viktig for gjenkjenning av adferdselsmønster og estimering av populasjon. Gjennom monitorering i form av lengre lydopptak er det mulig for oss å studere når en fugl vokaliserer, i forhold til døgn og sesongvariasjon, på en måte som fysisk monitorering ikke ville være istand til. For å studere slik oppførsel har Norsk institutt for naturforskning (NINA) gjort lydopptak som tilsvarer 146 dager med audio på kjente hekkeområder til de tre fuglene: kvartbekkasin, sotsnipe og fjellmyrløperen. For å hjelpe til med deres forskning ble det laget et system for å detektere spesifikke vokalisasjoner i wav-filer. Systemet ble laget ved å bruke nevrale nettverk og veiledet læring på et selvlagt trening- og testset, som hovedsakelig bestod av NINAs data. Den mest lovende løsningen transformerte lydopptak om til spectrogram og brukte et 34 lags trent “ResNet” modell til å si om en av fuglelydene av interesse var til stede eller ikke. Dersom de var til stedet, ble fuglens forkortelse, sammen med start- og stopptidspunkt for lydytringen sendt ut av systemet. Flere tester ble gjort hvor den sanne positive raten (engelsk forkortelse: TPR), presisjonen, og antall falske positive (FP) ble regnet ut fra antall vokalisasjoner systemet fant. To av testene brukte 72 timer av NINA sin data. Den ene så på enkle lyduttrykk, mens den andre så på lengre lydsekvenser, hvor den sistnevnte er mest interessant for studie av fuglene sin oppførsel. Den første testen gav en TPR på 87.87\% og presisjon på 96.56\%, mens den andre testen gav en TPR på 89.19\% og presisjon på 95.64\%. Når det kommer til den sanne negative rate (engelsk forkortelse: TNR) hadde det første systemet en TNR på 99.98\% og den andre testen hadde en TNR på 99.97\%, mens begge fikk 23 FP tilfeller. Fra samme data ble det estimert at et menneske ville markert dataen med en TPR på ca 91.0\%. Dette tilsier at systemet, som har en prosesserings tid på fire minutter per dag med opptak når den bruker et Geforce RTX3090 grafikkort kan tilby NINA en betydelig raskere metode, som har tilnærmet like god TPR som et menneske kan tilby.
dc.description.abstractMonitoring birds' activity is an essential part of recognising birds behaviour patterns and estimating their population size. Doing such monitoring through long time audio recording enables us to study when a bird vocalises over smaller and longer time windows, in a way physical monitoring is not adequate. To do such , the Norwegian Institute for Nature Research (NINA) has recorded 146 days of recordings at known breeding sites for three less documented birds in Norway: the Jack Snipe, the Spotted Redshank and the Broad-billed Sandpiper. To help their research, a system was built to detect specific vocalisations in wav-files. The system was built using neural networks with supervised learning on self-made training and test sets, mainly made using NINA's data. The top-performing solution extracted spectrograms from the audio data and used a trained 34-layered ResNet model to output whether or not the desired vocalisations were detected. If detected, the system would output what bird was detected and the timestamps for the start and end of the detection. Several tests were done, where the true positive rate (TPR), precision and number of false positives (FP) were calculated from the number of vocalisations the system found. Two of the tests used 72 hours of NINA's data, where one looked at single sound expressions, and the other looked at longer sound sequences which are the most relevant for monitoring the birds' activity. The first test gave a TPR of 87.87\% and a precision of 96.56\%, while the second test gave a TPR of 89.19\% and precision of 95.64\%. When it comes to the true negative rate (TNR), the first test got a TNR of 99.98\%, and the second got a TNR of 99.97\%, while both got a total of 23 cases of FP cases. From the same data, it was estimated that a human would label with a TPR of approximately 91\%. Indicating that the system with a processing time of four minutes per day of audio using a Geforce RTX3090 graphics could offer NINA a considerable speed up and similar TPR as a human could offer.
dc.languageeng
dc.publisherNTNU
dc.titleClassification of Wader Birds' Vocalisations using Neural Networks
dc.typeMaster thesis


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record