Localizing and Classifying Bird Species in Camera Trap Images with deep learning
Description
Full text not available
Abstract
Dette projektet undersøkte lokalisering og klassifisering av fuglerartar på viltkamerabilete samla frå eit prosjekt ved Norsk Institutt for Naturforsking (NINA) som heiter SCANDCAM. Det vart brukt metodar frå djup læring til to oppgåver: lokalisering av fugl på viltkamerabilete, og klassifisering av fugleartar. Forskjellege arkitekturar vart brukte og samanlikna for både lokalisering og klassifisering kvar for seg. Til lokalisering vart det brukt YOLO-NAS, YOLOv8, og YOLOv9. YOLOv8 presterte best i forhold til dei to andre, og «transfer learning» vart brukt for å forbetre ytinga ved å nytte bilete frå andre datakjelder. Etter transfer learning vart det oppnådd 0.924 mAP@0.50 på lokalisering av fuglar på viltkamerabilete frå SCANDCAM. Til klassifisering av fugleartar vart det brukt seks forskjellige klassifiseringsmodellar basert på "Convolutional Neural Networks": ResNet50, DenseNet121, InceptionV3, InceptionResNetV2, EfficientNetB3, og EfficientNetB7. Desse klassifiseringsmodellane vart brukt til å klassifisere 20 forskjellege fugleartar på bilete frå SCANDCAM. Dei vart også trent på to andre datakjelder med dei same fugleartane, ei delmengde frå iNaturalist2017 og ei delmengde frå iNaturalist2021. For alle tre datakjeldene var det EfficientNetB7 som presterte best, der den beste oppnådde 0.89 «accuracy» og 0.90 «F1-score». På bileta frå SCANDCAM fekk EfficientNetB7 0.87 "accuracy" og 0.87 "F1-score". This project investigated localization and classification of bird species in camera trap images collected from a project at Norsk Institutt for Naturforsking (NINA) called SCANDCAM. Deep learning methods were used for two tasks: localizing birds in camera trap images, and classifying the bird species. Different architectures were used and compared for both the localization task, and for the classification task separately. For localization, YOLO-NAS, YOLOv8, and YOLOv9 was used. YOLOv8 achieved the best performance compared to the other two, and transfer learning was used to improve the performance over the baseline by utilizing images from other similar datasets. The best localization result was with transfer learning and resulted in an mAP@0.50 of 0.924 for the localization of birds in camera trap images from SCANDCAM. Six classification models based on convolutional neural networks were used: ResNet50, DenseNet121, InceptionV3, InceptionResNetV2, EfficientNetB3, and EfficientNetB7 were used. The classifiers were used to classify 20 distinct bird species in images collected from the SCANDCAM project. They were also trained on two other datasets with the same bird species, a subset from iNaturalist2017 and a subset of iNaturalist2021. For all three datasets, EfficientNetB7 achieved the best performance, the best being 0.89 accuracy and 0.90 F1-score on 20 bird species from iNaturalist2017. On the images from SCANDCAM, EfficientNetB7 achieved 0.87 accuracy and 0.87 F1-score.