Vis enkel innførsel

dc.contributor.advisorStahl, Annette
dc.contributor.advisorSaad, Aya
dc.contributor.authorKiese, Oda Scheen
dc.date.accessioned2021-09-23T18:13:35Z
dc.date.available2021-09-23T18:13:35Z
dc.date.issued2020
dc.identifierno.ntnu:inspera:56990118:20997091
dc.identifier.urihttps://hdl.handle.net/11250/2780967
dc.description.abstractA studere mangfold og spredning av planktonorganismer in-situ er en pådriver for nyere forskningsaktiviteter og oseanografi på grunn av planktons økologiske betydning. Med introduksjonen av marine roboter utstyrt med sensorer og avanserte kameraer, er nå lokal identifisering og klassifisering av mikroskopiske organismer under vann mulig. Populasjonen til ulike planktonarter er naturlig av ulike størrelser, noe som gjenspeiles i datasett av planktonbilder som er fanget in-situ. Vanligvis lider disse datasettene av class imbalance, dvs. de fleste dataeksempler tilhører noen fa høyt representerte klasser mens noen klasser er darlig representert. Class imbalance påvirker klassifiseringsytelsen til dype nevrale nettverk, som convolutional neural networks (CNNs), ettersom ubalansen gjør klassifiseringen partisk mot de høyt representerte klassene. Klassiske tilnærminger for a løse problemet er resampling strategier og kostnads-sensitiv trening. Imidlertid kan disse metodene føre til overfitting, innføring av støy og eliminering av verdifull informasjon. I denne oppgaven undersøker vi en nyere metode kalt GAN-basert oversampling, som bruker de generative modellene Generative Adversarial Networks (GANs), for a generere syntetiske bilder av plankton organismer for a minske effekten av class imbalance. De genererte bildene brukes i en syntetisk oversamplingsteknikk for a balansere klassefordelingen av datasettet før trening av et dypt nevralt nettverk (DNN). Ytelsen til GAN og kvaliteten på de genererte bildene måles med Frechet Inception Distance (FID), der en lavere poengsum er assosiert med større mangfold og kvalitet blant de genererte bildene. Metoden sammenlignes med de ofte brukte metodene tilfeldig undersampling og tilfeldig oversampling, og evalueres ved klassifiseringsytelsen til en CNN kalt COAPNet. Vår viktigste evalueringsmetrikk er F1-poengsum. Basert på resultatene fra eksperimentene våre kan vi konkludere med at delvis tilfeldig oversampling er den overlegne metoden. Imidlertid kan GAN-basert oversampling også forbedre klassifiseringsytelsen, og i noen tilfeller oppnå resultater som tilsvarer de oppnadd av tilfeldig oversampling.
dc.description.abstractStudying the dispersion and abundance of plankton organisms in-situ is a driver to recent research activities and oceanography due to their ecological importance. With the introduction of underwater marine robots equipped with sensors and advanced cameras, in-situ identification and classification of underwater microscopic organisms are now possible. Populations of plankton are naturally of different sizes, which is reflected in plankton imagery data sets captured in-situ. Commonly, these data sets suffer from class imbalance, i.e. most data examples belong to a few highly represented classes while some classes are ill-represented. Class imbalance impacts the classification performance of deep learning methods like convolutional neural networks (CNNs), as the imbalance can make the classifier biased towards the highly represented classes. Classical approaches to address the issue are resampling strategies and cost-sensitive training. However these methods can lead to overfitting, the introduction of noise and elimination of valuable information. In this thesis we investigate a recent method called GAN-based oversampling, which uses the generative models generative adversarial networks (GANs) to generate synthetic images of planktonic organisms in order to overcome the class imbalance problem. The generated images are used in a synthetic oversampling technique, to balance the class distribution of the data set prior to training a deep neural network. The performance of the GAN and the quality of the generated images is measured by the Frechet Inception Distance (FID), where a lower score is associated with higher diversity and quality. The method is compared to the frequently used methods random majority undersampling and random majority oversampling, and is evaluated by the classification performance of a CNN called COAPNet. Our main evaluation metric is the F1 score. Based on the results from our experiments we can conclude that partial random oversampling is the superior method. However, GAN-based oversampling can improve classification performance as well and in some cases achieve results equivalent to random oversampling.
dc.language
dc.publisherNTNU
dc.titleTowards a balanced-labeled-dataset of planktons for a better in-situ taxa identification
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel