Graph Gaussian Process Classifier with Anchor Graph and Label Propagation

Ovanger, Oscar

Ovanger, Oscar

Master thesis

Åpne

no.ntnu:inspera:67702077:20933653.pdf (5.847Mb)

Permanent lenke

https://hdl.handle.net/11250/2824269

Utgivelsesdato

2021

Metadata

Vis full innførsel

Samlinger

Institutt for matematiske fag [2474]

Sammendrag

Gaussiske prosesser er en viktig metode for maskinlæring da den lar oss sette en prioritet p˚a formen til en funksjon, og den arver fine egenskaper fra normalfordelingen. Den har blitt brukt b˚ade

som en regresjons- og klassifiseringsmodell, og fungerer godt sammenlignet med andre metoder

i en rekke applikasjoner. Klassifisereren presenteres vanligvis som en overv˚aket modell, noe som

betyr at det krever merkede data for ˚a gjøre slutning. I dette arbeidet utvider vi den eksisterende

Gaussiske prosessklassifisereren til ˚a h˚andtere merkede og umerkede data samtidig. Vi presenterer

en modell kalt transduktiv graf Gaussisk prosessklassifikator og gir bakgrunnsmateriale for hvert

trinn i modellen. Vi sammenligner denne utvidede modellen med standardmodellen og andre p˚a

datasett fra sklearn, MNIST-datasettet og et datasett fra Aaknes-fjellet. Vi finner at den foresl˚atte

modellen gir en nøyaktighet p˚a henholdsvis 0, 997 og 0, 595 p˚a sklearn-datasettene, bedre enn standardmodellen og andre sammenlignede modeller. P˚a MNIST-datasettet oppn˚adde klassifisereren

en nøyaktighet p˚a 0, 67 med optimale modellparametere med stor avvik. P˚a Aaknes-datasettet ble

modellen overg˚att av den tilfeldige skogklassifisereren. Vi finner ut at metoden er sensitiv for valg

av modellparametere og krever regelmessig distribuert data for ˚a prestere godt. Under veldefinerte

modellparametere og regelmessig distribuert data, fungerer den foresl˚atte modellen godt med f˚a

merkede data.

Gaussian processes is an important method of machine learning as it lets us put a prior on the shape

of a function and it inherits nice properties from the normal distribution. It has been used both as a

regression and classification model, and performs well compared to other methods across a range of

applications. The classifier is usually presented as a supervised model, meaning it requires labeled

data to do inference. In this work we extend the existing Gaussian process classifier to handle

labeled and unlabeled data simultaneously. We present a model called transductive graph Gaussian

process classifier and provide background material for each step of the model. We compare this

extended model to the standard model and others on datasets from sklearn, the MNIST-dataset

and a dataset from the Aaknes mountain site. We find that the proposed model give an accuracy of

0.997 and 0.595 on the sklearn-datasets respectively, outperforming the standard model and other

compared models. On the MNIST-dataset, the classifier achieved an accuracy of 0.67 with optimal

model paramters with large variance. On the Aaknes-dataset the model was outperformed by the

random forest classifier. We find that the method is sensitive to choices of model parameters and

requires regularly distributed data to perform well. Under well-specified model parameters and

regular distributed data, the proposed model performs well with few labeled data.

Utgiver

NTNU