Graph Gaussian Process Classifier with Anchor Graph and Label Propagation
Master thesis
Permanent lenke
https://hdl.handle.net/11250/2824269Utgivelsesdato
2021Metadata
Vis full innførselSamlinger
Sammendrag
Gaussiske prosesser er en viktig metode for maskinlæring da den lar oss sette en prioritet p˚a formen til en funksjon, og den arver fine egenskaper fra normalfordelingen. Den har blitt brukt b˚adesom en regresjons- og klassifiseringsmodell, og fungerer godt sammenlignet med andre metoderi en rekke applikasjoner. Klassifisereren presenteres vanligvis som en overv˚aket modell, noe sombetyr at det krever merkede data for ˚a gjøre slutning. I dette arbeidet utvider vi den eksisterendeGaussiske prosessklassifisereren til ˚a h˚andtere merkede og umerkede data samtidig. Vi presentereren modell kalt transduktiv graf Gaussisk prosessklassifikator og gir bakgrunnsmateriale for hverttrinn i modellen. Vi sammenligner denne utvidede modellen med standardmodellen og andre p˚adatasett fra sklearn, MNIST-datasettet og et datasett fra Aaknes-fjellet. Vi finner at den foresl˚attemodellen gir en nøyaktighet p˚a henholdsvis 0, 997 og 0, 595 p˚a sklearn-datasettene, bedre enn standardmodellen og andre sammenlignede modeller. P˚a MNIST-datasettet oppn˚adde klassifisererenen nøyaktighet p˚a 0, 67 med optimale modellparametere med stor avvik. P˚a Aaknes-datasettet blemodellen overg˚att av den tilfeldige skogklassifisereren. Vi finner ut at metoden er sensitiv for valgav modellparametere og krever regelmessig distribuert data for ˚a prestere godt. Under veldefinertemodellparametere og regelmessig distribuert data, fungerer den foresl˚atte modellen godt med f˚amerkede data. Gaussian processes is an important method of machine learning as it lets us put a prior on the shapeof a function and it inherits nice properties from the normal distribution. It has been used both as aregression and classification model, and performs well compared to other methods across a range ofapplications. The classifier is usually presented as a supervised model, meaning it requires labeleddata to do inference. In this work we extend the existing Gaussian process classifier to handlelabeled and unlabeled data simultaneously. We present a model called transductive graph Gaussianprocess classifier and provide background material for each step of the model. We compare thisextended model to the standard model and others on datasets from sklearn, the MNIST-datasetand a dataset from the Aaknes mountain site. We find that the proposed model give an accuracy of0.997 and 0.595 on the sklearn-datasets respectively, outperforming the standard model and othercompared models. On the MNIST-dataset, the classifier achieved an accuracy of 0.67 with optimalmodel paramters with large variance. On the Aaknes-dataset the model was outperformed by therandom forest classifier. We find that the method is sensitive to choices of model parameters andrequires regularly distributed data to perform well. Under well-specified model parameters andregular distributed data, the proposed model performs well with few labeled data.