Unsupervised Anomaly Detection
Abstract
Denne forskningen tar sikte på å undersøke om uovervåket unormal deteksjon kan brukes til å oppdage unormaliteter i samtaler brukt i et svært partisk datasett. Et nettchatbasert datasett fra selskapet Børns Vilkår ble mottatt for å prosessere tekstmeldingene, samle de sammen og finne potensielle unormaliteter av alle slag i datasettet. Resultatene klarte å fremheve samtaler basert på ulike språk som unormale, men klarte ikke å fremheve forskjeller i samtalenes innhold. Basert på disse resultatene, er konklusjonen om å oppdage unormaliteter i samtaler brukt i svært partiske datasett derfor resultatløs. Anbefalt fremtidig arbeid er å implementere en flerspråklig modell som er i stand til å håndtere flere språk i et datasett, for å finne mer meningsfulle unormaliteter, som er basert på innholdet i samtalene i datasettet. This research aims to explore if unsupervised anomaly detection can be used to detect anomalies in conversations used in a highly biased dataset. A web chat based dataset from the Børns Vilkår company was received in order to preprocess the text messages, cluster them together and find potential anomalies of any kind in the dataset. The results managed to highlight conversations based on different languages as anomalous, but did not manage to highlight differences in the conversations' content. Based on these results, the conclusion to detecting anomalies in conversation used in highly biased datasets is therefore inconclusive. Recommended future work is to implement a multilingual model that are able to handle multiple languages in a dataset, to find more meaningful anomalies, based on the content of the conversations in the dataset.