Using the triangle inequality to speed-up anomaly detection systems based on the k-means clustering

Holm, Ole Martin

Holm, Ole Martin

Master thesis

Permanent lenke

https://hdl.handle.net/11250/3077892

Utgivelsesdato

2022

Metadata

Vis full innførsel

Samlinger

Institutt for informasjonssikkerhet og kommunikasjonsteknologi [2543]

Beskrivelse

Full text not available

Sammendrag

Det finnes en mange teknikker og algoritmer som kan brukes for å forbedre et inntrengningsdeteksjonssystem. Innenfor algoritmer for inntrengningsdeteksjonssystemer er maskinlæring en ønskelig metode da den kan redusere kostnader og samtidig redusere innsats som trengs for å sette slike systemer opp. De to ofte diskuterte metodene for læring er Unsupervised Learning og Supervised Learning, både med sine positive og negative sider, men for å klassifisere nye usynlige angrep har Unsupervised Learning-algoritmer en stor fordel. K-means er en slik algoritme, og regnes som en av de enkleste metodene for uovervåket læring.

Dette masterprosjektet presenterer dokumentasjon på noen bekymringer du må ha ved implementering av et inntrengningsdeteksjonssystem basert på K-Means, og hvordan ulike forbedringer påvirker hastigheten som algoritmen kan behandle dataene med ved hjelp av NSL-KDD for å prøve ut og dokumentere disse faktorene.

Resultatene viser at den kan behandle over 100 000 registreringer av datasettet i løpet av et sekund, men den er også sterkt påvirket av de ekstreme datapunktene som er tilstede i den. Resulterer i raske, men unøyaktige metoder.

There are a multitude of techniques and algorithms that can be employed to improve an Intrusion Detection System. Within the field of algorithms for Intrusion Detection Systems, machine learning is a desirable method as it can reduce costs while reducing effort to a degree. The two often discussed methods of learning are Unsupervised and Supervised Learning, both with their positives and negatives, but in order to classify new unseen attacks Unsupervised Learning algorithms have a huge advantage. K-means is one such algorithm, and is considered one of the simplest Unsupervised Learning methods.

This Master Project presents documentation of some concerns to have in implementing an Intrusion Detection System based on K-Means, and how different improvements affect the rate at which the algorithm can process the data using NSL-KDD to try out and document these factors.

The results show that it can process over 100,000 records of the data set in a second, however, it is also highly affected by the outlier data points that are present in it. Resulting in a fast but inaccurate methods.

Utgiver

NTNU