A comparison of sequence models for anomaly detection on process chains
Master thesis
Permanent lenke
https://hdl.handle.net/11250/3080981Utgivelsesdato
2023Metadata
Vis full innførselSamlinger
Sammendrag
Abstrakt:
Denne studien undersøker anvendelsen av maskinlæringsteknikker i verts-baserte Intrusion Detection Systems (HIDS), med fokus på analysen av prosessforhold, et underutforsket område i HIDS-forskning. Gjennom en grundig litteraturstudie identifiserte vi den nåværende toppmoderne teknikken og potensielle forskningshull i feltet, noe som muliggjorde valg av passende modeller og datasett for vår undersøkelse.
Vår utforskning sentrerte rundt tre fremtredende sekvensmodeller - Recurrent Neural Networks (RNN), Long Short-Term Memory (LSTM) og Transformer-modeller. Ytelsen til disse modellene ble evaluert ved hjelp av OpTC-datasettet, som representerer et moderne miljø godt egnet for prosess-tre baserte HIDS. Funnene indikerte at blant de tre modellene, demonstrerte Transformer-modellen marginalt overlegen ytelse, selv om rom for forbedring ble bemerket.
Videre ble modellene våre sammenlignet med toppmoderne anomalideteksjonsteknikker. Til tross for at de utførte flere algoritmer detaljert i ProcAID, var vår Transformer-modell underlegen i forhold til ANUBIS, en anomalideteksjonstilnærming som bruker Bayesian Neural Networks. Disse resultatene understreker ikke bare potensialet til Transformer-modeller for anomalideteksjonsoppgaver i HIDS, men også effektiviteten til mer sofistikerte tilnærminger som Bayesian Neural Networks.
Til slutt bidrar studien vår til den pågående diskursen i HIDS-forskning, og avslører lovende områder for fremtidig arbeid og utvikling for å styrke anomalideteksjonsytelsen. Sammendrag:
This study investigates the application of machine learning techniques in host-based Intrusion Detection Systems (HIDS), with a focus on the analysis of process relationships, an under-explored area in HIDS research. Through a rigorous literature review, we identified the current state of the art and potential research gaps in the field, facilitating the selection of suitable models and datasets for our investigation.
Our exploration centered on three prominent sequence models - Recurrent Neural Networks (RNN), Long Short-Term Memory (LSTM), and Transformer models. The performance of these models was evaluated using the OpTC dataset, which represents a modern environment well-suited for process-tree based HIDS. Findings indicated that, among the three models, the Transformer model demonstrated marginally superior performance, although room for improvement was noted.
Further, our models were compared with state-of-the-art anomaly detection techniques. Despite outperforming several algorithms detailed in ProcAID, our Transformer model was inferior to ANUBIS, an anomaly detection approach that employs Bayesian Neural Networks. These results not only underscore the potential of Transformer models for anomaly detection tasks in HIDS, but also highlight the effectiveness of more sophisticated approaches such as Bayesian Neural Networks.
In conclusion, our study contributes to the ongoing discourse in HIDS research, revealing promising areas for future work and development to bolster anomaly detection performance.