Developing Long Short-Term Memory Mechanism and Dataset for Intrusion Detection in Critical Infrastructure by Simulation
Abstract
Beskyttelsen av kritisk infrastruktur er svært viktig for å kunne forsørge privatpersoner og bedrifter med essensielle ressurser. Dette kan være utfordrende grunnet det sensitive og komplekse Industrial Control System (ICS)-miljøet, samt motiverte og kapable aktører med sofistikerte verktøy og ressurser skreddersydd for systemene. Maskinlæring er bevist å kunne være en effektiv metode for å detektere og hindre forsøk på cyberangrep. Grunnet en mangel på datasett som reflekterer kritisk infrastruktur er det vanskelig å lage modeller relatert til miljøets adferd. Det er derfor gitt forslag til en metodikk som omhandler simulering av miljøet for å kunne blir brukt til utviklingen av en maskinlæringsmodell for klassifisering av adferd. Metoden tar utgangspunkt i å etterlikne adferden av en elektrisk transformatorstasjon ved å definere scenarioer som reflekterer normal og unormal operasjon. En Long Short-Term Memory (LSTM) modell er trent på datasettet og evaluert etter hvilke scenarioer den klarer å identifisere. Basert på prestering og hvilke egenskaper modellen viser, var modellen forbedret gjennom iterasjoner for til slutt å kunne prestere etter behovet. Ved bruk av et simulert datasett var det observert at den resulterende modellen ble transparent gjennom forståelsen av dataen den var lært på. Dette ga innsyn i hvilke mangler modellen hadde og veiledet videreutviklingen. En utfordring ved simulering er å realistisk kunne reflektere adferden av ICS. Miljøet som ellers inneholder komplekse forbindelser og relasjoner, er ved simulering redusert til den definerte adferden hvilket ikke i like stor grad spiller på styrkene til maskinlæring. Fremtidig arbeid relateres til videreutvikling av metoder for å forbedre deteksjon i kritisk infrastruktur. For simulering å kunne reflektere presis adferd av kritisk infrastruktur trengs spesifiserte verktøy til de relevante omgivelsene. The protection of Critical Infrastructure (CI) is significantly important to secure and maintain availability of resources essential for private persons and organisations, nationally. This is challenging due to the scale and complexity of its environment and motivated and capable malicious actors in possession of sophisticated tools and resources capable of disrupting the services.Machine Learning (ML) has proven to be a capable technology in intrusion detection and prevention for mitigating and stopping attempts of cyberattacks. There is however a lack of relevant dataset for CI, which makes the development of efficient ML models harder. It is for this thesis therefore proposed a methodology to simulate a dataset mimicking the behaviour of CI, for use in development of a ML classification model.The methodology is explored by a use case of developing a dataset depicting normal and abnormal behaviour of an electrical substation. The dataset is simulated by defined scenarios which describes the behaviour of features. A Long Short-Term Memory (LSTM) model is trained on the dataset and evaluated in regards to what scenarios it is capable of identifying. Based on the capabilities and traits of the model it is improved to best depict the simulated environment. Simulation was found to give insight into the inner workings of the developed ML model, providing transparency of its capabilities and weaknesses. This enabled efficient iteration of the LSTM model, enhancing its capabilities and necessary traits to be able to detect the more challenging attack scenarios.Simulating the environment of CI for the purpose of training ML model, was however observed to be insufficient in representing an Industrial Control System (ICS) environment. Data which otherwise depicts a complex, interconnected network of dependable components are by simulation reduced to highly defined behaviour which does not play into the strengths of deep learning.Future work describes further developing methodologies which support the development of Intrusion Detection System (IDS) in CI. For simulation this requires tools which can accurately depict the complexity of its environment.