Gathering Open Source Threat Intelligence from Twitter: An Integrated Supervised and Unsupervised Learning Approach

Kristiansen, Linn-Mari

dc.contributor.advisor	Agarwal, Vinti
dc.contributor.advisor	Franke, Katrin
dc.contributor.author	Kristiansen, Linn-Mari
dc.date.accessioned	2021-09-23T19:05:48Z
dc.date.available	2021-09-23T19:05:48Z
dc.date.issued	2020
dc.identifier	no.ntnu:inspera:56390147:17416527
dc.identifier.uri	https://hdl.handle.net/11250/2781120
dc.description	Full text available on 2079-06-18
dc.description.abstract	Etterretning fra åpne kilder kan samles inn for mange formål, og innsamling av presis trusseletterretning fra åpne kilder kan være avgjørende når det kommer til effektiv håndtering av et cyberangrep. Spesifikke sårbarheter, aktører og metoder er blant det viktigste av informasjon som kan hentet fra disse kildene. Twitter er en åpen plattform hvor masse informasjon blir delt hver dag. Utfordringen er å filtrere relevant informasjon fra den store mengden irrelevant informasjon som befinner seg på denne plattformen, sammen med korrekt merking av relevant data. Bidraget fra denne masteroppgaven vil være en metodikk for trusseletterretning gjennom Twitter ved bruk av maskinlæring, inkludert den nylige språkmodellen BERT. Dette vil bli gjennomført ved å først hente ut informasjon fra Twitter's API. Deretter filtreres relevant informasjon, som så blir klassifisert inn i flere klasser. Ulike temaer som finnes i dataen utforskes ved bruk av emnemodellering og klynging. Til slutt går vi gjennom databerikelse og verifisering. Visualisering av de ulike stegene er inkludert. Målet med denne metodikken er å støtte digital etterretning ved å gi informasjon som kan brukes for effektiv prioritering av ressurser. Resultatene viser at BERT for sekvensklassifisering er effektivt for både binær og flerklassifisering. Når det kommer til gruppering av data var resultatene fra LDA mer informative enn K-Means og lagde mer balanserte grupperinger som er lettere å tolke for mennesker. K-Means er likevel en god metode for å finne grupper. Etter emnemodellering kan man forbedre dataen ved å søke målrettet etter spesifikke nøkkelord i neste innsamlingstrinn. Datainnsamlingen fra denne metodikken er begrenset når det kommer til å finne innlegg laget av angripere, så datainnsamling fra det mørke nettet er bedre når det kommer til å finne nulldagsangrep før de er utført. Derimot så fungerer det innsamlede Twitter datasettet bra for å gi en oversikt over pågående angrep og sårbarheter som kan hjelpe kompanier med å beskytte seg, samt gi nyttig informasjon til etterforskere.
dc.description.abstract	Open source intelligence can be gathered for many purposes, and gathering timely cyber threat intelligence from open platforms can be crucial for an effective reaction to a cyber attack. Specific vulnerabilities, actors and methods are among the most valuable information that can be extracted. Twitter is one such platform where a lot of data is shared daily. The challenge is to filter out relevant data from the enormous amount of irrelevant data on the platform, as well as correctly labeling the information extracted from the relevant data. The contribution of this thesis is a methodology for cyber threat detection on Twitter using machine learning, including the recent language model BERT. This is done by collecting data from Twitter through its API, filtering out irrelevant posts, classifying tweets into multiple classes, finding the themes in the data using topic modeling and clustering, and finally running through a data enrichment and verification process. Visualization is provided for multiple stages. The goal for the proposed methodology is to aid in cyber investigations by providing information for effective prioritization of resources. The results show that BERT for sequence classification is effective for both binary and multiclass classification. When it came to the grouping of data, LDA gave more informative results than K-Means and made balanced groups that are easier to interpret for humans. However, K-Means clustering is a good way to discover groups in our data. After topic modeling, it is possible to enrich our data by targeting more specific keywords in another data collection phase. The data extraction in the proposed methodology is limited when it comes to extracting posts made by attackers, so dark web forums are more effective for detecting zero-day attacks before they happen. However, the collected Twitter data gave a good overview of current attacks and vulnerabilities that can help companies prepare themselves and provide useful information to investigators.
dc.language
dc.publisher	NTNU
dc.title	Gathering Open Source Threat Intelligence from Twitter: An Integrated Supervised and Unsupervised Learning Approach
dc.type	Master thesis

Tilhørende fil(er)

Filer	Størrelse	Format	Vis

Denne innførselen finnes i følgende samling(er)

Institutt for informasjonssikkerhet og kommunikasjonsteknologi [2522]

Vis enkel innførsel