Feature-based detection of fake Twitter profiles using machine learning

Iversen, Richard

dc.contributor.advisor	Bours, Patrick
dc.contributor.author	Iversen, Richard
dc.date.accessioned	2021-09-23T19:07:00Z
dc.date.available	2021-09-23T19:07:00Z
dc.date.issued	2020
dc.identifier	no.ntnu:inspera:54255071:5172967
dc.identifier.uri	https://hdl.handle.net/11250/2781146
dc.description	Full text not available
dc.description.abstract	Denne hovedoppgaven undersøker hvordan falske Twitter-profiler kan identifiseres ved hjelp av maskinlæring. Ved å bruke et datasett med 1000 falske kontoer og 10.000 ekte kontoer, lærer vi opp våre binære klassifiseringsmodeller til å skille mellom falske og ekte profiler. Den eksperimentelle prosessen er delt inn i flere faser, hvor ulike typer klassifiserere ble testet på ulike funksjonssett i hver fase. Den første fasen utforsker opplæring av en maskinmodell på flere funksjonssett som er knyttet opp mot Twitter-kontoenes profilinformasjon. Ved å bruke utvelgelsesmetoder, slik som gjensidig informasjon og samvariasjonsmatrise, var vi i stand til å rangere og velge de mest aktuelle funksjonene for å trene opp modellen. På grunn av begrenset antall funksjoner i det anskaffede datasettet da denne modellen dårlige resultater. I fase-2 ble ytelsen av en modell basert på tekst fra Twitter-meldinger analysert. Ved å benytte naturlige språkprosesseringsmetoder som TFIDF, og forprosesseringsteknikker som lemmatisering, trente vi modellen til å kunne klassifisere falske kontoer med en nøyaktighetsgrad på 80,60% ved å bruke «random forest»-klassifikator. En annen modell ble trent ved å bruke en tilnærming med dyp læring med “LSTM-layers” på bruk av tekstfunksjoner. Denne viser tilsvarende ytelse og en nøyaktighet på 80,25 prosent. Mens dyplæringsmodellen ga bedre nøyaktighet i presisjon, ga den tradisjonelle tekstbaserte modellen bedre nøyaktighet på grunn av høyere presisjon og hadde en tilsvarende F-score på 79,11% og 80,91%. Ved å benytte «feature fusion», med tekst og numeriske verdier, var vi i stand til å øke nøyaktigheten til 99,73%. I den siste fasen ble Twittermeldinger matet inn i programvare for språkanalyse (Linguistic Analysis Software) for å hente ut psykometriske og leksikalske egenskaper for hver. Med verdiutvalg ved å benytte gjennomsnittlig reduksjon i urenhet («impurity»), trente vi opp Random Forest- klassifikatoren som viste en nøyaktighet på 98,65%. Til tross for begrensningene i denne hovedoppgaven med tanke på omfang og potensielt utdatert informasjon i datasettet, viser våre resultater at språk, skrivemåte og psykometriske egenskaper i Twitter-meldingene er lovende for å klassifisere falske profiler på Twitter. Kombinasjonen tekst og numeriske verdier resulterte i den best egnede modellen.
dc.description.abstract	This thesis investigates how fake Twitter profiles can be detected using machine learning. Using a data-set of 1000 fake accounts and 10,000 real accounts, we trained our binary classifier models to distinguish between fake and real profiles. Our experiment process is separated into distinct phases, where various classifiers were tested on different feature sets in each phase. The first phase explores training a machine learning model on numerical features tied to Twitter accounts profile information. Using feature selection techniques such as mutual information and a co-variance matrix, we managed to rank and select the most relevant features for training the model. Due to a limited number of features from our acquired data-set, this model resulted in poorer results. The second phase analyzes the performance of a model on textual tweet data. Using natural language processing methods such as TF-IDF and pre-processing techniques such as lemmatization, we trained our model to classify fake accounts at a 80.60% accuracy rate using the Random Forest classifier. Another model trained using a deep-learning approach with LSTM layers on textual features showed similar performance, scoring 80.25% in accuracy. While the deep-learning model scored higher in precision, the traditional text-based model scored higher in recall due to the precision-recall trade-off, and had similar F-scores of 79.11% (RF) and 80.91% (LSTM). By performing feature-fusion with both textual and numerical features, we were able to increase the accuracy to 99.73% accuracy. In our final phase, tweets were fed into a linguistic analysis software (LIWC) to extract psychometric and lexical attributes for each. Through feature selection using mean decrease impurity, we trained a Random Forest classifier that scored 98.65% in accuracy. Despite the limitations of the thesis in regard to size and potentially outdated information in the data-set, our findings show that the linguistic, stylistic and psychometric attributes found in tweets show great promise in classifying fake profiles on Twitter. Additionally, the combination of both textual and numerical features resulted in the highest performing model.
dc.language	eng
dc.publisher	NTNU
dc.title	Feature-based detection of fake Twitter profiles using machine learning
dc.type	Master thesis

Tilhørende fil(er)

Filer	Størrelse	Format	Vis

Denne innførselen finnes i følgende samling(er)

Institutt for informasjonssikkerhet og kommunikasjonsteknologi [2628]

Vis enkel innførsel