"I can teach you to do that'": On the analysis and prediction of sexual grooming and predatory behaviour against children in online chat forums
Abstract
I en tid der det blir flere store sosiale medieplattformer som aktivt brukes av unge, så økes interaksjonen mellom barn og fremmede. Det har blitt enklere å utnytte barn sin sårbarhet på nett gjennom digital plattformer. Manglende overvåkningstjenester på plattformene gjør at det kan være mange usette interaksjoner mellom brukere. Overgripere vil isolere barna så tidlig som mulig ved å flytte kommunikasjonen fra offentlige til private kommunikasjonsverktøy. Den økte tilgangen på barn gjennom internett har skapt et fagfelt som forsøker å finne overgripere i avlukkede chatterom ved hjelp av maskinlæring. Det har vært to primære drivkrefter i fagfeltet. Det ene er preventivt tiltak i form av tidlig deteksjon, der målet er å bruke så få interaksjoner mellom overgriper og barn som mulig på å avdekke overgreps forsøk. Det andre er å finne mer treffsikre løsninger.
Denne oppgaven vil argumentere for at det primære behovet i fagfeltet ikke er knyttet til disse to målene, men heller utfordringen knyttet til manglende data. Per i dag så er det ikke nok data som er uavhengig av plattform, ikonografi og tidsperiode. Dette gjør at det ikke er mulig å analysere de mer generelle mønstrene i overgrep på nett, og hvordan utviklingen er i forhold til tid, plattformer og nye former for skriftlige uttrykk. Ved bruk av en kvantitativ fremgangsmåte for å bygge algoritmer utforsker denne oppgaven bruken av egenskaper og algoritmer for å avdekke overgripere i tekst. Et rammeverk ble utviklet for å finne de beste løsningen og kombinere algoritmer og egenskaper for å nyttegjøre seg styrkene og svakhetene i de forskjellige løsningene. For å avdekke overgripere så ble seks egenskaper og tjueni algoritmer kombinert og trent på den mest brukte datamengden i fagfeltet. Den endelige løsningen brukte termfrekvens, termfrekvens inverse dokumentfrekvens (TF-IDF), bag-of-words, binær bag-of-words, Linguistic Inquiry and Word Count (LIWC) og en kombinasjon av TF-IDF and LIWC. Algoritmene i den endelige løsningen var fra flere familier, men de mest fremtredende var støttevektormaskiner, ensembler, lineære modeller og Naïve Bayes algoritmer. De beste kombinasjonene av egenskaper og algoritmer ble satt sammen i ensemblelæring. Optimering av hyperparameter ble brukt på ensemblene for å øke treffsikkerheten.
Den beste løsningen vil være den nåværende tredje beste løsningen i fagfeltet, med en score på 0,947 i f0.5, som er den primære metrikken for denne problemstillingen. Denne løsningen brukte en to-stegs arkitektur, der man først finner samtalene som er antatt å inneholde overgrepsmateriale, og etter dette avgjøre hvem i samtalen som var kilden til overgrepsinnholdet. For det første problemet så ble et nevralt nettverk med termfrekvens anvendt, og for å avgjøre hvem i samtalene som var overgriperen så ble det brukt en RidgeClassifier med termfrekvens. At løsningen fikk så høy resultat viser at kvantitative metoder for utvikling av løsninger kan gi verdifulle resultat. Den nye løsningen og rammeverket som har blitt brukt for å skape løsningen er de to primære bidragene fra denne oppgaven til fagfeltet. The advent of massive social media platforms has brought with it an increase in contact between children and strangers. It has become easier to exploit and harm children online due to large social media platforms having inadequate systems for supervision of interactions made on the platforms. Predators often isolate their targets from public spaces and move to private communication methods, making the grooming attempts hard to monitor. Increased access to young children online has made it a field of research to find grooming attempts in private chats with automated machine learning systems. The primary motivation has been improving the detection accuracy or detecting grooming earlier. The Thesis argues that neither of these issues is the most pressing one. Instead, the main issue within the field is the lack of access to sufficient amounts of high-quality data that are platform, iconography and time insensitive.
Using a quantitative approach to building algorithmic solutions, this Thesis explores the usage of features and algorithms for detecting predators. A framework was developed to test combinations of features and algorithms and leverage their strengths. To detect predators, six features and twenty-nine classical machine learning algorithms were trained on a preexisting dataset. The features were all lexical, meaning that the features are generated from text without any other data. The final solution explored Bag-of-words, Binary bag-of-words, Term Frequency, Term Frequency-Inverse Document Frequency (TF-IDF) , Linguistic Inquiry and Word Count (LIWC), and a combination of TF-IDF and LIWC. The algorithms were predominantly linear models, support vector machines, ensembles or variations on Naïve Bayes classifiers. The best combinations are aggregated to soft voting ensembles that combine the predictions from several algorithms. Lastly, the top-performing solutions are optimised with hyperparameter tuning.
The best performing solution gained third place in the current standings in detecting predators with a score of 0.947, measured by f0.5, the primary metric in the field. The solution was a two-stage approach using a Multi-layer Perceptron with TF-IDF to find suspicious conversations and a RidgeClassifierCV with TF-IDF to find which participants in the suspicious conversations were the predators. A high-performing solution shows that using a quantitative approach has merit as a framework for finding suitable solutions. The main contribution to the field of Sexual Predator Identification is the framework used to develop solutions and the proposed solution for the problem of detecting predators.