Context versus Content: A context analysis of AiBA chat data using USE and SBERT
Abstract
I etterforskning av saker som omhandler seksuelle overgrep mot barn i form avtekst, bilder og videoer er det alltid utfordrende å sortere denne informasjonen utfra en større mengde med data. Med den teknologiske fremgangen i samfunnetøker det med både antall enheter og hvor mye data som blir beslaglagt i straffesaker. Datalagring og mengden data har økt eksponensielt de siste årene og detser ikke ut til å stoppe med det første. Det blir stadig mer krevende å gå gjennomdisse mengdene med data og på en effektiv måte kunne identfisere de dataene sombelyser det straffbare forholdet. Ved å kunne dele opp chat-meldinger i ’sentiment’kan man sannsynliggjøre hva meningen i innholdet er. Deretter vil vi sammenliknesetningene og se hvordan de scorer i forskjellige setnings-analyser. Dette kan føreoss til utvikling av nye leksikon for å kategorisere ord som kan identifiseres somseksuell grooming og nye metoder for å identifisere seksuell grooming raskereog mer pålitelig. Denne oppgaven vil utforske dette ved å bruke et datasett medmeldings-data fra AiBA og analysere denne gjennom bruk av Universal SentenceEncoder (USE) og Sentence-Bidirectional Encoder Representations from Transformers (SBERT) og for så å sammenlikne resultatene fra disse to modellene. Vifant ut at setningene scorer ganske forskjellig selv om de er kontekstuelt identiske.Dette innebærer at det trengs ytterligere forskning for å trene språkmodellene. In investigating criminal cases that deal with sexual abuse of children in the formof text, images and videos, it is always challenging to sort this data out of a largeramount of data. With the technological progress in society, the number of devicesand the amount of data seized in criminal cases is increasing rapidly. Data storageand the amounts of data has increased exponentially in recent years and it doesnot seem to be stopping anytime soon. It is becoming more and more demanding to go through these amounts of data and to be able to effectively identify thedata that illuminates the criminal relationship. This thesis will explore the sentimentation of messages as an aid to reveal the meaning of the content. We willfurther see how this scores in different sentence-models. This can lead us to thedevelopment of new lexicons for the sentiment of words that can be identifiedas sexual grooming and new methods to identifying sexual grooming faster andmore reliable. This thesis will explore this by using a data set of message datafrom AiBA and analyze this through the use of Universal Sentence Encoder (USE)and Sentence-Bidirectional Encoder Representations from Transformers (SBERT)and then compare the results from the two models. We found that the sentencesscore quite differently even though they are contextually identical. This impliesthat further research to train the language models is needed.