Context versus Content: A context analysis of AiBA chat data using USE and SBERT

Valen, Marius

dc.contributor.advisor	Bours, Patrick Adrianus
dc.contributor.advisor	Venkatesh, Sushma
dc.contributor.author	Valen, Marius
dc.date.accessioned	2024-03-01T18:19:38Z
dc.date.available	2024-03-01T18:19:38Z
dc.date.issued	2023
dc.identifier	no.ntnu:inspera:155686277:49851574
dc.identifier.uri	https://hdl.handle.net/11250/3120735
dc.description.abstract	I etterforskning av saker som omhandler seksuelle overgrep mot barn i form av tekst, bilder og videoer er det alltid utfordrende å sortere denne informasjonen ut fra en større mengde med data. Med den teknologiske fremgangen i samfunnet øker det med både antall enheter og hvor mye data som blir beslaglagt i straffesaker. Datalagring og mengden data har økt eksponensielt de siste årene og det ser ikke ut til å stoppe med det første. Det blir stadig mer krevende å gå gjennom disse mengdene med data og på en effektiv måte kunne identfisere de dataene som belyser det straffbare forholdet. Ved å kunne dele opp chat-meldinger i ’sentiment’ kan man sannsynliggjøre hva meningen i innholdet er. Deretter vil vi sammenlikne setningene og se hvordan de scorer i forskjellige setnings-analyser. Dette kan føre oss til utvikling av nye leksikon for å kategorisere ord som kan identifiseres som seksuell grooming og nye metoder for å identifisere seksuell grooming raskere og mer pålitelig. Denne oppgaven vil utforske dette ved å bruke et datasett med meldings-data fra AiBA og analysere denne gjennom bruk av Universal Sentence Encoder (USE) og Sentence-Bidirectional Encoder Representations from Transformers (SBERT) og for så å sammenlikne resultatene fra disse to modellene. Vi fant ut at setningene scorer ganske forskjellig selv om de er kontekstuelt identiske. Dette innebærer at det trengs ytterligere forskning for å trene språkmodellene.
dc.description.abstract	In investigating criminal cases that deal with sexual abuse of children in the form of text, images and videos, it is always challenging to sort this data out of a larger amount of data. With the technological progress in society, the number of devices and the amount of data seized in criminal cases is increasing rapidly. Data storage and the amounts of data has increased exponentially in recent years and it does not seem to be stopping anytime soon. It is becoming more and more demanding to go through these amounts of data and to be able to effectively identify the data that illuminates the criminal relationship. This thesis will explore the sentimentation of messages as an aid to reveal the meaning of the content. We will further see how this scores in different sentence-models. This can lead us to the development of new lexicons for the sentiment of words that can be identified as sexual grooming and new methods to identifying sexual grooming faster and more reliable. This thesis will explore this by using a data set of message data from AiBA and analyze this through the use of Universal Sentence Encoder (USE) and Sentence-Bidirectional Encoder Representations from Transformers (SBERT) and then compare the results from the two models. We found that the sentences score quite differently even though they are contextually identical. This implies that further research to train the language models is needed.
dc.language	eng
dc.publisher	NTNU
dc.title	Context versus Content: A context analysis of AiBA chat data using USE and SBERT
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:155686277:4985 ...
Størrelse:: 6.778Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for informasjonssikkerhet og kommunikasjonsteknologi [2531]

Vis enkel innførsel