dc.contributor.advisor | Bours, Patrick Adrianus | |
dc.contributor.advisor | Venkatesh, Sushma | |
dc.contributor.author | Valen, Marius | |
dc.date.accessioned | 2024-03-01T18:19:38Z | |
dc.date.available | 2024-03-01T18:19:38Z | |
dc.date.issued | 2023 | |
dc.identifier | no.ntnu:inspera:155686277:49851574 | |
dc.identifier.uri | https://hdl.handle.net/11250/3120735 | |
dc.description.abstract | I etterforskning av saker som omhandler seksuelle overgrep mot barn i form av
tekst, bilder og videoer er det alltid utfordrende å sortere denne informasjonen ut
fra en større mengde med data. Med den teknologiske fremgangen i samfunnet
øker det med både antall enheter og hvor mye data som blir beslaglagt i straffesaker. Datalagring og mengden data har økt eksponensielt de siste årene og det
ser ikke ut til å stoppe med det første. Det blir stadig mer krevende å gå gjennom
disse mengdene med data og på en effektiv måte kunne identfisere de dataene som
belyser det straffbare forholdet. Ved å kunne dele opp chat-meldinger i ’sentiment’
kan man sannsynliggjøre hva meningen i innholdet er. Deretter vil vi sammenlikne
setningene og se hvordan de scorer i forskjellige setnings-analyser. Dette kan føre
oss til utvikling av nye leksikon for å kategorisere ord som kan identifiseres som
seksuell grooming og nye metoder for å identifisere seksuell grooming raskere
og mer pålitelig. Denne oppgaven vil utforske dette ved å bruke et datasett med
meldings-data fra AiBA og analysere denne gjennom bruk av Universal Sentence
Encoder (USE) og Sentence-Bidirectional Encoder Representations from Transformers (SBERT) og for så å sammenlikne resultatene fra disse to modellene. Vi
fant ut at setningene scorer ganske forskjellig selv om de er kontekstuelt identiske.
Dette innebærer at det trengs ytterligere forskning for å trene språkmodellene. | |
dc.description.abstract | In investigating criminal cases that deal with sexual abuse of children in the form
of text, images and videos, it is always challenging to sort this data out of a larger
amount of data. With the technological progress in society, the number of devices
and the amount of data seized in criminal cases is increasing rapidly. Data storage
and the amounts of data has increased exponentially in recent years and it does
not seem to be stopping anytime soon. It is becoming more and more demanding to go through these amounts of data and to be able to effectively identify the
data that illuminates the criminal relationship. This thesis will explore the sentimentation of messages as an aid to reveal the meaning of the content. We will
further see how this scores in different sentence-models. This can lead us to the
development of new lexicons for the sentiment of words that can be identified
as sexual grooming and new methods to identifying sexual grooming faster and
more reliable. This thesis will explore this by using a data set of message data
from AiBA and analyze this through the use of Universal Sentence Encoder (USE)
and Sentence-Bidirectional Encoder Representations from Transformers (SBERT)
and then compare the results from the two models. We found that the sentences
score quite differently even though they are contextually identical. This implies
that further research to train the language models is needed. | |
dc.language | eng | |
dc.publisher | NTNU | |
dc.title | Context versus Content: A context analysis of AiBA chat data using USE and SBERT | |
dc.type | Master thesis | |