Vis enkel innførsel

dc.contributor.advisorBours, Patrick Adrianus
dc.contributor.advisorVenkatesh, Sushma
dc.contributor.authorValen, Marius
dc.date.accessioned2024-03-01T18:19:38Z
dc.date.available2024-03-01T18:19:38Z
dc.date.issued2023
dc.identifierno.ntnu:inspera:155686277:49851574
dc.identifier.urihttps://hdl.handle.net/11250/3120735
dc.description.abstractI etterforskning av saker som omhandler seksuelle overgrep mot barn i form av tekst, bilder og videoer er det alltid utfordrende å sortere denne informasjonen ut fra en større mengde med data. Med den teknologiske fremgangen i samfunnet øker det med både antall enheter og hvor mye data som blir beslaglagt i straffesaker. Datalagring og mengden data har økt eksponensielt de siste årene og det ser ikke ut til å stoppe med det første. Det blir stadig mer krevende å gå gjennom disse mengdene med data og på en effektiv måte kunne identfisere de dataene som belyser det straffbare forholdet. Ved å kunne dele opp chat-meldinger i ’sentiment’ kan man sannsynliggjøre hva meningen i innholdet er. Deretter vil vi sammenlikne setningene og se hvordan de scorer i forskjellige setnings-analyser. Dette kan føre oss til utvikling av nye leksikon for å kategorisere ord som kan identifiseres som seksuell grooming og nye metoder for å identifisere seksuell grooming raskere og mer pålitelig. Denne oppgaven vil utforske dette ved å bruke et datasett med meldings-data fra AiBA og analysere denne gjennom bruk av Universal Sentence Encoder (USE) og Sentence-Bidirectional Encoder Representations from Transformers (SBERT) og for så å sammenlikne resultatene fra disse to modellene. Vi fant ut at setningene scorer ganske forskjellig selv om de er kontekstuelt identiske. Dette innebærer at det trengs ytterligere forskning for å trene språkmodellene.
dc.description.abstractIn investigating criminal cases that deal with sexual abuse of children in the form of text, images and videos, it is always challenging to sort this data out of a larger amount of data. With the technological progress in society, the number of devices and the amount of data seized in criminal cases is increasing rapidly. Data storage and the amounts of data has increased exponentially in recent years and it does not seem to be stopping anytime soon. It is becoming more and more demanding to go through these amounts of data and to be able to effectively identify the data that illuminates the criminal relationship. This thesis will explore the sentimentation of messages as an aid to reveal the meaning of the content. We will further see how this scores in different sentence-models. This can lead us to the development of new lexicons for the sentiment of words that can be identified as sexual grooming and new methods to identifying sexual grooming faster and more reliable. This thesis will explore this by using a data set of message data from AiBA and analyze this through the use of Universal Sentence Encoder (USE) and Sentence-Bidirectional Encoder Representations from Transformers (SBERT) and then compare the results from the two models. We found that the sentences score quite differently even though they are contextually identical. This implies that further research to train the language models is needed.
dc.languageeng
dc.publisherNTNU
dc.titleContext versus Content: A context analysis of AiBA chat data using USE and SBERT
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel