Giving the Police a Head Start: Norwegian Named Entity Recognition Dataset and Model Development for Investigative Purposes
Master thesis
Permanent lenke
https://hdl.handle.net/11250/3103088Utgivelsesdato
2023Metadata
Vis full innførselSamlinger
Sammendrag
Nesten alle eier digitale enheter og digitale bevis har blitt en viktig del av etterfor- skninger. Den store mengden med digitale enheter og bevis som må undersøkes fører til et etterslep, som igjen kan føre til forsinkelser og utfordringer for etterfor- skerne. Det har blitt laget Navngitt Enhetsgjenkjenning-modeller (NER) til bruk i etterforskning for andre språk og det har blitt laget norske NER-modeller, men det er ikke gjort noe forskning på norske NER-modeller til bruk i etterforskning. For å prøve å løse dette problemet for det norske politiet foreslår vi en norsk NER- modell til bruk i etterforskning.Vi har samlet inn og annotert Wikipedia artikler relatert til kriminalitet og har laget et datasett som kan brukes til å trene en NER-modell for norsk som kan brukes i etterforskninger. Vi har annotert datasettet med både generelle etiketter og etiketter spesifikke for etterforskning. Gjennom forskjellige eksperimenter med å finjustere en BERT-basert norsk NLP-modell (Naturlig Språkprosessering) fant vi en optimalisert modell som fikk gode resultater. Modellen vår fikk en presisjon på 0.904, en dekning på 0.908 og en F1-score på 0.906. Enhetstypen som gjorde det best var kjøretøy, som er en av de spesifikke etikettene for etterforskning, som fikk en F1-score på 0.973. 4 av enhetstypene fikk en F1-score på over 0.9 og 7 av dem oppnådde en F1-score over 0.79. Når vi sammenlignet vår modell med andre modeller, både modeller til bruk i etterforskninger for andre språk og en norsk generell modell, så vi at vår modell gjorde det like bra som disse modellene.Vi klarte å lage et konseptbevis for at det er mulig å lage en norsk NER-modell til bruk i etterforskning. For å bruke modellen i faktiske etterforskninger burde modellen være trent på reelle etterforskningdata. Man kan ikke stole 100% på en NER-modell, men den har fortsatt potensialet til å bli et verdifullt verktøy for politiet og den kan hjelpe etterforskere med å spare mye tid. Almost everyone owns digital devices, and digital evidence have become an im- portant part of investigations. The large amount of digital devices and evidence needing to be examined and analyzed leads to the digital forensics backlog, which can cause delays and challenges in investigations. There exists Named Entity Re- cognition (NER) models for investigative purposes in other languages and there are Norwegian NER models, but there has not been done any research on a Norwe- gian NER model for investigative purposes. To help mitigate this problem for the Norwegian Police we propose a Norwegian NER model for investigative purposes.We have collected and annotated domain specific Wikipedia articles and have created a dataset that can be used to train a NER model for investigative purposes in Norwegian. We have annotated the dataset with both general and investigative labels. During different experiments with fine-tuning a BERT based Norwegian Natural Language Processing (NLP) model, we found an optimized model which achieved good results. Our optimized model achieved a precision of 0.904, a re- call of 0.908 and a F1-score of 0.906. The entity type with the highest score is vehicle, one of the domain specific entity types, with a F1-score of 0.973. 4 of the entity types achieved F1-score over 0.9 and 7 achieved F1-score over 0.79. When comparing the results of our model with other models, both models of investig- ative purposes in other languages and a Norwegian general model, we saw that our model performs as well as these models.We were able to provide a proof of concept demonstrating that creating a Nor- wegian NER model for investigative purposes is possible. In a real world scenario, such a model should be trained on real investigation data. A NER model can not be a 100% relied on, but it still has the potential to be a great tool for the police and could help investigators save a lot of time.