Detecting Private-Sensitive Content in Norwegian Social Media
Abstract
Sosiale medieplattformer har endret landskapet for hvordan informasjon deles og hvordan folk forbindes over nett, men det har oppstått bekymringer angående potensielle brudd på brukernes personvern. Med den raske teknologiske utviklingen og globaliseringen har det blitt stadig vanskeligere å beskytte persondata. Denne masteroppgaven adresserer problemet med å oppdage og klassifisere privat-sensitivt innhold på norske sosiale medier, der målet er å bidra til bedre personvernbeskyttelse for norske sosiale mediebrukere. For å oppnå dette opprettes et annotert datasett som inneholder privat-sensitiv tekst fra sosiale medier på norsk. Dette datasettet brukes til å trene NB BERT-modellen, som er basert på transformers, samt konvensjonelle klassifikatorer for deteksjon. Den finjusterte NB BERT- modellen oppnår en F1-score på 0.82, noe som overgår den konvensjonelle klassifikatoren som fikk den nest beste F1-scoren på 0.74. Bidragene fra denne masteroppgaven inkluderer en definisjon av privat-sensitivt innhold basert på EUs personvernforordning (GDPR), et annotert datasett med norsk tekst fra sosiale medier, en finjustert NB BERT-base-modell for norsk tekst i sosiale medier, og en fler-klasse NB BERT-base-modell for klassifisering av privat-sensitivt innhold. Forskningsmetodene som er brukt i denne oppgaven inkluderer en litteraturgjennomgang, annotering av data og to eksperimenter: trening og finjustering av NB BERT-base-modellen, samt trening av konvensjonelle klassifikatorer. Social media platforms have transformed the landscape of information sharing and online connectivity, but concerns have arisen regarding potential violations of users’ privacy. With the rapid advancement of technology and globalization, protecting personal data has become increasingly challenging. This thesis addresses the problem of detecting and classifying private-sensitive content in Norwegian social media, with the aim of enhancing privacy protection for Norwegian social media users. A labelled data set specifically for private-sensitive content in Norwegian social media is created to achieve this. The data set is used to train the transformer-based NB BERT model and conventional classifiers for content detection. Our comparative analysis reveals that the fine-tuned NB BERT model achieves an F1 score of 0.82, surpassing the best-performing conventional classifier, which scores 0.74. The contributions of this thesis include a definition of private-sensitive content aligned with the General Data Protection Regulation (GDPR), a labelled data set of Norwegian social media content, a fine-tuned NB BERT-base model for Norwegian social media text, and a fine-tuned multi-class NB BERT-base model for classifying private-sensitive content. The research methods employed in this thesis involve a literature review, data annotation, and two experiments: training and fine-tuning the NB BERT-base model, as well as training conventional classifiers.