• norsk
    • English
  • English 
    • norsk
    • English
  • Login
View Item 
  •   Home
  • Fakultet for informasjonsteknologi og elektroteknikk (IE)
  • Institutt for datateknologi og informatikk
  • View Item
  •   Home
  • Fakultet for informasjonsteknologi og elektroteknikk (IE)
  • Institutt for datateknologi og informatikk
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Detecting Private-Sensitive Content in Norwegian Social Media

Borgen, Haldis.; Zachariassen, Oline.
Master thesis
Thumbnail
View/Open
no.ntnu:inspera:142737689:34583304.pdf (17.76Mb)
URI
https://hdl.handle.net/11250/3100365
Date
2023
Metadata
Show full item record
Collections
  • Institutt for datateknologi og informatikk [6328]
Abstract
Sosiale medieplattformer har endret landskapet for hvordan informasjon deles og hvordan folk forbindes over nett, men det har oppstått bekymringer angående potensielle brudd på brukernes personvern. Med den raske teknologiske utviklingen og globaliseringen har det blitt stadig vanskeligere å beskytte persondata. Denne masteroppgaven adresserer problemet med å oppdage og klassifisere privat-sensitivt innhold på norske sosiale medier, der målet er å bidra til bedre personvernbeskyttelse for norske sosiale mediebrukere. For å oppnå dette opprettes et annotert datasett som inneholder privat-sensitiv tekst fra sosiale medier på norsk. Dette datasettet brukes til å trene NB BERT-modellen, som er basert på transformers, samt konvensjonelle klassifikatorer for deteksjon. Den finjusterte NB BERT-modellen oppnår en F1-score på 0.82, noe som overgår den konvensjonelle klassifikatoren som fikk den nest beste F1-scoren på 0.74. Bidragene fra denne masteroppgaven inkluderer en definisjon av privat-sensitivt innhold basert på EUs personvernforordning (GDPR), et annotert datasett med norsk tekst fra sosiale medier, en finjustert NB BERT-base-modell for norsk tekst i sosiale medier, og en fler-klasse NB BERT-base-modell for klassifisering av privat-sensitivt innhold. Forskningsmetodene som er brukt i denne oppgaven inkluderer en litteraturgjennomgang, annotering av data og to eksperimenter: trening og finjustering av NB BERT-base-modellen, samt trening av konvensjonelle klassifikatorer.
 
Social media platforms have transformed the landscape of information sharing and online connectivity, but concerns have arisen regarding potential violations of users' privacy. With the rapid advancement of technology and globalization, protecting personal data has become increasingly challenging. This thesis addresses the problem of detecting and classifying private-sensitive content in Norwegian social media, with the aim of enhancing privacy protection for Norwegian social media users. A labelled data set specifically for private-sensitive content in Norwegian social media is created to achieve this. The data set is used to train the transformer-based NB BERT model and conventional classifiers for content detection. Our comparative analysis reveals that the fine-tuned NB BERT model achieves an F1 score of 0.82, surpassing the best-performing conventional classifier, which scores 0.74. The contributions of this thesis include a definition of private-sensitive content aligned with the General Data Protection Regulation (GDPR), a labelled data set of Norwegian social media content, a fine-tuned NB BERT-base model for Norwegian social media text, and a fine-tuned multi-class NB BERT-base model for classifying private-sensitive content. The research methods employed in this thesis involve a literature review, data annotation, and two experiments: training and fine-tuning the NB BERT-base model, as well as training conventional classifiers.
 
Publisher
NTNU

Contact Us | Send Feedback

Privacy policy
DSpace software copyright © 2002-2019  DuraSpace

Service from  Unit
 

 

Browse

ArchiveCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsDocument TypesJournalsThis CollectionBy Issue DateAuthorsTitlesSubjectsDocument TypesJournals

My Account

Login

Statistics

View Usage Statistics

Contact Us | Send Feedback

Privacy policy
DSpace software copyright © 2002-2019  DuraSpace

Service from  Unit