Privacy in Recommender Systems: Can Recommendations Reveal Your Location?
Abstract
Anbefalingssystemer har blitt en essensiell del av brukeropplevelsen online, og hjelper brukere til å navigere seg gjennom en overflod av tilgjengelig informasjon, produkter og tjenester. I denne sammenheng har en rekke akademiske artikler nylig blitt publisert, som viser at det er mulig å utlede privat informasjon om brukeren fra brukerens anbefalinger og tidligere interaksjoner med systemet. Denne rapporten ønsker derfor å bygge videre på dette arbeidet, ved å undersøke utleding av privat informasjon kun fra brukerens anbefalinger, hvor et spesielt fokus blir gitt til brukerens lokasjon.
I denne forbindelse ble en rekke eksperimenter ble utført, hvor brukerens lokasjon, samt kjønn, alder, og yrke, ble forsøkt utledet ved hjelp populære klassifiseringsmetoder. Anbefalingene ble generert ved bruk av en Factorization Machine med Bayesian Personalized Ranking tap, samt to kjente datasett: MovieLens 100K og BookCrossing.
Klassifiseringsmetodene var i stand til å utlede om en bruker bor i USA med en AUC score på 82.7 %. De strevde derimot mer når et annet datasett ble brukt, hvor målet heller var å utlede hvilken region i USA en bruker bodde. Det kan derfor konkluderes at det er mulig å utlede informasjon om brukerens lokasjon fra anbefalingene deres, men at det vil avhenge på anbefalingenes egenskaper og på hvilket geografiske nivå lokasjonen er forsøkt utledet The use of recommender systems has become a crucial part of the online experience and enables the user daily to navigate through the abundance of available services, products and information. However, recent works show that it is possible for an adversary to infer a user’s private attributes from their recommendations and interaction history. To extend this research, the thesis aims to investigate inference of private attributes solemnly from personalized recommendations in the context of location information.
A set of experiments were performed, where the location attribute, as well as other private attributes, were attempted to be inferred using standard classification models. The recommendations were generated using a Factorization Machine model with Bayesian Personalized Ranking loss, and two well-known datasets: MovieLens 100K and BookCrossing.
The classification models were able to infer whether a user lives in the USA with AUC scores up to 82.7 %, but struggled when another dataset was utilized, where the scope of the location information was reduced to inside the USA. It can therefore be concluded that it indeed is possible to accurately infer information about the user’s location from their recommended items, but that it will depend highly on the characteristics of the recommendations and the scope of the location information.