Privacy Leaks in Recommender Lists: Exploring Obfuscation Techniques to Preserve Privacy

Barthold, Ingebjørg

Barthold, Ingebjørg

Master thesis

Åpne

no.ntnu:inspera:142737689:34371115.pdf (13.67Mb)

Permanent lenke

https://hdl.handle.net/11250/3107223

Utgivelsesdato

2023

Metadata

Vis full innførsel

Samlinger

Institutt for datateknologi og informatikk [6552]

Sammendrag

Flesteparten av dagens digitale tjenester benytter en eller annen form for et anbefalingssystem. En stor ulempe med disse anbefalingssystemene er at de baserer seg på

store mengder med persondata, noe som gjør dem utsatte for personvernangrep. Denne

masteroppgaven tar for seg scenarioet der en angriper klarer å finne en brukers kjønn,

utelukkende basert på brukerens filmanbefalinger. Det finnes verk som tar for seg personvern i anbefalingssystemer, men blant disse verkene er det manglende fokus på personvern

i selve anbefalingslistene. Målet med denne oppgaven er derfor å finne og eksperimentere

med teknikker som bytter ut "items" i anbefalingslister for å se om disse byttene kan

vanskeliggjøre kjønnsklassifisering.

Teknikkene som brukes for å endre på anbefalingslistene er basert på tidligere personvernarbeid i anbefalingssystemdomenet. I tillegg eksperimenterer arbeidet med en

teknikk som er mer knyttet opp mot "tilfeldige funn" (kalt serendipity på engelsk). Denne

teknikken baserer seg på å anbefale en bruker u "items" som er mislikt av brukere som

er ulike bruker u, preferansemessig. Mer spesifisert kalles "tilfeldige funn"-teknikken for

"k-Furthest Neighbor (kFN)". Anbefalingslistene som modifiseres er generert ved bruk av

en filmdatabase ved navn MovieLens100K.

Selve resultatene fra masterarbeidet fås ved å undersøke hvor relevante de modifiserte

anbefalingslistene er, samt hvor bra de skjuler brukerens kjønn (kun mann og kvinne

er tatt hensyn til). Resultatene viser at strategien som baserer seg på "tilfeldige funn"

er den som gjør det best generelt, både med tanke på angrepsbeskyttelse og relevanse

i anbefalingene. Videre peker resultatene også på at en høyere grad av modifisering,

der modifiseringen medfører mindre personalisering, ikke nødvendigvis resulterer i mer

personvernvennlige anbefalingslister.

Masterens bidrag er dermed en utforskning av mangelen på personvernfokus i anbefalingslister, i kombinasjon med brukbare teknikker som kan danne grunnlaget for

fremtidige tiltak.

Recommender Systems have become an essential part of today’s online services, providing

entertaining content to each individual user of a service. However, these systems require

a vast amount of user data, making them vulnerable to privacy attacks. The focus

of this thesis is on the attack that manages to infer a user’s gender based on a set of

recommended movies for that given user. Even though earlier works have indeed focused

on privacy in recommender systems, there is limited research on privacy-preserving

techniques for recommender lists. The goal of this thesis is thus to experiment with

obfuscation techniques, techniques that replace original items with new and "noisy" items,

to prevent an adversary from being able to infer users’ genders.

To do so, a set of obfuscation techniques discussed in earlier research, along with

techniques traditionally used to introduce serendipity, are performed on recommender

lists. These recommender lists are generated based on the MovieLens100K dataset. For

each particular technique, the average gender leakage and recommender performance is

measured.

The final contributions of this work include an awareness of the missing privacy

preservation in Recommender Systems, along with the techniques that can be used to

lower the accuracy of gender inference attacks. The results of the thesis reveal that

the serendipity-introducing technique based on the concept of "K furthest neighbors"

is able to lower inference performance while simultaneously preserving some degree of

personalization. Moreover, the results also show that an increasing degree of obfuscation

that decreases the degree of personalization does not necessarily correspond to better

privacy preservation.

Utgiver

NTNU