Vis enkel innførsel

dc.contributor.advisorEidheim, Ole Christian
dc.contributor.authorKopperud, Pernille
dc.contributor.authorMahmood, Dilawar
dc.date.accessioned2021-09-15T16:48:32Z
dc.date.available2021-09-15T16:48:32Z
dc.date.issued2021
dc.identifierno.ntnu:inspera:83510435:83529055
dc.identifier.urihttps://hdl.handle.net/11250/2778055
dc.description.abstractI dagens samfunn er teknologien i konstant utvikling, og på grunn av dette blir det samlet inn og lagret en økende mengde data. De siste årene har mange firmaer samlet store mengder data fra diverse datakilder, slik som sykehus eller andre helseinstitusjoner. Siden data i dag er ytterst tilgjengelig og kommer i stort volum, velger mange firmaer å bruke maskinlæring for å hente ut verdifull informasjon fra denne dataen. Teknikken som omhandler det å samle inn, lagre, og gjøre maskinlæring på den dataen er kjent som sentralisert læring. Utfordringen med denne teknikken er innsamlingen og lagringen av data da prosessen rundt dette er sterkt regulert av lover som for eksempel GDPR. Firmaer som lagrer data har derfor et enormt ansvar med å beskytte den innsamlede dataen. I øyeblikket sensitiv data forlater datakilden, så står den i fare for å bli fanget av tredjepart med uetiske intensjoner. I tillegg til dette, så må dataen som har blitt samlet inn bli lagret i en sikker database som kan beskytte dataen mot eventuelle angrep. Denne rapporten tar derfor i betraktning en mer personvernsbevarende metode for å reduserere svakhetene knyttet til sentralisert læring når det gjelder personvern. Denne metoden er kjent som føderert læring. Føderert læring er en relativ ny metode som har som mål å bevare personvernet til de som eier dataen, også referert til som klienter i føderert læring. I motsetning til sentralisert læring hvor modellen blir trent på serveren, distribuerer føderert læring den globale modellen til alle tilgjengelige klienter. De distribuerte modellene trenes på dataen til sin respektive klient. Når klientene har trent modellene sine, så blir de oppdaterte modellene sendt tilbake til den sentrale serveren hvor modellene blir aggregert. Fordelen med denne metoden når det kommer til personvern er at rådataen aldri forlater klienten, noe som gjør at dataen blir mindre sårbar mot potensielle angrep. Siden dataen ikke blir lagret av en tredjepart, trenger ikke tredjepartene å bekymre seg for å beskytte den sensitive dataen. Selv om føderert læring virker som en bedre metode for å trene modeller på sensitiv desentralisert data, er ikke metoden helt sikker. Selv om dataen ikke blir sendt eller lagret, blir vektene til modellen det, noe som fører til nye personvernsutfordringer. På grunn av dette, vil rapporten utforske statistiske og kryptografiske metoder for å forsterke sikkerheten i føderert læring. I tillegg til dette, vil rapporten se på hvordan disse metodene påvirker ytelsen til maskinlæringsmodeller som blir trent med føderert læring, siden en god modell er av høy prioritet når man bruker maskinlæring. Til slutt vil rapporten studere kompromissene mellom å få en god modell og å oppnå et sikkert føderert-læringsmiljø. Rapporten beskriver også en implementasjon av føderert læring på sensitiv medisinsk data.
dc.description.abstractIn today's society, technology is constantly evolving, and as a result the amount of data being collected and stored is increasing massively. In recent years, many companies have collected large amounts of data from various data sources such as hospitals and other health institutions. Today, many companies use machine learning in order to retain valuable information from the data they have collected due to its high-availability and large quantity. The process of collecting, storing and using machine learning on this data, is known as centralized learning. The challenge with this approach concerns the collection and storage of the data. The data collection process is governed by strict rules such as GDPR, and the companies that store data take on a great responsibility in terms of preserving the privacy of the data. When privacy-sensitive data leaves its data source, it can potentially be intercepted by an adversary which threatens the data privacy. Furthermore, the data collected has to be stored in a database. This requires the responsible companies to maintain a certain level of security in the database in order to prevent any attacks towards the privacy of the data being stored. This report considers a more privacy-preserving approach to remedy the privacy concerns related to centralized learning. This approach is known as federated learning. Federated learning is a relatively new approach which aims to preserve the privacy of the data-owners, which are referred to as clients in federated learning. Unlike centralized learning where the model is trained at the server, federated learning distributes a global model to all participating clients. The distributed models are trained locally at the clients. Once the clients have trained their individual models, the updated models are communicated back to the central server where they are aggregated. The main privacy advantage to this approach is that the raw data never has to leave the clients, making the data less vulnerable to potential attacks. Moreover, no data is stored by a third party, thus alleviating the responsibility of storing privacy-sensitive data in a database. While federated learning appears to be the better approach for training models on privacy-sensitive decentralized data, the approach is not completely secure. Even though no data is being communicated or stored, the model is still being shared between the clients and the server which causes new privacy-related challenges. Therefore, this report explores how statistical and cryptographic methods can further enhance security in federated learning environments. In addition, this report observes how combining such methods with federated learning affects the model performance since model performance is of high priority when performing machine learning. Finally, this report studies the trade-off between model-performance and achieving a secure federated learning environment. The report also describes an implementation of federated learning applied to sensitive medical data.
dc.languageeng
dc.publisherNTNU
dc.titlePrivacy-Preserving Federated Learning Applied to Decentralized Data
dc.typeBachelor thesis


Tilhørende fil(er)

Thumbnail
Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel