Vis enkel innførsel

dc.contributor.advisorAune, Erlend
dc.contributor.authorFerstad, Andreas Opsahl
dc.date.accessioned2022-02-18T18:24:30Z
dc.date.available2022-02-18T18:24:30Z
dc.date.issued2020
dc.identifierno.ntnu:inspera:56982622:33632404
dc.identifier.urihttps://hdl.handle.net/11250/2980257
dc.descriptionFull text not available
dc.description.abstractRecently introduced data regulations, like the European Union's General Data Protection Regulation (GDPR), mandate data owners to delete data whenever it violates any restrictions, typically consent withdrawal from data subjects. Often this data was used for some value creation, such as identifying heart disease, voice recognition or removing inappropriate ads. When data is deleted the performance of the methods using the data decreases. The motivation is then to research new techniques that meet rigorous data ethics standards while also maintaining a stable performance. This thesis proposes a novel technique for using Active Learning in data deletion scenarios. Our algorithm is called Similar-Uncertainty Thresholding (SIUNTH), and it reduces the negative effects of data deletion by actively selecting new data. The algorithm differs from successfully established methods like Uncertainty Sampling, by not only looking at the informativeness of new data, but also at the similarity to the data that was deleted. Experiments are simulated on real world case studies. The results indicate that in data deletion scenarios SIUNTH performs better than Uncertainty Sampling, which is one of the most popular and successful methods to use in traditional active learning scenarios.
dc.description.abstractNylig introduserte datareguleringer, som Den europeiske unions generelle databeskyttelsesforordning (GDPR), forbyr dataeiere å beholde data som bryter med begrensninger, typisk fravær av samtykke fra datakilden. Ofte ble disse dataene brukt til verdiskaping, for eksempel å identifisere hjertesykdommer, stemmegjenkjenning eller fjerne upassende annonser. Når data blir slettet, reduseres ytelsen til metodene som bruker dataene. Motivasjonen er da å forske på nye teknikker som oppfyller strenge dataetiske standarder og samtidig opprettholde en stabil ytelse. Denne oppgaven foreslår en ny teknikk for bruk av Aktiv læring i scenarier med sletting av data. Vår algoritme er kalt Similar-Uncertainty Thresholding (SIUNTH), og den reduserer de negative effektene av sletting av data ved å aktivt velge ny data. Algoritmen skiller seg fra vellykkede etablerte metoder som Uncertainty Sampling, ved ikke bare å se på hvor informativ den nye dataen er, men også på likheten med dataene som ble slettet. Eksperimenter simuleres på virkelighetsnære casestudier. Resultatene indikerer at SIUNTH i dataslettingsscenarier presterer bedre enn Uncertainty Sampling, som er en av de mest populære og vellykkede metodene å bruke i tradisjonelle aktive læringsscenarier.
dc.language
dc.publisherNTNU
dc.titlePool-Based Active Learning with Data Deletion
dc.typeBachelor thesis


Tilhørende fil(er)

FilerStørrelseFormatVis

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel