Vis enkel innførsel

dc.contributor.advisorGulla, Jon Atle
dc.contributor.advisorBarlaug, Nils
dc.contributor.authorNygard, Mikkel
dc.contributor.authorSamuelsen, Øyvind
dc.date.accessioned2021-10-26T17:21:24Z
dc.date.available2021-10-26T17:21:24Z
dc.date.issued2021
dc.identifierno.ntnu:inspera:74730513:30833338
dc.identifier.urihttps://hdl.handle.net/11250/2825820
dc.description.abstractEntitetsmatching refererer til problemet med å finne ut hvilke data som refererer til den samme virkelige entiteten. Nylig, takket være fremveksten av ferdigtrente Transformer språkmodeller (TPLMs), har entitetsmatching sett ny utvikling og moderne løsninger. Imidlertidig er behovet for en betydelig mengde treningsdata fremdeles en utfordring. Aktiv læring er en maskinlæringsmetodikk som har som mål å minimere den nødvendige mengden med treningsdata, samtidig som kvaliteten på modellen opprettholdes. Denne oppgaven utforsker hvordan aktiv læring fungerer sammen med TPLMs for entitetsmatching. Flere aktiv læringsstrategier har vært sammenlignet mot en basisstrategi av tilfeldig utplukk, inkludert usikkerhets-utplukk og partisjonsmetoder. Eksperimentene har vært utført på offentlig tilgjengelig entitetsmatching-datasett, bestående av forbrukerproduktsdata og siteringsdata. Vi fant at alle aktiv læringsstrategiene konsekvent gjorde det bedre enn den ikke-aktiv læring basisstrategien, med en iterasjonstid på 2,5-8 minutter. Selv når basisstrategien ble trent på all tilgjengelig data, fikk flere aktiv læringsstrategier høyere F1-poeng med en størrelsesorden færre treningsdata. For den beste spørre-strategien, Partition-2, skjedde dette etter gjennomsnittlig bare 9,1% av all treningsdata var spurt. Hybrid-Partition-2 er en ny aktiv læringsstrategi som kombinerer hastigheten til klassiske maskinlæringsmodeller og ytelsen til TPLMs. Vi fant ut at denne teknikken resulterte i en ofte betydelig høyere initiell tilbakekalling. Dette resulterte i 0,011-0,345 høyere initiell F1-poeng på de 5 datasettene. Denne metoden krever imidlertidig ekstra arbeid fra det faktum at den må kjøre to separater iterasjoner med aktive læring. Til slutt har vi anbefalt videre utvikling av nye aktiv læringsstrategier spesielt laget for entitetsmatching med TPLMs, i tillegg til et testrammeverk for å velge hyperparametere når man utfører denne oppgaven.
dc.description.abstractEntity matching refers to the problem of finding which records refer to the same real-world entity. Recently, thanks to the rise of Transformer pre-trained language models (TPLMs), the field of entity matching has seen new development and state-of-the-art solutions. However, the need for a significant amount of training data remains a challenge. Active learning is a machine learning methodology seeking to minimize the required labeling effort while maintaining the quality of the model. This thesis explores how combining active learning with TPLMs performs for entity matching. Several active learning query strategies have been compared against a baseline of random sampling, including uncertainty sampling and partition based methods. The experiments have been performed on public entity matching datasets, concerning consumer product data and citation data. We found all active learning strategies consistently outperformed the non-active learning baseline, with an iteration time of 2.5-8 minutes. Even when the baseline was trained on all available data, several query strategies surpassed its F1-score with an order of magnitude fewer labeled examples. For the best performing strategy, Partition-2, this happened on average after only 9.1% of the total training data was queried. Hybrid- Partition-2 is a novel active learning technique, which combines the speed of classical machine learning models, and performance of TPLMs. We found that this technique resulted in an often significantly higher initial recall. This resulted in a 0.011-0.345 higher initial F1-score across 5 datasets. The method does however require extra overhead with the fact that two separate iterations of active learning need to be run. In the end, we have recommended further work in the area of developing more novel active learning query strategies specifically made for entity matching with TPLMs, in addition to a benchmark framework for selecting appropriate hyperparameters when performing this task.
dc.languageeng
dc.publisherNTNU
dc.titleActive Learning with Transformer Pre-trained Language Models for Entity Matching
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel