Active Learning with Transformer Pre-trained Language Models for Entity Matching

Nygard, Mikkel; Samuelsen, Øyvind

dc.contributor.advisor	Gulla, Jon Atle
dc.contributor.advisor	Barlaug, Nils
dc.contributor.author	Nygard, Mikkel
dc.contributor.author	Samuelsen, Øyvind
dc.date.accessioned	2021-10-26T17:21:24Z
dc.date.available	2021-10-26T17:21:24Z
dc.date.issued	2021
dc.identifier	no.ntnu:inspera:74730513:30833338
dc.identifier.uri	https://hdl.handle.net/11250/2825820
dc.description.abstract	Entitetsmatching refererer til problemet med å finne ut hvilke data som refererer til den samme virkelige entiteten. Nylig, takket være fremveksten av ferdigtrente Transformer språkmodeller (TPLMs), har entitetsmatching sett ny utvikling og moderne løsninger. Imidlertidig er behovet for en betydelig mengde treningsdata fremdeles en utfordring. Aktiv læring er en maskinlæringsmetodikk som har som mål å minimere den nødvendige mengden med treningsdata, samtidig som kvaliteten på modellen opprettholdes. Denne oppgaven utforsker hvordan aktiv læring fungerer sammen med TPLMs for entitetsmatching. Flere aktiv læringsstrategier har vært sammenlignet mot en basisstrategi av tilfeldig utplukk, inkludert usikkerhets-utplukk og partisjonsmetoder. Eksperimentene har vært utført på offentlig tilgjengelig entitetsmatching-datasett, bestående av forbrukerproduktsdata og siteringsdata. Vi fant at alle aktiv læringsstrategiene konsekvent gjorde det bedre enn den ikke-aktiv læring basisstrategien, med en iterasjonstid på 2,5-8 minutter. Selv når basisstrategien ble trent på all tilgjengelig data, fikk flere aktiv læringsstrategier høyere F1-poeng med en størrelsesorden færre treningsdata. For den beste spørre-strategien, Partition-2, skjedde dette etter gjennomsnittlig bare 9,1% av all treningsdata var spurt. Hybrid-Partition-2 er en ny aktiv læringsstrategi som kombinerer hastigheten til klassiske maskinlæringsmodeller og ytelsen til TPLMs. Vi fant ut at denne teknikken resulterte i en ofte betydelig høyere initiell tilbakekalling. Dette resulterte i 0,011-0,345 høyere initiell F1-poeng på de 5 datasettene. Denne metoden krever imidlertidig ekstra arbeid fra det faktum at den må kjøre to separater iterasjoner med aktive læring. Til slutt har vi anbefalt videre utvikling av nye aktiv læringsstrategier spesielt laget for entitetsmatching med TPLMs, i tillegg til et testrammeverk for å velge hyperparametere når man utfører denne oppgaven.
dc.description.abstract	Entity matching refers to the problem of finding which records refer to the same real-world entity. Recently, thanks to the rise of Transformer pre-trained language models (TPLMs), the field of entity matching has seen new development and state-of-the-art solutions. However, the need for a significant amount of training data remains a challenge. Active learning is a machine learning methodology seeking to minimize the required labeling effort while maintaining the quality of the model. This thesis explores how combining active learning with TPLMs performs for entity matching. Several active learning query strategies have been compared against a baseline of random sampling, including uncertainty sampling and partition based methods. The experiments have been performed on public entity matching datasets, concerning consumer product data and citation data. We found all active learning strategies consistently outperformed the non-active learning baseline, with an iteration time of 2.5-8 minutes. Even when the baseline was trained on all available data, several query strategies surpassed its F1-score with an order of magnitude fewer labeled examples. For the best performing strategy, Partition-2, this happened on average after only 9.1% of the total training data was queried. Hybrid- Partition-2 is a novel active learning technique, which combines the speed of classical machine learning models, and performance of TPLMs. We found that this technique resulted in an often significantly higher initial recall. This resulted in a 0.011-0.345 higher initial F1-score across 5 datasets. The method does however require extra overhead with the fact that two separate iterations of active learning need to be run. In the end, we have recommended further work in the area of developing more novel active learning query strategies specifically made for entity matching with TPLMs, in addition to a benchmark framework for selecting appropriate hyperparameters when performing this task.
dc.language	eng
dc.publisher	NTNU
dc.title	Active Learning with Transformer Pre-trained Language Models for Entity Matching
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:74730513:30833 ...
Størrelse:: 7.692Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6558]

Vis enkel innførsel