dc.contributor.advisor | Gulla, Jon Atle | |
dc.contributor.advisor | Barlaug, Nils | |
dc.contributor.author | Folstad, Jon Steinar | |
dc.date.accessioned | 2022-06-07T17:19:30Z | |
dc.date.available | 2022-06-07T17:19:30Z | |
dc.date.issued | 2021 | |
dc.identifier | no.ntnu:inspera:74730513:33136645 | |
dc.identifier.uri | https://hdl.handle.net/11250/2997778 | |
dc.description.abstract | Entitetsgjenkjenning har som mål å redusere entropien mellom to ulike datakilder ved å
identifisere hvilke record som refererer til de samme entitetene i virkeligheten. Vanligvis
krever mange foreslåtte blokkeringsmetoder tilstrekkelig menneskelig domenekunnskap
og/eller en stor mengde merkede data, imidlertid er dette ofte utilgjengelig for app-
likasjoner i entitetsgjenkjenning for å oppnå nyttige blokkeringmodeller. I dette arbeidet
foreslår vi TopKDAL, en dyplæringsbasert tilnærming som er rettet mot en situasjon
med begrenset mengde merkede data ved å kombinere aktiv læring med forhåndstrente
transformer språksmodeller. Disse språkmodellene er en lovende tilnærming for å oppnå
semantisk meningsfulle embeddings og muligheten til å lære hvor man skal fokusere mel-
lom records. Ved å gjøre det avslører transformer modellene likheter mellom entitetene.
Vi bruker aktiv læring for å velge informative eksempler for å finjustere en transformer
språkmodell og for å takle knapphet på merkede data. På denne måten undersøker vi
hvordan arbeidet med merking av data kan reduseres, samtidig som modellnøyaktigheten
og blokkeringsytelsen opprettholdes.
Eksperimenter med fem referansedatasett for entitetsgjenkjenning viser effektiviteten til
TopKDAL med hensyn på pairs completeness (PC), reduction rate (RR) og kjøretid. Vi
fant at aktive læringsstrategier gir bedre resultater med en størrelsesorden færre merkede
eksempler sammenlignet med en supervised baseline som er trent på alle tilgjengelige
data. TopKDAL oppnådde den beste ytelsen med Imbalanced-Partition-2 og Balanced-
Uncertainty. Balanced-Uncertainty trenes basert på et balansert treningssett i starten,
som bidrar til å forbedre den aktive læringsytelsen og redusere risikoen for kaldstart-
problemer. Imidlertid kreves dette ekstra implementasjon for å muliggjøre potensialet
med en balansert start strategi. For å redusere biases ble Random-P/N-strategien trent
med et ubalansert treningssett som gir konkurransedyktig ytelse mot de mer avanserte
prøvetaking strategiene. Vår foreslåtte TopKDAL krever ingen menneskelige designbeslut-
ninger, og features læres fra dataene. Finjustering av hyperparametere anbefales fortsatt
for å optimalisere modellytelsen. | |
dc.description.abstract | Entity matching (EM) aims to reduce the entropy between two different data sources by
identifying which records refer to the same real-world entity. Typically, many proposed
blocking approaches require sufficient human expert involvement and/or a large amount of
labeled data, however often unavailable for EM applications to achieve useful models. In
this work, we propose TopKDAL, a deep learning-based approach targeting a low-resource
setting through a combination of active learning (AL) with pre-trained transformer lan-
guage models (TPLM). TPLMs are a promising approach towards hands-off blocking to
obtain semantically meaningful sentence embeddings and the ability to learn where to
pay attention between the records. Doing so, TPLMs unveil similarities between entities.
We incorporate active learning to select informative examples to fine-tune a TPLM and
to cope with labeled data scarcity. In this way, we investigate how to reduce the required
labeling effort while maintaining the model accuracy and the blocking performance.
Experiments on five EM benchmark datasets showed the effectiveness of TopKDAL with
respect to pair completeness (PC), reduction rate, and running time. We found ac-
tive learning strategies yield better results with an order of magnitude fewer labeled
examples compared to a supervised Baseline trained on all available data. TopKDAL
demonstrates best performance with Imbalanced-Partition-2 and Balanced-Uncertainty.
Balanced-Uncertainty consumes an initial balanced training set, which contributes to
kick-start the active learning performance and reduces the risk for cold start problems.
However, it is an extra overhead required to unlock the potential with a balanced start-
ing strategy. Towards mitigating biases, Random-P/N yield competitive performance
towards the more advanced query sampling strategies when it is trained initially on an
imbalanced initial training set. Our proposed TopKDAL requires no design decisions from
a human and features are learned from the data. Fine-tuning hyperparameters are still
recommended to optimize the model performance. | |
dc.language | eng | |
dc.publisher | NTNU | |
dc.title | Transformer Pre-Trained Language Models and Active Learning for Improved Blocking Performance in Entity Matching | |
dc.type | Master thesis | |