Vis enkel innførsel

dc.contributor.advisorGulla, Jon Atle
dc.contributor.advisorBarlaug, Nils
dc.contributor.authorFolstad, Jon Steinar
dc.date.accessioned2022-06-07T17:19:30Z
dc.date.available2022-06-07T17:19:30Z
dc.date.issued2021
dc.identifierno.ntnu:inspera:74730513:33136645
dc.identifier.urihttps://hdl.handle.net/11250/2997778
dc.description.abstractEntitetsgjenkjenning har som mål å redusere entropien mellom to ulike datakilder ved å identifisere hvilke record som refererer til de samme entitetene i virkeligheten. Vanligvis krever mange foreslåtte blokkeringsmetoder tilstrekkelig menneskelig domenekunnskap og/eller en stor mengde merkede data, imidlertid er dette ofte utilgjengelig for app- likasjoner i entitetsgjenkjenning for å oppnå nyttige blokkeringmodeller. I dette arbeidet foreslår vi TopKDAL, en dyplæringsbasert tilnærming som er rettet mot en situasjon med begrenset mengde merkede data ved å kombinere aktiv læring med forhåndstrente transformer språksmodeller. Disse språkmodellene er en lovende tilnærming for å oppnå semantisk meningsfulle embeddings og muligheten til å lære hvor man skal fokusere mel- lom records. Ved å gjøre det avslører transformer modellene likheter mellom entitetene. Vi bruker aktiv læring for å velge informative eksempler for å finjustere en transformer språkmodell og for å takle knapphet på merkede data. På denne måten undersøker vi hvordan arbeidet med merking av data kan reduseres, samtidig som modellnøyaktigheten og blokkeringsytelsen opprettholdes. Eksperimenter med fem referansedatasett for entitetsgjenkjenning viser effektiviteten til TopKDAL med hensyn på pairs completeness (PC), reduction rate (RR) og kjøretid. Vi fant at aktive læringsstrategier gir bedre resultater med en størrelsesorden færre merkede eksempler sammenlignet med en supervised baseline som er trent på alle tilgjengelige data. TopKDAL oppnådde den beste ytelsen med Imbalanced-Partition-2 og Balanced- Uncertainty. Balanced-Uncertainty trenes basert på et balansert treningssett i starten, som bidrar til å forbedre den aktive læringsytelsen og redusere risikoen for kaldstart- problemer. Imidlertid kreves dette ekstra implementasjon for å muliggjøre potensialet med en balansert start strategi. For å redusere biases ble Random-P/N-strategien trent med et ubalansert treningssett som gir konkurransedyktig ytelse mot de mer avanserte prøvetaking strategiene. Vår foreslåtte TopKDAL krever ingen menneskelige designbeslut- ninger, og features læres fra dataene. Finjustering av hyperparametere anbefales fortsatt for å optimalisere modellytelsen.
dc.description.abstractEntity matching (EM) aims to reduce the entropy between two different data sources by identifying which records refer to the same real-world entity. Typically, many proposed blocking approaches require sufficient human expert involvement and/or a large amount of labeled data, however often unavailable for EM applications to achieve useful models. In this work, we propose TopKDAL, a deep learning-based approach targeting a low-resource setting through a combination of active learning (AL) with pre-trained transformer lan- guage models (TPLM). TPLMs are a promising approach towards hands-off blocking to obtain semantically meaningful sentence embeddings and the ability to learn where to pay attention between the records. Doing so, TPLMs unveil similarities between entities. We incorporate active learning to select informative examples to fine-tune a TPLM and to cope with labeled data scarcity. In this way, we investigate how to reduce the required labeling effort while maintaining the model accuracy and the blocking performance. Experiments on five EM benchmark datasets showed the effectiveness of TopKDAL with respect to pair completeness (PC), reduction rate, and running time. We found ac- tive learning strategies yield better results with an order of magnitude fewer labeled examples compared to a supervised Baseline trained on all available data. TopKDAL demonstrates best performance with Imbalanced-Partition-2 and Balanced-Uncertainty. Balanced-Uncertainty consumes an initial balanced training set, which contributes to kick-start the active learning performance and reduces the risk for cold start problems. However, it is an extra overhead required to unlock the potential with a balanced start- ing strategy. Towards mitigating biases, Random-P/N yield competitive performance towards the more advanced query sampling strategies when it is trained initially on an imbalanced initial training set. Our proposed TopKDAL requires no design decisions from a human and features are learned from the data. Fine-tuning hyperparameters are still recommended to optimize the model performance.
dc.languageeng
dc.publisherNTNU
dc.titleTransformer Pre-Trained Language Models and Active Learning for Improved Blocking Performance in Entity Matching
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel