Transformer Pre-Trained Language Models and Active Learning for Improved Blocking Performance in Entity Matching
Abstract
Entitetsgjenkjenning har som mål å redusere entropien mellom to ulike datakilder ved åidentifisere hvilke record som refererer til de samme entitetene i virkeligheten. Vanligviskrever mange foreslåtte blokkeringsmetoder tilstrekkelig menneskelig domenekunnskapog/eller en stor mengde merkede data, imidlertid er dette ofte utilgjengelig for app-likasjoner i entitetsgjenkjenning for å oppnå nyttige blokkeringmodeller. I dette arbeidetforeslår vi TopKDAL, en dyplæringsbasert tilnærming som er rettet mot en situasjonmed begrenset mengde merkede data ved å kombinere aktiv læring med forhåndstrentetransformer språksmodeller. Disse språkmodellene er en lovende tilnærming for å oppnåsemantisk meningsfulle embeddings og muligheten til å lære hvor man skal fokusere mel-lom records. Ved å gjøre det avslører transformer modellene likheter mellom entitetene.Vi bruker aktiv læring for å velge informative eksempler for å finjustere en transformerspråkmodell og for å takle knapphet på merkede data. På denne måten undersøker vihvordan arbeidet med merking av data kan reduseres, samtidig som modellnøyaktighetenog blokkeringsytelsen opprettholdes.
Eksperimenter med fem referansedatasett for entitetsgjenkjenning viser effektiviteten tilTopKDAL med hensyn på pairs completeness (PC), reduction rate (RR) og kjøretid. Vifant at aktive læringsstrategier gir bedre resultater med en størrelsesorden færre merkedeeksempler sammenlignet med en supervised baseline som er trent på alle tilgjengeligedata. TopKDAL oppnådde den beste ytelsen med Imbalanced-Partition-2 og Balanced-Uncertainty. Balanced-Uncertainty trenes basert på et balansert treningssett i starten,som bidrar til å forbedre den aktive læringsytelsen og redusere risikoen for kaldstart-problemer. Imidlertid kreves dette ekstra implementasjon for å muliggjøre potensialetmed en balansert start strategi. For å redusere biases ble Random-P/N-strategien trentmed et ubalansert treningssett som gir konkurransedyktig ytelse mot de mer avanserteprøvetaking strategiene. Vår foreslåtte TopKDAL krever ingen menneskelige designbeslut-ninger, og features læres fra dataene. Finjustering av hyperparametere anbefales fortsattfor å optimalisere modellytelsen. Entity matching (EM) aims to reduce the entropy between two different data sources byidentifying which records refer to the same real-world entity. Typically, many proposedblocking approaches require sufficient human expert involvement and/or a large amount oflabeled data, however often unavailable for EM applications to achieve useful models. Inthis work, we propose TopKDAL, a deep learning-based approach targeting a low-resourcesetting through a combination of active learning (AL) with pre-trained transformer lan-guage models (TPLM). TPLMs are a promising approach towards hands-off blocking toobtain semantically meaningful sentence embeddings and the ability to learn where topay attention between the records. Doing so, TPLMs unveil similarities between entities.We incorporate active learning to select informative examples to fine-tune a TPLM andto cope with labeled data scarcity. In this way, we investigate how to reduce the requiredlabeling effort while maintaining the model accuracy and the blocking performance.
Experiments on five EM benchmark datasets showed the effectiveness of TopKDAL withrespect to pair completeness (PC), reduction rate, and running time. We found ac-tive learning strategies yield better results with an order of magnitude fewer labeledexamples compared to a supervised Baseline trained on all available data. TopKDALdemonstrates best performance with Imbalanced-Partition-2 and Balanced-Uncertainty.Balanced-Uncertainty consumes an initial balanced training set, which contributes tokick-start the active learning performance and reduces the risk for cold start problems.However, it is an extra overhead required to unlock the potential with a balanced start-ing strategy. Towards mitigating biases, Random-P/N yield competitive performancetowards the more advanced query sampling strategies when it is trained initially on animbalanced initial training set. Our proposed TopKDAL requires no design decisions froma human and features are learned from the data. Fine-tuning hyperparameters are stillrecommended to optimize the model performance.