Leveraging Natural Language Processing in Data Synthesis for use in Entity Matching
Abstract
Entity Matching (EM) er en vanskelig oppgave som tidligere måtte bli utført manuelt. Metoder som benytter Kunstig Intelligens har siden blitt utviklet for å automatisere denne prosessen, men for å prestere bra er de avhengig av god treningsdata. God merkede data kan være vanskelig og dyrt å anskaffe, og i noen tilfeller kan det være umulig. Vi utforsker om Kunstig Intelligens kan bli benyttet for å produsere kunstig data som kan forbedre prestasjonen til EM modeller. Ved å bruke GPT-2 språkmodellen, CTGAN metoden og en data augmenteringsmetode vi selv har utarbeidet, vi genererer data som blir brukt til å supplere treningsdataen til modellene. Vi utforsker også om den genererte dataen kan alene bli brukt til å trene EM modellene. Våre resultater viser at EM modellene kan prestere bedre når deres treningsdata er supplementert med kunstig data. EM modellene presterte derimot ikke like bra når de var kun trent på kunstig data. Vi foreslår at ved å raffinere metodene for datagenerering kan resultatene bli enda forbedret. Entity Matching (EM) is a difficult task which not long ago had to be performed manually. Now, Artificial Intelligence methods have been created to automate this process. They are, however, dependent on good training data to achieve good results. Acquiring good labeled data can be hard, expensive or in some cases, even impossible. We test whether Artificial Intelligence methods can be used to generate artificial data which to be used to improve EM model performance. Using the GPT-2 language model, the CTGAN method and a data augmentation method of our own we generate artificial data which is used to supplement the training data of the EM models. We also test how the models fare when their training data is wholly replaced with artificial data. Our results show that performance of EM models can be improved when supplementing. When using the artificial data alone to train the EM models, the results did not improve. We argue that with more refined methods, the results in both cases can be further improved.