Leveraging Natural Language Processing in Data Synthesis for use in Entity Matching

Nilsen, Daniel; Simmersholm, Aleksander

dc.contributor.advisor	Gulla, Jon Atle
dc.contributor.advisor	Barlaug, Nils
dc.contributor.author	Nilsen, Daniel
dc.contributor.author	Simmersholm, Aleksander
dc.date.accessioned	2022-11-02T18:19:25Z
dc.date.available	2022-11-02T18:19:25Z
dc.date.issued	2022
dc.identifier	no.ntnu:inspera:112296943:64563685
dc.identifier.uri	https://hdl.handle.net/11250/3029683
dc.description.abstract	Entity Matching (EM) er en vanskelig oppgave som tidligere måtte bli utført manuelt. Metoder som benytter Kunstig Intelligens har siden blitt utviklet for å automatisere denne prosessen, men for å prestere bra er de avhengig av god treningsdata. God merkede data kan være vanskelig og dyrt å anskaffe, og i noen tilfeller kan det være umulig. Vi utforsker om Kunstig Intelligens kan bli benyttet for å produsere kunstig data som kan forbedre prestasjonen til EM modeller. Ved å bruke GPT-2 språkmodellen, CTGAN metoden og en data augmenteringsmetode vi selv har utarbeidet, vi genererer data som blir brukt til å supplere treningsdataen til modellene. Vi utforsker også om den genererte dataen kan alene bli brukt til å trene EM modellene. Våre resultater viser at EM modellene kan prestere bedre når deres treningsdata er supplementert med kunstig data. EM modellene presterte derimot ikke like bra når de var kun trent på kunstig data. Vi foreslår at ved å raffinere metodene for datagenerering kan resultatene bli enda forbedret.
dc.description.abstract	Entity Matching (EM) is a difficult task that not long ago had to be performed manually. Now, Artificial Intelligence methods have been created to automate this process. They are, however, dependent on good training data to achieve good results. Acquiring good labeled data can be hard, expensive or in some cases, even impossible. We test whether Artificial Intelligence methods can be used to generate artificial data which to be used to improve EM model performance. Using the GPT-2 language model, the CTGAN method and a data augmentation method of our own we generate artificial data which is used to supplement the training data of the EM models. We also test how the models fare when their training data is wholly replaced with artificial data. Our results show that the performance of EM models can be improved when supplementing. When using the artificial data alone to train the EM models, the results did not improve. We argue that with more refined methods, the results in both cases can be further improved.
dc.language	eng
dc.publisher	NTNU
dc.title	Leveraging Natural Language Processing in Data Synthesis for use in Entity Matching
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:112296943:6456 ...
Størrelse:: 543bytes
Format:: Ukjent

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6808]

Vis enkel innførsel