Vis enkel innførsel

dc.contributor.advisorGulla, Jon Atle
dc.contributor.advisorBarlaug, Nils
dc.contributor.authorTokstad, Thea
dc.date.accessioned2021-10-26T17:21:29Z
dc.date.available2021-10-26T17:21:29Z
dc.date.issued2021
dc.identifierno.ntnu:inspera:74730513:25746579
dc.identifier.urihttps://hdl.handle.net/11250/2825822
dc.description.abstractEntitetsmatching (EM) er det å identifisere dataoppføringer fra forskjellige databaser som referer til samme entitet. Nylig så har transformer-baserte språkmodeller blitt introdusert til EM. Disse har vist seg å være svært effektive til å løse EM problemet. Selv med stor suksess, så kommer disse modellene med utfordringer med at de trenger en betydelig mengde treningsdata. "Transfer learning", det å øverføre kunnskap fra andre datasett, er en lovende teknikk for å løse problemet med lite treningsdata. Denne masteroppgaven har sett på "transfer learning" med den transformer-baserte språkmodellen, RoBERTa, ved å forhåndstrene den på EM datasett. Tradisjonelle maskinlæringsalgoritmer basert på strengmetrikker har også vist seg å være effektive med få treningseksempler. Denne oppgaven så også på om styrkene til håndlagde funksjoner, slik som strengmetrikker, kan kombineres med RoBERTa for å forbedre effektiviteten med få treningseksempler. De beskrevne modellene har blitt testet på 12 forskjellige datasett fra ulike domener som bibliografi, produktdata, musikk og restauranter. De transformer-baserte modellene slo konsekvent basislinjen, et tradisjonelt maskinlæringsbasert EM system ved navn Magellan, når de fikk nok treningsdata. RoBERTa forhåndstrent på EM datasett oppnådde et sterkt resultat med veldig få treningseksempler, og overgikk Magellan med en gjennomsnittlig F1-score opp til 30\% når mindre enn 200 treningseksempler var brukt. Videre oppnådde den en gjennomsnitt F1-score på 67.6\% med null treningseksempler, med et minimum på 58.03\% og maksimum på 96.4\%, på datasettene. Den hadde ogå den høyeste F1-scoren på 7 av 12 datasett når all treningsdataen var brukt. Når mindre enn 200 treningseksempler var brukt så klarte basislinjen å slå RoBERTa med håndlagde funksjonenr for 9 av 12 dataset.
dc.description.abstractEntity matching (EM) is the task of identifying records from different data sources that refer to the same real-world entity. Recently, transformer-based language models such as RoBERTa have been introduced to the task of EM, and proven to be very effective and achieve state-of-the-art results. However, this success comes with some limitations, the most important being that the methods require a significant amount of training data. Transfer learning is a promising technique to solve the problem with limited data. This thesis examined the use of transfer learning with RoBERTa by pre-training the language model on EM benchmark datasets. Traditional machine learning algorithms based on string similarity metrics have achieved good performance with few training samples. This thesis also examined if the strengths of handcrafted features such as string metrics combined with RoBERTa could improve the performance with limited data. The models have been evaluated on 12 EM benchmark datasets from various domains such as citations, product data, music and restaurants. RoBERTa with transfer learning consistently outperformed the baseline, which in this study is a traditional machine learning EM system called Magellan. RoBERTa with transfer learning achieved a relative high F1-score with very few samples, and outperformed the baseline with an average F1-score of 30\% when less than 200 training samples were used. Further, it achieved an average F1-score of 67.6\% with no training data, with a max of 96.4\% and a min of 58.03\%. When all available training data was used, RoBERTa with transfer learning had the highest F1-score on 7 out of 12 datasets. In the less than 200 training samples range, the RoBERTa model with handcrafted features was outperformed by the baseline on 9 out of 12 datasets. When using all available training data, both models based on RoBERTa outperforms the baseline.
dc.languageeng
dc.publisherNTNU
dc.titlePre-trained transformers with transfer learning and handcrafted-features for entity matching
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel