A Study of Transformers for Cross-Corpus Native Language Identification

Vian, Matias Johansen

dc.contributor.advisor	Gambäck, Björn
dc.contributor.author	Vian, Matias Johansen
dc.date.accessioned	2023-11-30T18:19:44Z
dc.date.available	2023-11-30T18:19:44Z
dc.date.issued	2023
dc.identifier	no.ntnu:inspera:142737689:35329745
dc.identifier.uri	https://hdl.handle.net/11250/3105499
dc.description.abstract	Førstespråksidentifisering har som mål å finne en persons førstespråk basert på noe de har kommunisert på sitt andrespråk. Dette er et fagfelt som først ble etablert i 2005, og har siden da vært et tema på en rekke forskningsartikler, som alle har bidratt til å framme utviklingen av feltet. Imidlertid krever den stadig skiftende verdenen innen kunstig intelligens ny forskning. Denne master-oppgaven bruker den nylig introduserte transformeren til formålet å identifisere førstespråk på tvers av korpus. Et fokus vil være å eksperimenter med disse transformerene ved hjelp av ulike typer data, og samtidig forhindre å utvikle partiske modeller som lener mot noe spesifikt domene eller sjanger, som er årsaken til bruken av krysskorpusevaluaring. Eksperimentene i denne rapporten er delt i tre deler: den første fokuserer på å avgjøre egnede datamengder, som blant annet inkluderer en introduksjon av ny Reddit-data, mens den andre delen fokuserer på hvilken transformer-basert modell vil være mest effektiv. Den tredje delen bruker konfigursjonen i de to forige til å utførske hvordan konseptet domenetilpasning vil påvirke resultatene. Den beste modellen i denne master-oppgaven var en standard BERT-klassifiserer, som oppnådde en krysskorpus-nøyaktighet på 52.0% når den ble testet på TOEFL11, og trent på en kombinasjon av tre datasett (FCE, Italki-NLI og Lang8). Dette studiet inkluderer et flertall store transformer-eksperimenter, med fokus på hvordan disse modellene oppfører seg i ulike omstendigheter. De andre modellene i disse eksperimentene er inspirert av Lotfi et al. (2020), og tar i bruk BERT og GPT-2 i et multimodelloppsett, men disse modellene presterte svakere i krysskorpusevaluering. Det ble også vist at den spesifikke metoden for domenetilpasning som ble forsøkt i dette arbeidet ikke forbedret resultatene.
dc.description.abstract	Native Language Identification (NLI) aims to discover a person’s first language based on something they have communicated in a second language. While first attempted in 2005, NLI has later on been the subject of numerous research papers, all of which have contributed to this task. However, in keeping up with the ever-changing world of Artifical Intelligence (AI), new research is needed. This thesis attempts to accurately identify native languages using the recently introduced Transformer in a cross-corpus setting. A focus of this report is to experiment with these transformers using different types of data, while attempting to prevent the model from incurring a bias toward any specific domains or genres, which is why cross-corpus evaluation is applied. The experiments in this work are divided into three parts: the first part focuses on determining suitable data subsets for this task, which includes gathering additional, novel data from Reddit, while the second part focuses on which transformer-based model will perform best. The third part uses the configuration found in the previous two, to explore how domain adaptation will affect the results. The best model in this work was a regular BERT classifier, which achieved a cross-corpus accuracy score of 52.0% when testing on TOEFL11, and training on a combination of three datasets (FCE, Italki-NLI, and Lang8). This thesis includes numerous, large experiments with multiple transformers. The emphasis on these experiments is how different data will affect different types of models. The other models in this report are inspired by Lotfi et al. (2020), and use BERT and GPT-2 in a multi-model setup, but these were shown to perform poorer in cross-corpus experiments. It was also shown that the particular method for domain adaptation attempted in this work did not improve the results.
dc.language	eng
dc.publisher	NTNU
dc.title	A Study of Transformers for Cross-Corpus Native Language Identification
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:142737689:3532 ...
Størrelse:: 7.700Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6828]

Vis enkel innførsel