#NativeLanguageIdentification - Native Language Identification on a Novel Twitter Corpus Using Transformer-based Systems

Edvardsen, Charles Sørbø

dc.contributor.advisor	Gambäck, Björn
dc.contributor.author	Edvardsen, Charles Sørbø
dc.date.accessioned	2022-02-11T18:19:23Z
dc.date.available	2022-02-11T18:19:23Z
dc.date.issued	2021
dc.identifier	no.ntnu:inspera:76589001:21902488
dc.identifier.uri	https://hdl.handle.net/11250/2978555
dc.description	Full text not available
dc.description.abstract	Morsmålsidentifikasjon (Native Language Identification, forkortet NLI) er en disiplin som ved hjelp av datamaskinelle metoder søker å predikere morsmålene til andrespråksbrukere automatisk på grunnlag av innsamlede korpora av tekster de har skrevet (eller talt) på det aktuelle andrespråket. Disiplinen har praktisk anvendelse på en rekke områder som språkopplæring, forfatterprofilering, markedsføring og avdekking av nettsvindel og andre kriminelle forhold. Denne oppgaven anvender NLI primært på korte og tematisk varierte tekster hentet fra Twitter. Det eksisterer få studier av denne type tekst fra et NLI-perspektiv. Mangelen på samlinger av tekster som egner seg for dette formålet er også påtagelig. Det var derfor nødvendig å samle inn et pilotkorpus som en integrert del av oppgaven. Dette korpuset har etter preprosessering et omfang på nær 200 000 annoterte engelske Twitter-meldinger fra mer enn 10 000 andrespåksbrukere, som fordeler seg over de samme 11 morsmålene som det innflytelsesrike TOEFL11-korpuset er basert på. Dette muliggjør eksperimenter og sammenligninger på tvers av de to korporaene. Det er kompilert to varianter av Twitter-korpuset. I den ene er hashtaggene inkludert mens de er fjernet i den andre. En kombinasjon av meldingslokasjon, brukerlokasjon, antall Twitter-meldinger på morsmålet og Twitter-biografi fungerer som en proxy for morsmålet med en estimert treffsikkerhet på 70%. Tre varianter av Bidirectional Encoder Representations from Transformers (BERT) som har gjennomgått ulik forhåndstrening, hhv. standard generell (ALBERT), utvidet generell (DeBERTa) og domenespesifikk (CT-BERT), ble først kjørt på TOEFL11 og den hashtagløse varianten av Twitter-korpuset i mange konfigurasjoner av trenings- og testsett. Resultatene var gjennomgående bedre når modellene ble trent og testet på samme korpus enn når trenings- og testsett var fra ulike korpora, og i den førstnevnte konfigurasjonen var treffsikkerheten gjennomsnittlig 20,0 prosentpoeng høyere på TOEFL11 enn på Twitter-korpuset. CT-BERT og DeBERTa gjorde det bedre enn ALBERT over hele linjen, med en margin på 4,0-5,0 prosentpoeng i de fleste konfigurasjoner. Det samme mønsteret gjentok seg da modellene deretter ble kjørt på TOEFL11 og det hashtaginklusive Twitter-korpuset. Treffsikkerheten her var imidlertid bedre over hele linjen. Den største gjennomsnittlige forbedringen var på 10,0 prosentpoeng og ble registrert da modellene ble både trent og testet på det hashtaginklusive Twitter-korpuset.
dc.description.abstract	Native Language Identification (NLI) is concerned with predicting a person's native language (L1) on the basis of text produced by that person in a second, non-native language (L2). NLI has clear applications in a number of areas, including author profiling, web fraud detection, marketing and language education. In this thesis, NLI is applied primarily to short and thematically varied text, on which little work has been done in NLI previously. Due to the lack of suitable corpora, a novel corpus of close to 200,000 non-native English tweets written by more than 10,000 users whose native languages are drawn from the same set of L1s as that covered by the influential TOEFL11 corpus was compiled in both a hashtagged and non-hashtagged version and annotated for the purpose of NLI. A combination of tweet location, user location, the number of tweets posted in the assumed L1, and user profile bio was found to work as a proxy of the L1 of a user with an estimated accuracy of 70%. Three variants of Bidirectional Encoder Representations from Transformers (BERT), which differ with respect to the pretraining they have received, namely ALBERT (standard general), CT-BERT (domain-specific), and DeBERTa (extended general), were run on the various configurations of the TOEFL11 and hashtagless Twitter corpora. Basically the same general pattern was found in the scores across all three models: their in-domain performance was better than their cross-corpus performance, and so was their performance on the TOEFL11 corpus, especially on the in-domain variant where they attained a 20.0 percentage points better average accuracy score than on the corresponding in-domain Twitter runs. Both CT-BERT and DeBERTa consistently outperformed ALBERT by a margin of 4.0-5.0 percentage points in most settings. When the models were run on the TOEFL11 and the hashtag-inclusive Twitter corpora, the same pattern was observed. Accuracy was higher across the board, though. The most substantial increases were on the in-domain tests on the hashtag-inclusive corpus, which had an average improvement in accuracy of 10.0 percentage points over the corresponding tests on the hashtagless corpus. The margin between CT-BERT and DeBERTa was small across almost all of the corpora.
dc.language	eng
dc.publisher	NTNU
dc.title	#NativeLanguageIdentification - Native Language Identification on a Novel Twitter Corpus Using Transformer-based Systems
dc.type	Master thesis

Tilhørende fil(er)

Filer	Størrelse	Format	Vis

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6552]

Vis enkel innførsel