Paying Attention to Native-Language Identification

Steinbakken, Stian

dc.contributor.advisor	Gambäck, Björn
dc.contributor.author	Steinbakken, Stian
dc.date.accessioned	2019-12-29T15:00:29Z
dc.date.available	2019-12-29T15:00:29Z
dc.date.issued	2019
dc.identifier.uri	http://hdl.handle.net/11250/2634466
dc.description.abstract	Morsmålsidentifisering går ut på å identifisere en forfatters eller talers morsmål (L1) basert på tekster eller opptak gjort av denne personen på et annet språk (L2). Morsmålsidentifisering kan være viktig for pedagogikk, da å vite hvilke feil en elev med et gitt morsmål typisk gjør når han eller hun skal lære et annet språk kan hjelpe pedagoger med å kjenne igjen vanlige mønster og lage tilpassede lærings- opplegg basert på forskjellige språk. Morsmålsidentifisering har også bruks- områder innenfor kriminalteknikk, forfattergjenkjenning og datainnsamling, i til- legg til å kunne brukes til å detektere digitalt bedrageri og barnelokking. De tidligere beste løsningene for morsmålsidentifisering har i hovedsak basert seg på tradisjonelle maskinlæringsteknikker, primært støttevektormaskiner. Disse tradisjonelle teknikkene har gang på gang gitt bedre resultater enn løsninger som baserer seg på dyp-læring – trolig på grunn av mangel på annotert data for morsmålsidentifisering. Oppmerksomhetsbaserte dyp-læring teknikker har dog nylig blitt allestedsnærværende i sekvensprosessering, og oppnår tidenes beste resultater på flere oppgaver innenfor naturlig språkbehandling. Disse oppmerk- somhetsbaserte systemene krever ingen rekursjon eller konvolusjon, som gjør at systemene kan parallelliseres i stor grad og gjør det mulig å trene store modeller raskt. Med bakgrunn i den imponerende ytelsen til oppmerksomhetsbaserte dyp- læring teknikker, i tillegg til at det nå finnes mer annotert data, utforsker denne masteroppgaven hvordan slike oppmerksomhetsbaserte dyp-læring teknikker kan anvendes for å øke ytelsen i morsmålsidentifisering. Mer spesifikt ser denne opp- gaven nærmere på hvordan det oppmerksomhetsbaserte systemet BERT – Bidi- rectional Encoder Representations from Transformers – kan brukes, både alene og i kombinasjon med eksisterende teknikker, for å oppnå bedre resultater innen morsmålsidentifisering. BERT taes først i bruk på TOEFL11 datasettet, som har vært standard datasett for morsmålsidentifisering siden 2013. Deretter anvendes BERT på det langt større datasettet kalt Reddit-L2, hvor modellen oppnår “state-of-the-art” resultater. Videre brukes BERT, sammen med tradisjonelle teknikker under en meta-klassifikator, til å oppnå en treffsikkerhet på 0.853 på TOEFL11 testsettet. BERT trenes så på mer enn 50 ganger så mye data som har blitt brukt for engelsk morsmålsidentifisering tidligere, og produserer en treffsikkerhet på 0.902 på det såkalte Reddit-L2 in-domain scenarioet – 21.2 prosentpoeng bedre enn den tidligere beste treffsikkerheten oppnådd.
dc.language	eng
dc.publisher	NTNU
dc.title	Paying Attention to Native-Language Identification
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:2530028.pdf
Størrelse:: 8.284Mb
Format:: PDF

Åpne

Filnavn:: no.ntnu:inspera:2530028.zip
Størrelse:: 62.67Kb
Format:: application/zip

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6551]

Vis enkel innførsel