Paying Attention to Native-Language Identification
Master thesis
Permanent lenke
http://hdl.handle.net/11250/2634466Utgivelsesdato
2019Metadata
Vis full innførselSamlinger
Sammendrag
Morsmålsidentifisering går ut på å identifisere en forfatters eller talers morsmål(L1) basert på tekster eller opptak gjort av denne personen på et annet språk (L2).Morsmålsidentifisering kan være viktig for pedagogikk, da å vite hvilke feil en elevmed et gitt morsmål typisk gjør når han eller hun skal lære et annet språk kanhjelpe pedagoger med å kjenne igjen vanlige mønster og lage tilpassede lærings-opplegg basert på forskjellige språk. Morsmålsidentifisering har også bruks-områder innenfor kriminalteknikk, forfattergjenkjenning og datainnsamling, i til-legg til å kunne brukes til å detektere digitalt bedrageri og barnelokking.De tidligere beste løsningene for morsmålsidentifisering har i hovedsak basertseg på tradisjonelle maskinlæringsteknikker, primært støttevektormaskiner. Dissetradisjonelle teknikkene har gang på gang gitt bedre resultater enn løsninger sombaserer seg på dyp-læring – trolig på grunn av mangel på annotert data formorsmålsidentifisering. Oppmerksomhetsbaserte dyp-læring teknikker har dognylig blitt allestedsnærværende i sekvensprosessering, og oppnår tidenes besteresultater på flere oppgaver innenfor naturlig språkbehandling. Disse oppmerk-somhetsbaserte systemene krever ingen rekursjon eller konvolusjon, som gjør atsystemene kan parallelliseres i stor grad og gjør det mulig å trene store modellerraskt.Med bakgrunn i den imponerende ytelsen til oppmerksomhetsbaserte dyp-læring teknikker, i tillegg til at det nå finnes mer annotert data, utforsker dennemasteroppgaven hvordan slike oppmerksomhetsbaserte dyp-læring teknikker kananvendes for å øke ytelsen i morsmålsidentifisering. Mer spesifikt ser denne opp-gaven nærmere på hvordan det oppmerksomhetsbaserte systemet BERT – Bidi-rectional Encoder Representations from Transformers – kan brukes, både aleneog i kombinasjon med eksisterende teknikker, for å oppnå bedre resultater innenmorsmålsidentifisering.BERT taes først i bruk på TOEFL11 datasettet, som har vært standarddatasett for morsmålsidentifisering siden 2013. Deretter anvendes BERT på detlangt større datasettet kalt Reddit-L2, hvor modellen oppnår “state-of-the-art”resultater. Videre brukes BERT, sammen med tradisjonelle teknikker under enmeta-klassifikator, til å oppnå en treffsikkerhet på 0.853 på TOEFL11 testsettet.BERT trenes så på mer enn 50 ganger så mye data som har blitt brukt forengelsk morsmålsidentifisering tidligere, og produserer en treffsikkerhet på 0.902på det såkalte Reddit-L2 in-domain scenarioet – 21.2 prosentpoeng bedre ennden tidligere beste treffsikkerheten oppnådd.