• norsk
    • English
  • English 
    • norsk
    • English
  • Login
View Item 
  •   Home
  • Fakultet for informasjonsteknologi og elektroteknikk (IE)
  • Institutt for datateknologi og informatikk
  • View Item
  •   Home
  • Fakultet for informasjonsteknologi og elektroteknikk (IE)
  • Institutt for datateknologi og informatikk
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Paying Attention to Native-Language Identification

Steinbakken, Stian
Master thesis
Thumbnail
View/Open
no.ntnu:inspera:2530028.pdf (8.284Mb)
no.ntnu:inspera:2530028.zip (62.67Kb)
URI
http://hdl.handle.net/11250/2634466
Date
2019
Metadata
Show full item record
Collections
  • Institutt for datateknologi og informatikk [3879]
Abstract
Morsmålsidentifisering går ut på å identifisere en forfatters eller talers morsmål

(L1) basert på tekster eller opptak gjort av denne personen på et annet språk (L2).

Morsmålsidentifisering kan være viktig for pedagogikk, da å vite hvilke feil en elev

med et gitt morsmål typisk gjør når han eller hun skal lære et annet språk kan

hjelpe pedagoger med å kjenne igjen vanlige mønster og lage tilpassede lærings-

opplegg basert på forskjellige språk. Morsmålsidentifisering har også bruks-

områder innenfor kriminalteknikk, forfattergjenkjenning og datainnsamling, i til-

legg til å kunne brukes til å detektere digitalt bedrageri og barnelokking.

De tidligere beste løsningene for morsmålsidentifisering har i hovedsak basert

seg på tradisjonelle maskinlæringsteknikker, primært støttevektormaskiner. Disse

tradisjonelle teknikkene har gang på gang gitt bedre resultater enn løsninger som

baserer seg på dyp-læring – trolig på grunn av mangel på annotert data for

morsmålsidentifisering. Oppmerksomhetsbaserte dyp-læring teknikker har dog

nylig blitt allestedsnærværende i sekvensprosessering, og oppnår tidenes beste

resultater på flere oppgaver innenfor naturlig språkbehandling. Disse oppmerk-

somhetsbaserte systemene krever ingen rekursjon eller konvolusjon, som gjør at

systemene kan parallelliseres i stor grad og gjør det mulig å trene store modeller

raskt.

Med bakgrunn i den imponerende ytelsen til oppmerksomhetsbaserte dyp-

læring teknikker, i tillegg til at det nå finnes mer annotert data, utforsker denne

masteroppgaven hvordan slike oppmerksomhetsbaserte dyp-læring teknikker kan

anvendes for å øke ytelsen i morsmålsidentifisering. Mer spesifikt ser denne opp-

gaven nærmere på hvordan det oppmerksomhetsbaserte systemet BERT – Bidi-

rectional Encoder Representations from Transformers – kan brukes, både alene

og i kombinasjon med eksisterende teknikker, for å oppnå bedre resultater innen

morsmålsidentifisering.

BERT taes først i bruk på TOEFL11 datasettet, som har vært standard

datasett for morsmålsidentifisering siden 2013. Deretter anvendes BERT på det

langt større datasettet kalt Reddit-L2, hvor modellen oppnår “state-of-the-art”

resultater. Videre brukes BERT, sammen med tradisjonelle teknikker under en

meta-klassifikator, til å oppnå en treffsikkerhet på 0.853 på TOEFL11 testsettet.

BERT trenes så på mer enn 50 ganger så mye data som har blitt brukt for

engelsk morsmålsidentifisering tidligere, og produserer en treffsikkerhet på 0.902

på det såkalte Reddit-L2 in-domain scenarioet – 21.2 prosentpoeng bedre enn

den tidligere beste treffsikkerheten oppnådd.
Publisher
NTNU

Contact Us | Send Feedback

Privacy policy
DSpace software copyright © 2002-2019  DuraSpace

Service from  Unit
 

 

Browse

ArchiveCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsDocument TypesJournalsThis CollectionBy Issue DateAuthorsTitlesSubjectsDocument TypesJournals

My Account

Login

Statistics

View Usage Statistics

Contact Us | Send Feedback

Privacy policy
DSpace software copyright © 2002-2019  DuraSpace

Service from  Unit