Show simple item record

dc.contributor.advisorAli, Shariq Imran
dc.contributor.advisorZenun, Kastrati
dc.contributor.authorHenrik, Hodnefjeld
dc.date.accessioned2022-11-24T18:19:36Z
dc.date.available2022-11-24T18:19:36Z
dc.date.issued2022
dc.identifierno.ntnu:inspera:112296943:24749335
dc.identifier.urihttps://hdl.handle.net/11250/3033966
dc.description.abstractModeller basert på transformers, som Bidirectional Encoder Representation from Transformers (BERT), har tradisjonelt ikke blitt brukt på tekstsekvenser med større lengde enn setninger. Å kjøre slike modeller har høye driftskostnader og krever mye minne. Slike transformer baserte modeller er ofte forhåndstrent på generaliserte språk, noe som gjør dem mindre effektive i språkspesifikke domener, for eksempel juridiske dokumenter. Innenfor fagfeltet for naturlig språkbehandling er det en økende interesse for å lage nyere modeller som kan håndtere mer komplekse inputsekvenser og domenespesifikke språk. Arbeidet i denne masteroppgaven bygger på den tidligere innsatsen som er gjort innen dokumentklassifisering, med fokus på det juridiske språket. Basert på våre undersøkelser av forskjellige BERT-modeller foreslår vi å bruke et bevegende skyvevindu tilnærming for å øke den normale maksimale sekvenslengden på modellene. Resultatene våre er validert av grundige empiriske eksperimenter der vi utkonkurrerer tidligere resultater på lignende oppgaver.
dc.description.abstractModels based on transformers, such as Bidirectional Encoder Representation from Transformers (BERT), have traditionally not been applied to text sequences with greater length than that of sentences. Such models are computationally expensive and require a large amount of memory. Transformer-based models are also often pre-trained on generalized languages, which makes them less effective in language-specific domains, such as legal documents. In the field of natural language processing, there is a growing interest in creating newer models that can handle more complex input sequences and domain-specific languages. This work builds upon the previous efforts made within the domain of document classification, specifically concerning legal contexts. Based on our examinations of different models we propose using a sliding window approach to increase the normal maximum sequence length of models. Our results are validated by thorough empirical experiments in which we outperform previous results on similar tasks.
dc.languageeng
dc.publisherNTNU
dc.titleClassifying European Court of Human Rights cases using transformer based models
dc.typeMaster thesis


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record