Generating Novel Compounds in Technical Translations

Orvedal, Maren Helene

dc.contributor.advisor	Gambäck, Björn
dc.contributor.author	Orvedal, Maren Helene
dc.date.accessioned	2020-06-04T16:01:26Z
dc.date.available	2020-06-04T16:01:26Z
dc.date.issued	2020
dc.identifier.uri	https://hdl.handle.net/11250/2656666
dc.description.abstract	Samansetjingar er leksem som er samansette av fleire ledd. Prinsipielt sett er det mogleg å forme eit uendeleg antal samansette ord, og det er derfor umogleg å ramsa opp alle moglege samansetjingar i eit leksikon. Når ein omset fra eit språk som nyttar samansetjingar til eit anna som ikkje gjer det, kan det hende at eit leksem som vert skrive som fleire ord på det fyrste språket skal samanskrivast på målspråket. Det fylgjande problemet oppstår då: korleis kan nye samansetjingar som ikkje har vorte observerte enno og som ikkje har ei kjend omsetjing verte framstilte? Denne masteravhandlinga granskar korleis nye samansetjingar i datavitskapsdomenet kan verte framstilte når engelsk vert omsett til norsk. For å få til dette har ein spesialtillempa ordkløyvar vorte implementert og innlemma i omsetjingsprosessen til eit statistisk maskinomsetjingssystem. Ein framgangsmåte kjend som “kløyv-og-set-saman” vert nytta, der samansetjingar vert delte før læring og så ihopskrivne etter omsetjing. Dei resulterande omsetjingane vert deretter vurderte av morsmålstalarar og rangerte etter kor naturlege dei er og kor mykje av den opphavelege tydinga som vert halden på. Ordkløyvaren delar 73,89 prosent av tvitydige ihopskrivingar rett. Kløyvaren er særleg godt skikka til å kjenna att leksikalisert s i norske samansetjingar, men strevar med å dela opp ord med fugemorfem. Den manglar også stønad for samansetjingar med bindestrek, eigennamn, forkortingar og koordinerte samansetjingar. Ordkløyvaren kan hjelpa norske ordklasse-taggarar med å identifisera ledd, og då særleg hovudet av samansetjinga som vanlegvis fastset dei grammatiske eigenskapane til samansetjinga. Omsetjingssystemet sine føreslegne omsetjingar er til dels vellukka: omsetjingar vert ofte godtekne av morsmålstalarar når ledda har vorte observerte under opptreningsfasen, men det finst også interessante høve der uomsette engelske ledd vert oppfatta som flytande omsetjingar. Omsetjingssystemet har likevel fleire vanlege problem som leksikalsk tvitydigheit og manglande ordforråd. Desse veikskapane vert i stor grad knytta til manglande relevante data, trass i forsøk på å skaffa fram eit slikt korpus.
dc.description.abstract	Compound words are lexemes that are composed of multiple constituents. In principle, an infinite number of compounds can be formed and it is therefore impossible to list all possible compounds in a lexicon. When translating between a language that uses compounds and another one that does not, it is possible that a word that is represented by multiple words in the non-compounding language should be translated into a single word in the compounding language. The question then arises: how can novel compounds that have not yet been observed and that do not have a known translation be formed? This thesis explores how novel compounds in the computer science domain can be formed when translating from English into Norwegian. For this purpose, a custom compound splitter is implemented and integrated into the translation pipeline of a statistical machine translation system. Specifically, the split-and-merge approach is adopted to form novel compounds, by splitting compounds prior to training and then merging them back together during postprocessing. The resulting translations are assessed by native speakers of Norwegian and rated in terms of fluency and semantics preserved. The compound splitter correctly splits 73.89 per cent of ambiguous compounds. The splitter is especially adept at recognising lexicalised s in Norwegian compounds, but struggles with the concept of epentheses. It also lacks support for hyphens, proper names, abbreviations and coordinated compounds. The compound splitter can assist Norwegian part-of-speech taggers in identifying constituents, in particular the compound head which usually determines the grammatical features of the compound. The translation system’s suggested translations are partially successful: translations are often accepted by native speakers when the constituents have been observed during training, but there are also interesting cases in which untranslated English words are assessed as fluent translations. On the other hand, the translation system is challenged by common problems like lexical ambiguity and out-of-vocabulary words. This is largely attributed to lack of in-domain data, despite efforts to acquire such a corpus.
dc.language	eng
dc.publisher	NTNU
dc.title	Generating Novel Compounds in Technical Translations
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:48729278:11549 ...
Størrelse:: 6.907Mb
Format:: PDF

Åpne

Filnavn:: no.ntnu:inspera:48729278:11549 ...
Størrelse:: 25bytes
Format:: application/zip

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6828]

Vis enkel innførsel