Vis enkel innførsel

dc.contributor.advisorGambäck, Björn
dc.contributor.advisorGulla, Jon Atle
dc.contributor.advisorÅfarli, Tor Anders
dc.contributor.authorBungum, Lars
dc.date.accessioned2021-06-14T06:25:35Z
dc.date.available2021-06-14T06:25:35Z
dc.date.issued2021
dc.identifier.isbn978-82-326-6966-0
dc.identifier.issn2703-8084
dc.identifier.urihttps://hdl.handle.net/11250/2759145
dc.description.abstractThis thesis explores the application of unsupervised clustering for domain adaptation of machine translation systems. As in many artificial intelligence areas, creating a system that generalizes to any domain is a hard problem in machine translation. Domain adaptation, in contrast, aims to specialize a generic (or otherwise intended) system for a particular domain and translate text within that domain better. In this thesis, experiments on using unsupervised learning as a first step in solving this problem are explored, posing the research questions a) how unstructured data could be used for domain adaptation and b) how a bespoke translation of an input document could be provided. In the first part of the thesis, background theory is presented and related work reviewed. In the second, experimental part, preliminary experiments on building n-gram models and multiword expression detection are presented before experiments into clustering of structured and unstructured document collections are conducted. Finally, the parts are brought together in experiments on using these input factors for domain adaptation of machine translation systems, with end-to-end evaluation. Some of the clusters identified in the clustering experiments on unstructured web collections were used as auxiliary language models in machine translation, in the experiments on domain adaptation. Self-Organizing Maps are used in the first phase of unsupervised clustering before a hierarchical agglomerative clustering algorithm is applied to extract tangible clusters from the map, with the number of clusters determined by the knee method. By creating a mapping between the input document and one of the auxiliary language models, translation is aided by this language model. Using the language model perplexity on the input documents to select the auxiliary language model for domain adaptation links the clusters to the translation process. Results show that the performance according to metrics such as BLEU, TER, and Meteor were on-par, and in some cases better than the results from leveraging all the available supplementary text as an auxiliary language model. The difference when using different auxiliary LM could be up to 1 BLEU points and 0.9 Meteor points.en_US
dc.description.abstractSAMMENDGRAG Denne avhandlingen undersøker bruken av ikke-veiledet klynging for å tilpasse maskinoversettelsessystemer til spesifikke domener. I likhet med andre problemer innenfor kunstig intelligens, er det vanskelig å lage systemer som generaliserer til et hvilket som helst domene. Domenetilpasning, derimot, har det til formål å spesialisere et generisk system (eller et system med annen spesialtilpasning) til et annet, spesifikt domene, og forbedre oversettelse av tekst innenfor dette. I avhandlingen blir eksperimenter på bruk av ikke-veiledet læring utført som et første skritt til å løse dette problemet med utgangspunkt i forskningsspørsmålene a) hvordan ustrukturerte datasamlinger kan brukes til domenetilpasning, og b) hvordan oversettelse av dokumenter kan skreddersys til det enkelte dokument. I avhandlingens første del blir bakgrunnsteori og andre relevante arbeider presentert. I den andre, eksperimentelle, delen, blir eksperimenter med å bygge n-gram-modeller og flerordskonstruksjoner vist, samt eksperimenter med klynging av strukturerte og ustrukturerte dokumentsamlinger. Self-Organizing Maps ble brukt til ikke-veiledet læring, før en hierarkisk agglomerativ klyngingsalgoritme ble brukt til å lage konkrete klynger ut av dette. Antallet klynger ble avgjort av kne-metoden. Avslutningsvis blir eksperimentene forenet ved at eksperimentene nevnt ovenfor ble brukt til domenetilpasning av maskinoversettelsessystemer, med ende-til-ende-evaluering. Noen av klyngene som ble identifisert i klyngingseksperimentene på ustrukturerte tekstsamlinger fra internett, ble senere brukt til å bygge hjelpespråksmodeller i maskinoversettelsesystemer, brukt i domenetilpasningseksperimenter. Ved å tilordne et dokument som skal oversettes til en av hjelpespråksmodellene, ble oversettelsen assistert av denne språkmodellen. Språkmodellenes perpleksitet på inndatadokumenter ble brukt til å velge hjelpespråksmodell. Resultatene viste at ytelsen ifølge metrikker som BLEU, TER og Meteor var på linje med, og i noen tilfeller bedre, enn resultatene fra å utnytte all tilgjengelig tilleggstekst som tilleggsspråksmodell. Forskjellen ved bruk av en annen tilleggsspråksmodell enn den beste ifølge algoritmen var i enkelte tilfeller så mye som 1 BLEU- og 0,9 Meteor-poeng.en_US
dc.language.isoengen_US
dc.publisherNTNUen_US
dc.relation.ispartofseriesDoctoral theses at NTNU;2021:179
dc.titleUnsupervised Clustering of Structured and Unstructured Text Collectionsen_US
dc.typeDoctoral thesisen_US
dc.subject.nsiVDP::Technology: 500::Information and communication technology: 550::Computer technology: 551en_US


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel