Vis enkel innførsel

dc.contributor.advisorSolberg, Øyvind
dc.contributor.authorLøvlie, Bendik
dc.date.accessioned2023-07-22T17:20:14Z
dc.date.available2023-07-22T17:20:14Z
dc.date.issued2023
dc.identifierno.ntnu:inspera:142441053:34433481
dc.identifier.urihttps://hdl.handle.net/11250/3080989
dc.description.abstractModerne generative språkmodeller som ChatGPT har en bemerkelsesverdig evne til å generere tekster som er vanskelige å skille fra menneskeskrevne tekster. Topologisk dataanalyse (TDA) brukes til å studere formen på data, og kan trekke ut betydelig kvalitativ og kvantitativ informasjon fra komplekse datasett. Denne masteroppgaven gir en introduksjon til matematikken som ligger til grunn for hovedverktøyet innen TDA, persistent homologi. Deretter presenterer vi teknikker innen naturlig språkprosessering (NLP) som kan transformere tekster til mengder av vektorer, med en tilhørende geometri som kan analyseres ved hjelp av TDA. Til slutt utforsker vi bruken av TDA i eksperimenter som involverer gjenkjenning av maskingenererte tekster.
dc.description.abstractRecent generative language models such as ChatGPT have demonstrated a remarkable capacity to generate texts that are difficult to distinguish from human-written texts. Topological Data Analysis (TDA) is concerned with the shape of data and can extract significant qualitative and quantitative information from complex datasets. This thesis provides an introduction to the mathematics underlying the main tool of TDA, persistent homology. We then present techniques from the field of Natural Language Processing (NLP) that can transform texts to collections of vectors whose shapes may be analyzed using TDA. Finally, we explore the application of TDA to tasks involving detection of machine-generated texts.
dc.languageeng
dc.publisherNTNU
dc.titleText Classification via Topological Data Analysis
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel