Text Classification via Topological Data Analysis

Løvlie, Bendik

dc.contributor.advisor	Solberg, Øyvind
dc.contributor.author	Løvlie, Bendik
dc.date.accessioned	2023-07-22T17:20:14Z
dc.date.available	2023-07-22T17:20:14Z
dc.date.issued	2023
dc.identifier	no.ntnu:inspera:142441053:34433481
dc.identifier.uri	https://hdl.handle.net/11250/3080989
dc.description.abstract	Moderne generative språkmodeller som ChatGPT har en bemerkelsesverdig evne til å generere tekster som er vanskelige å skille fra menneskeskrevne tekster. Topologisk dataanalyse (TDA) brukes til å studere formen på data, og kan trekke ut betydelig kvalitativ og kvantitativ informasjon fra komplekse datasett. Denne masteroppgaven gir en introduksjon til matematikken som ligger til grunn for hovedverktøyet innen TDA, persistent homologi. Deretter presenterer vi teknikker innen naturlig språkprosessering (NLP) som kan transformere tekster til mengder av vektorer, med en tilhørende geometri som kan analyseres ved hjelp av TDA. Til slutt utforsker vi bruken av TDA i eksperimenter som involverer gjenkjenning av maskingenererte tekster.
dc.description.abstract	Recent generative language models such as ChatGPT have demonstrated a remarkable capacity to generate texts that are difficult to distinguish from human-written texts. Topological Data Analysis (TDA) is concerned with the shape of data and can extract significant qualitative and quantitative information from complex datasets. This thesis provides an introduction to the mathematics underlying the main tool of TDA, persistent homology. We then present techniques from the field of Natural Language Processing (NLP) that can transform texts to collections of vectors whose shapes may be analyzed using TDA. Finally, we explore the application of TDA to tasks involving detection of machine-generated texts.
dc.language	eng
dc.publisher	NTNU
dc.title	Text Classification via Topological Data Analysis
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:142441053:3443 ...
Størrelse:: 7.185Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for matematiske fag [2364]

Vis enkel innførsel