Klassifisering av innhold i pasientjournalen: Sammenlikning ordvektormodeller trent medmedisinske eller kliniske tekster

Gundersen, Tore

dc.contributor.advisor	Nytrø, Øystein
dc.contributor.author	Gundersen, Tore
dc.date.accessioned	2024-01-12T18:19:20Z
dc.date.available	2024-01-12T18:19:20Z
dc.date.issued	2023
dc.identifier	no.ntnu:inspera:137034579:15982989
dc.identifier.uri	https://hdl.handle.net/11250/3111381
dc.description	Full text not available
dc.description.abstract	I de siste årene har fremgangen innenfor maskin læring og spesielt innenfor Natural Language Processing (NLP) gjort det mulig å lære fra tekst. Ordvektorer er en populær metode innenfor NLP som utfra konteksten i en tekst fanger opp semantiske og syntaktiske relasjoner mellom ord. Det gjør de spesielt nyttig i klassifisering av tekst. Ferdig trente ordvektorer kan overføres til en klassifisering. Det gjør det enklere å identifisere og gjenkjenne mønstre i teksten som er spesielt viktig i klassifisering. De syntaktiske og semantiske relasjonene mellom ord avhenger kilden som brukes til trening. For klassifisering av klinisk tekst er det nødvendig med lokal klinisk kunnskap. For å kunne vurdere kvaliteten og nytteverdien av ordvektorer kan intrinsik og ekstrinsik evaluering brukes. Intrinsik gjøres ved å analyser ordvektorer med ordlikhet og tekst klynger. Ordlikhet viser relasjoner mellom ord, klynger viser hvordan like ord klynger seg sammen. Ekstrinsik evaluering kan gjøres ved å vurdere hvor godt de prestere i en klassifisering. Store generelle tekster som wikipedia gir ordvektorer mye generelle kunnskaper, domene som medisinsk faglitteratur gir ordvektorer delvis klinisk kunnskap mens lokalt trente fra en spesifikk kilde, som pasientjournaler gir ordvektorer dybde kunnskap. Målet med masteroppgaven er å sammenligne lokalt trente ordvektorer på pasientjournaler, for å sammenligne ytelsen i forhold til generelle og domene spesifikke ordvektorer på klinisk tekst klassifisering. Resultat fra eksperimentet viser at lokale ordevektorer gir en betydelig bedring i klassifiseringen. Spesielt i forhold til domene spesifikke.
dc.description.abstract	In recent years, progress within machine learning and especially within Natural Language Processing (NLP) has made it possible to learn from text. Word embeddings are a popular method within NLP which, based on the context of a text, captures semantic and syntactic relationships between words. This makes them particularly useful in the classification of text. Pretrained word embeddings can be transferred to classification tasks. It makes it easier to identify and recognize patterns in the text that are particularly important in classification. The syntactic and semantic relations between words depend on the source used for training. For the classification of clinical text, local clinical knowledge is necessary. In order to evaluate the quality of word embeddings, intrinsic and extrinsic evaluation can be used. Intrinsic can analyzing word embeddings with word similarity and text clusters. Word similarity shows relationships between words, clusters show how similar words cluster together. Extrinsic evaluation can be done by assessing how well they perform in a classification. Large general texts like wikipedia give word embeddings a lot of general knowledge, domain like medical literature gives word embeddings partial clinical knowledge while locally trained from a specific source, like patient records give word vectors depth of knowledge. The aim of the master's thesis is to compare locally trained word embeddings on patient records, to compare the performance to general and domain specific word embeddings on classification of clinical text. Results from the experiment show that local word vectors provide a significant improvement in classification. Especially in relation to domain specifics.
dc.language	nob
dc.publisher	NTNU
dc.title	Klassifisering av innhold i pasientjournalen: Sammenlikning ordvektormodeller trent medmedisinske eller kliniske tekster
dc.type	Master thesis

Tilhørende fil(er)

Filer	Størrelse	Format	Vis

Denne innførselen finnes i følgende samling(er)

Videreutdanning: Master- og bacheloroppgaver [761]

Vis enkel innførsel