Vis enkel innførsel

dc.contributor.advisorRamampiaro, Herindrasananb_NO
dc.contributor.advisorLilleng, Jeaninenb_NO
dc.contributor.authorReite, Toril Ormbergnb_NO
dc.date.accessioned2014-12-19T13:35:05Z
dc.date.available2014-12-19T13:35:05Z
dc.date.created2010-09-10nb_NO
dc.date.issued2006nb_NO
dc.identifier350428nb_NO
dc.identifierntnudaim:1446nb_NO
dc.identifier.urihttp://hdl.handle.net/11250/251785
dc.description.abstractI dagens informasjonssamfunn har man enkel tilgang til store mengder informasjon, dette fører ofte til at man finner mye mer informasjon enn man trenger og det blir vanskelig å finne det man leter etter. I min masteroppgave skal jeg prøve å finne en metode som automatisk angir tema til tekster. Ved å få angitt et tema, er det forhåpentlig enklere å se om teksten innholder relevant informasjon. Utgangspunktet for oppgaven var en idé om at det er mulig å finne tema for en tekst ved å bruke tittelen og sammendrag (abstract) som grunnlag. Dette testes ved å dele en samling dokumenter opp i flere deler og trene en del ved å la forhåndsbestemte tema for denne delen bli satt som utgangspunkt for sammenligninger med resten av samlingen. For å løse denne oppgaven har jeg gjennomført en litteraturstudie, tatt i bruk lovende teknologier for høsting av metadata og laget en prototyp som tester hvor godt metoden fungerer i praksis. For å høste metadata ble Open Archives Initiative s standard for høsting av metadata valgt som løsning for høsting av data. Arc, en åpen kildekode programvare, ble brukt for selve høstingen og MySQL ble valgt som datalager for innhøstede data. Det viste seg at metoden i de fleste tilfeller traff feil tema, sammenligner man med de fem temaene som blir foreslått er treffprosenten 11 prosent i gjennomsnitt. Dette gir for dårlig resultat til at metoden kan taes i bruk slik den er i dag. Det har underveis blitt oppdaget en mulig feilkilde i selve samlingen som er brukt for testformålet, da dokumentene i samlingen er fordelt slik at like tema ligger nært hverandre. Ved testing på et utvalg av samlingen på de 100 første dokumentene blir resultatet vesentlig bedre enn for hele samlingen. Temafordelingen i denne delen av samlingen er også mer jevnt fordelt enn resten av samlingen, dette indikerer at det er samlingen som er problemet og ikke metoden. Jeg konkluderte med at metoden mest sannsynlig virker og at den kan brukes til å angi tema for tekstlige dokumenter. Det må imidlertid testes på blant annet om resultatet blir bedre dersom man stokker dokumentene, eller bruker en annen dokumentsamling. Dersom resultatet blir at treffprosenten nærmer seg hundre prosent er det etter min mening mulig å bruke metoden i stor skala på internett for å angi tema til dokumenter.nb_NO
dc.languagenornb_NO
dc.publisherInstitutt for datateknikk og informasjonsvitenskapnb_NO
dc.subjectntnudaimno_NO
dc.subjectSIF2 datateknikkno_NO
dc.subjectData- og informasjonsforvaltningno_NO
dc.titleAutomatisk temainndelingnb_NO
dc.title.alternativeAutomatic Topicnb_NO
dc.typeMaster thesisnb_NO
dc.source.pagenumber79nb_NO
dc.contributor.departmentNorges teknisk-naturvitenskapelige universitet, Fakultet for informasjonsteknologi, matematikk og elektroteknikk, Institutt for datateknikk og informasjonsvitenskapnb_NO


Tilhørende fil(er)

Thumbnail
Thumbnail
Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel