Show simple item record

dc.contributor.advisorLi, Jingyue
dc.contributor.authorDahl, Thorben Werner Sjøstrøm
dc.date.accessioned2019-12-20T15:00:15Z
dc.date.available2019-12-20T15:00:15Z
dc.date.issued2019
dc.identifier.urihttp://hdl.handle.net/11250/2634353
dc.description.abstractEtterhvert som mengden publiserte datasett har økt, har det blitt viktigere og viktigere med verktøy som hjelper brukerne med å finne fram i havet av datasett. Typiske nøkkelord-baserte søk gjør ikke så mye nytte for seg, siden domene-spesifikke faguttrykk ofte kan bli brukt av de som publiserer datasett. Når vanlige brukere skal forsøke å finne datasett, er det ikke sikkert de har kjennskap til de samme faguttrykkene, så deres spørringer returnerer ikke nødvendigvis de relevante datasettene. Flere forsøk har blitt gjort for å løse dette problemet. Masteroppgaven til Hagelien fungerer som et grunnlag for denne masteroppgaven, og presenterte en prototype for ontologi-basert semantisk søk kalt DataOntoSearch. Hans system knytter brukerens spørring opp mot konsepter i ontologien, som igjen sammenliknes med datasett basert på enten manuelle eller automatiske koblinger mellom datasett og konsept. Ved å bruke konsepter som et mellomlag mellom spørringen og datasett, kan brukerens spørring returnere datasett som er relatert til spørringen uten at de nødvendigvis bruker de samme ordene som spørringen. Andre systemer inkluderer Google Dataset Search, som ble introdusert i september 2018. Deres system virker på samme måte som vanlig Google-søk, ved at du kan søke etter datasett uavhengig av hvor de er publisert. Det virker dog til å ha de samme problemene som andre nøkkelord-baserte søk. En annen tilnærming lar brukerne filtrere datasett på tidsperioder og geografiske områder ved å bruke kjente navn, i stedet for å kreve spesifikke datoer og koordinater. Til tross for dette later det ikke til å være noen andre tilnærminger som bruker en ontologi for søk i åpne data. Denne oppgaven stiller to forskningsspørsmål: Hvilke problemer har DataOntoSearch, og hvordan kan de løses? Brukbarhetstester viste at systemet ikke returnerte det brukerne så etter og så uprofesjonelt ut. De likte derimot Google Dataset Search. Basert på dette og andre observasjoner har jeg utviklet en version 2 av systemet. Systemet har blitt 1) klargjort for bruk og produksjonssetting 2) mulig å bruke med andre systemer gjennom vev-API 3) integrert med en mye brukt løsning for publisering av datasett (CKAN) 4) forhåpentligvis mer brukbart, og 5) bedre til søking. Spesifikt så har versjon 2 en F1-skår på 35% og en målt MAP på 32%, sammenliknet med version 1 sin F1-skår på 6% og målt MAP på 3% med manuelt genererte datasett-konsept koblinger. Selv om Google Dataset Search var med i evalueringen og skåret lavere enn DataOntoSearch versjon 2, sleit det med en programfeil den dagen som gjorde at det ikke presterte så bra som det ellers har gjort. Når alt kommer til stykket har ontologi-basert semantisk søk et potensiale, og kan faktisk hjelpe til å gjøre åpne datasett synlige. Med bidragene fra denne masteroppgaven står DataOntoSearch bedre rustet enn noensinne til å gjøre sitt oppdrag “i det fri,” og har en bedre sjanse til å bli adaptert og gjøre en forskjell for brukere som ønsker å finne fram til datasett som kan løse problemene deres.
dc.languageeng
dc.publisherNTNU
dc.titleImproved Ontology-Based Semantic Search for Open Data
dc.typeMaster thesis


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record