Exploring BM25F for Information Retrieval over Semantic Web Data

Standal, Anders Grytten

dc.contributor.advisor	Aalberg, Trond
dc.contributor.author	Standal, Anders Grytten
dc.date.accessioned	2021-09-15T16:11:59Z
dc.date.available	2021-09-15T16:11:59Z
dc.date.issued	2020
dc.identifier	no.ntnu:inspera:57320302:5017983
dc.identifier.uri	https://hdl.handle.net/11250/2777811
dc.description.abstract	En økende mengde data er utvidet med semantisk struktur for å forme merkede rettede grafer, slik som i det semantiske web. Det gir en rikere måte å forstå forhold mellom datapunkt på. I slik lenket data er spørringspråk som SPARQL benyttet. Slike spørringspråk er derimot ofte for kompliserte eller for upraktisk for de fleste brukere av websøkemotorer i generelle tilfeller. Det er istedet behov for søk gjennom nøkkelord. I informasjonsgjenfinningssystem er det å rangere søkeresultat en av de viktigste stegene i søkeprosessen, og å lage nye rangeringsmetoder som er tilpasset grafstrukturen kan føre til store forbedringer i presisjon. I denne masteroppgaven utforsker vi forskjellige algoritmer for å rangere søkeresultater i informasjonsgjenfinning over semantisk web data, og implementerer og tester to av dem. Gjennom en rekke eksperimenter finner vi de optimale verdiene for de innstillbare parameterene, i tillegg til at vi finner den beste vektingsordningen. Vi tester de så mot hverandre, ved å bruke PageRank og TF-IDF som basislinjer. Vi finner ut at en av de to algoritmene utkonkurrerer alle andre løsninger for vårt valgte datasett, mens den andre bare utkonkurrerer PageRank.
dc.description.abstract	An increasing amount of data is extended with semantic markup to form labelled directed graphs, as in the Semantic Web. It provides a richer way to understand relationships between the data points. In such linked data, query languages like SPARQL are used. However, they are often too complicated or impractical for most web search engine users to use in general settings. Instead, information retrieval using keyword search is needed. In information retrieval systems, ranking search results is one of the most vital steps, and creating new ranking methods that are adapted to this graph structure can lead to considerable improvements in precision. In this thesis we explore different algorithms for ranking search results in information retrieval over semantic web data, and implement and test two of them. Through a series of experiments, we find the optimal values for the tuneable parameters, as well as the best weighting scheme. We then test them against each other, using PageRank and TF-IDF as baselines. We find that one of the two algorithms outperforms all other solutions for our chosen dataset, while the other outperforms only PageRank.
dc.language
dc.publisher	NTNU
dc.title	Exploring BM25F for Information Retrieval over Semantic Web Data
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:57320302:50179 ...
Størrelse:: 1.315Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6778]

Vis enkel innførsel