Exploring BM25F for Information Retrieval over Semantic Web Data

Standal, Anders Grytten

Standal, Anders Grytten

Master thesis

View/Open

no.ntnu:inspera:57320302:5017983.pdf (1.315Mb)

URI

https://hdl.handle.net/11250/2777811

Date

2020

Metadata

Show full item record

Collections

Institutt for datateknologi og informatikk [6778]

Abstract

En økende mengde data er utvidet med semantisk struktur for å forme merkede rettede grafer, slik som i det semantiske web. Det gir en rikere måte å forstå forhold mellom datapunkt på. I slik lenket data er spørringspråk som SPARQL benyttet. Slike spørringspråk er derimot ofte for kompliserte eller for upraktisk for de fleste brukere av websøkemotorer i generelle tilfeller. Det er istedet behov for søk gjennom nøkkelord. I informasjonsgjenfinningssystem er det å rangere søkeresultat en av de viktigste stegene i søkeprosessen, og å lage nye rangeringsmetoder som er tilpasset grafstrukturen kan føre til store forbedringer i presisjon.

I denne masteroppgaven utforsker vi forskjellige algoritmer for å rangere søkeresultater i informasjonsgjenfinning over semantisk web data, og implementerer og tester to av dem. Gjennom en rekke eksperimenter finner vi de optimale verdiene for de innstillbare parameterene, i tillegg til at vi finner den beste vektingsordningen. Vi tester de så mot hverandre, ved å bruke PageRank og TF-IDF som basislinjer. Vi finner ut at en av de to algoritmene utkonkurrerer alle andre løsninger for vårt valgte datasett, mens den andre bare utkonkurrerer PageRank.

An increasing amount of data is extended with semantic markup to form labelled directed graphs, as in the Semantic Web. It provides a richer way to understand relationships between the data points. In such linked data, query languages like SPARQL are used. However, they are often too complicated or impractical for most web search engine users to use in general settings. Instead, information retrieval using keyword search is needed. In information retrieval systems, ranking search results is one of the most vital steps, and creating new ranking methods that are adapted to this graph structure can lead to considerable improvements in precision.

In this thesis we explore different algorithms for ranking search results in information retrieval over semantic web data, and implement and test two of them. Through a series of experiments, we find the optimal values for the tuneable parameters, as well as the best weighting scheme. We then test them against each other, using PageRank and TF-IDF as baselines. We find that one of the two algorithms outperforms all other solutions for our chosen dataset, while the other outperforms only PageRank.

Publisher

NTNU