• norsk
    • English
  • English 
    • norsk
    • English
  • Login
View Item 
  •   Home
  • Fakultet for informasjonsteknologi og elektroteknikk (IE)
  • Institutt for datateknologi og informatikk
  • View Item
  •   Home
  • Fakultet for informasjonsteknologi og elektroteknikk (IE)
  • Institutt for datateknologi og informatikk
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Exploring BM25F for Information Retrieval over Semantic Web Data

Standal, Anders Grytten
Master thesis
Thumbnail
View/Open
no.ntnu:inspera:57320302:5017983.pdf (1.315Mb)
URI
https://hdl.handle.net/11250/2777811
Date
2020
Metadata
Show full item record
Collections
  • Institutt for datateknologi og informatikk [4881]
Abstract
En økende mengde data er utvidet med semantisk struktur for å forme merkede rettede grafer, slik som i det semantiske web. Det gir en rikere måte å forstå forhold mellom datapunkt på. I slik lenket data er spørringspråk som SPARQL benyttet. Slike spørringspråk er derimot ofte for kompliserte eller for upraktisk for de fleste brukere av websøkemotorer i generelle tilfeller. Det er istedet behov for søk gjennom nøkkelord. I informasjonsgjenfinningssystem er det å rangere søkeresultat en av de viktigste stegene i søkeprosessen, og å lage nye rangeringsmetoder som er tilpasset grafstrukturen kan føre til store forbedringer i presisjon.

I denne masteroppgaven utforsker vi forskjellige algoritmer for å rangere søkeresultater i informasjonsgjenfinning over semantisk web data, og implementerer og tester to av dem. Gjennom en rekke eksperimenter finner vi de optimale verdiene for de innstillbare parameterene, i tillegg til at vi finner den beste vektingsordningen. Vi tester de så mot hverandre, ved å bruke PageRank og TF-IDF som basislinjer. Vi finner ut at en av de to algoritmene utkonkurrerer alle andre løsninger for vårt valgte datasett, mens den andre bare utkonkurrerer PageRank.
 
An increasing amount of data is extended with semantic markup to form labelled directed graphs, as in the Semantic Web. It provides a richer way to understand relationships between the data points. In such linked data, query languages like SPARQL are used. However, they are often too complicated or impractical for most web search engine users to use in general settings. Instead, information retrieval using keyword search is needed. In information retrieval systems, ranking search results is one of the most vital steps, and creating new ranking methods that are adapted to this graph structure can lead to considerable improvements in precision.

In this thesis we explore different algorithms for ranking search results in information retrieval over semantic web data, and implement and test two of them. Through a series of experiments, we find the optimal values for the tuneable parameters, as well as the best weighting scheme. We then test them against each other, using PageRank and TF-IDF as baselines. We find that one of the two algorithms outperforms all other solutions for our chosen dataset, while the other outperforms only PageRank.
 
Publisher
NTNU

Contact Us | Send Feedback

Privacy policy
DSpace software copyright © 2002-2019  DuraSpace

Service from  Unit
 

 

Browse

ArchiveCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsDocument TypesJournalsThis CollectionBy Issue DateAuthorsTitlesSubjectsDocument TypesJournals

My Account

Login

Statistics

View Usage Statistics

Contact Us | Send Feedback

Privacy policy
DSpace software copyright © 2002-2019  DuraSpace

Service from  Unit