Assessing Ranking Models’ Behavior for Semantic Entity Retrieval
Abstract
I dag lagres en økende mengde informasjon på en strukturert eller halvstrukturert måte. Semantiske data er en konseptuell modell for strukturering av data som karakteristisk inneholder en liten mengde tekst sparsomt fordelt over mange felt. Disse datastrukturene kan for eksempel brukes til å representere entiteter. Tradisjonelle metoder for informasjonsgjenfinning (IR) tar kun hensyn til ustrukurerte tekst-dokumenter og tar derfor ikke hensyn til den semantiske strukturen. Moderne tilnærminger til søk som rangeringsmodellen BM25 og dens feltbaserte motpart, BM25F, har blitt stadig vanligere. Tidligere forskning angående bruken av disse rangeringsmodellene ved søk i semantiske data viser tvetydige resultater. Dette gjør det vanskelig å vite hvordan ulike rangeringsmodeller oppfører seg og hvilken modell som skal brukes i ulike miljøer.
I denne oppgaven sammenlignes oppførselen til Lucene Fulltext Search (Vektorrom modellen), BM25 og BM25F som modeller for entitetsgjenfinning. Hver modell blir evaluert på to semantiske datasett hentet fra Wikidata, med totalt ti forskjellige spørringer per datasett. Ett sykdomsdatasett som inneholder entiteter med flere felt med diskriminerende nøkkelord, og ett filmdatasett som inneholder færre felt med mindre diskriminerende nøkkelord. Dette ble gjort ved å samle den opplevde relevansen av de rangerte søkeresultatene for hver modell gjennom en plattform for brukerevaluering spesielt utviklet for denne oppgaven. Studien samlet relevansvurderinger fra 26 respondenter som ga til sammen 8130 evaluerte entiteter. Evalueringsmetodene som ble brukt for å evaluere modellene var DCG, NDCG og Kappa-koeffisienten.
De testede rangeringsmodellene viste lovende resultater for brukere som søker i semantiske data. BM25F presterte best på sykdomsdatasettet med en gjennomsnittlig NDCG-verdi på 0,858, mens Lucene Fulltext presterte best på filmdatasettet med en gjennomsnittlig NDCG-verdi på 0,836. Resultatene viser at BM25F er i stand til å utnytte den underliggende strukturen til sin fordel når den rangerer, men sliter når entitetsfelt ikke inneholder unik og diskriminerende informasjon. Dette skyldes i stor grad den modifiserte metningsfunksjonen som favoriserer entiterer hvor flere nøkkelord matcher i et enkelt felt i stedet for noen få som matcher over flere felt. Today, an increasing amount of information is stored in a structured or semi-structured manner. Semantic data is a conceptual model for structuring data that characteristically contains a small amount of text sparsely distributed over many properties. These data structures can for instance be used to represent entities. Traditional Information Retrieval (IR) methods purely rely on unstructured text documents, hence do not take semantic structures into account. Modern approaches to search, such as the state-of-the-art ranking model BM25 and its fielded counterpart, BM25F, have become increasingly common. Previous research regarding the use of these ranking models when searching in semantic data shows equivocal results. This makes it difficult to know how each ranking model behaves and which one should be used in different environments
In this thesis, the behavior of Lucene Fulltext Search (Vector Space Model), BM25, and BM25F are compared in an entity retrieval setting. Each model is evaluated on two semantic datasets gathered from Wikidata, with a total of ten different queries per dataset. One disease dataset containing entities with several properties with discriminatory terms, and one movie dataset containing fewer properties with less discriminatory keywords. This was done by gathering the perceived relevancy of the ranked search results for each model through a platform for user evaluation specifically developed for this thesis. The user study gathered relevancy assessments from 26 respondents totaling 8130 evaluated entities. The evaluation metrics used to evaluate each model were DCG, NDCG, and the Kappa coefficient.
The tested ranking models showed promising results for users searching in semantic data. BM25F performed the best on the disease dataset with a mean average NDCG score of 0.858, while Lucene Fulltext performed the best on the movie dataset with a mean average NDCG score of 0.836. The results show that BM25F is able to capture the underlying structure to its advantage when ranking, but struggles when properties do not contain unique and discriminatory information. This is to a large degree due to its modified saturation function favoring several terms matched in a single property instead of a few matched across multiple properties.