Semantic Similarity Search over Spatio-textual Data
Master thesis
Permanent lenke
https://hdl.handle.net/11250/3088037Utgivelsesdato
2023Metadata
Vis full innførselSamlinger
Sammendrag
Denne masteroppgaven utforsker utfordringene knyttet til indeksering og søk i spatio-tekstuelle data, en raskt voksende kategori av flerdimensjonale data med varierte bruksområder. Eksisterende metoder for søk i spatio-tekstuelle data sliter ofte med å fange de intrikate semantiske sammenhengende i tekstdata. For å unngå denne begrensningen presenterer denne oppgaven DualiDistance, en ny algoritme som tar i bruk word embeddings for å forbedre nøyaktigheten og effektiviteten av søkeoperasjoner i tekstdata. Ved å bygge videre på de grunnleggende prinsippene til indekseringsmetoden iDistance, fletter DualiDistance sammen spatial og tekstuell informasjon i doble indekser for å unngå en spatial bias som man ser hos andre relaterte metoder. This master's thesis explores the challenges associated with indexing and searching spatio-textual data, a rapidly expanding category of multi-dimensional objects with diverse applications. Existing methods for spatio-textual data search often struggle to capture the intricate semantic relationships within textual data. To overcome this limitation, this thesis presents DualiDistance, a novel algorithm that leverages word embeddings to enhance the accuracy and effectiveness of search operations. Building upon the foundational principles of the iDistance indexing method, DualiDistance integrates spatial and textual information into dual indexes to tackle some of the principal challenges in semantic similarity searches. The approach goes beyond exact term matching by incorporating semantic relevance and tries to avoid a spatial bias, which can result in more accurate search results.