KNITTIR - Semantic Text Indexing

Vu, Thanh-Hi Anthony

Vu, Thanh-Hi Anthony

Master thesis

Permanent lenke

https://hdl.handle.net/11250/3106113

Utgivelsesdato

2023

Metadata

Vis full innførsel

Samlinger

Institutt for datateknologi og informatikk [6828]

Beskrivelse

Full text not available

Sammendrag

Med den økende mengden data tilgjengelig gjennom nettet, står brukere overfor ut-

fordringen med å utføre analytiske oppgaver på tekst. Dette inkluderer å trekke ut

lignende tekstområder med relevant informasjon, samt videre resonnement om kat-

egoriske forhold og tidsuttrykk som angår entiteter. Med fremskritt innen verktøy

for naturlig språkbehandling, kan vi opprette søkesystemer som støtter slike ana-

lytiske oppgaver. Slike prosesseringsverktøy er i stand til å trekke ut annotasjoner

som ordklasse, grovt kategoriserte entiteter og syntaktiske relasjoner mellom ord i

teksten. Disse annotasjonene hjelper oss med å utforme et spørringsspråk som er

i stand til å gjennomføre likhetssøk og resonnement med hensyn til entiteter, tids-

og numeriske verdier. Denne oppgaven presenterer indekseringssystemet KNITTIR

for å hjelpe brukere med analytiske oppgaver ved hjelp av et nytt søkerammeverk,

som tillater brukere å gjøre et semantisk søk i tekst og ekstraherte annotasjoner

for lignende tekstområder og videre utvide den hentede teksten for resonnement.

KNITTIR bruker en syntaktisk tekstmodell over annotert tekst for å opprette in-

dekser som akselererer den analytiske prosessen. Systemet blir evaluert ved hjelp

av en rekke spørringer som viser at KNITTIR kan hente lignende setninger og ef-

fektivt håndtere videre resonnement på de uthentede setningene.

With the growing amount of data available through the Web, users face the challenge of doing analytic-centric tasks on text. This includes extracting similar text regions over relevant information, and also further reasoning upon categorical relationships and temporal expressions concerning noun phrases and entities. With the advancement of Natural Language Processing annotation tools, we can create search systems to support such analytical tasks. Such processing tools, are capable of extracting annotations such as part-of-speech, coarse-grained named entities, and the syntactical relationships to words in text. These annotations help us design a query language capable of similarity search and reasoning operators concerning entities, temporal and numerical values. This thesis presents the indexing system KNITTIR to assist users with analytic tasks with a new search framework, allowing users to do a semantic search over text and extracted annotation for similar text regions and further augment the retrieved text for reasoning. KNITTIR utilizes a syntactical text model over annotated text to create indexes to speed up the analytical task process. The system is evaluated using a set of queries showing that KNITTIR can retrieve similar sentences and resolve further reasoning operators upon the retrieved sentences efficiently.

Utgiver

NTNU