Augmenting Tables Using Annotated Document Collections

Stensrud, Christoffer

Stensrud, Christoffer

Master thesis

Permanent lenke

https://hdl.handle.net/11250/3106509

Utgivelsesdato

2023

Metadata

Vis full innførsel

Samlinger

Institutt for datateknologi og informatikk [6708]

Beskrivelse

Full text not available

Sammendrag

Tabeller på nettet tilbyr en uvurderlig innsikt i data, spesielt relasjonell data. De kan flette sammen tilsynelatende urelaterte datapunkter til sammenhengende strukturer med impliserte relasjoner. Evnen til å utvide slike tabeller er en av kjerne oppgavene i forskningsfeltet Informasjonsgjenfinning. Denne oppgaven kommer til å presentere et rammeverk for å målrettet analysere og utvide tabeller ved bruk av annoterte dokument samlinger. Rammeverket tar i bruk språkbehandlings metoder for å annotere tekst dokumenter samlet fra store ressurser, som Wikipedia og The New York Times. Den presenterer også ulike operatorer for å bestemme skjema for tabellene samt utvide de. Den skal evaluere og vise at det finnes et potensiale for å utnytte denne tilnærmingen i videre fremtidig arbeid innenfor dette feltet.

Web tables offer unmatched insight into data, especially relational data. Waving seemingly unrelated datapoints into coherent structures with implied relationships. The ability to augment tables is a core task within the field of Information Retrieval. This thesis presents a framework for purposefully analyzing and extending tables through using a corpus of annotated document collection. The framework utilizes natural language processing (Standford's CoreNLP) to annotate textual documents gathered from large resources, like Wikipedia and The New York Times. It also presents different operators which act on the corpus to determine schemas and augment tables. It will evaluate and show that there is potential for leveraging this approach in future work within the field.

Utgiver

NTNU