Indeksering av heterogene XML dokumenter ved hjelp av datatyper fra XML Schema

Myklebust, Trond Aksel

dc.contributor.advisor	Aalberg, Trond	nb_NO
dc.contributor.author	Myklebust, Trond Aksel	nb_NO
dc.date.accessioned	2014-12-19T13:35:50Z
dc.date.available	2014-12-19T13:35:50Z
dc.date.created	2010-09-13	nb_NO
dc.date.issued	2006	nb_NO
dc.identifier	351337	nb_NO
dc.identifier	ntnudaim:1379	nb_NO
dc.identifier.uri	http://hdl.handle.net/11250/252092
dc.description.abstract	Denne masteroppgaven foreslår og undersøker en metode for hvordan informasjons-gjenfinning i heterogene XML dokumenter kan gjøres ved å differensiere indekserings-prosessen ut i fra datatyper angitt i tilhørende XML Schema. Målet er å tilby bedre søkemuligheter for informasjonssøkere ved å muliggjøre spørringer som er uavhengige av elementnavn i en samling av forskjellig strukturerte dokumenter. Informasjonssøking foregår i dag primært i ustrukturerte dokumenter der betydningen av innholdet ikke er direkte kjent. Dette krever kompliserte og unøyaktige tolkninger av innholdet for å kunne trekke ut hva som er hva og hvordan dokumentene best mulig kan indekseres. En stadig økende mengde produsert informasjon og metadata gjør dette til en krevende prosess å utføre manuelt. Det trengs derfor nye metoder der innholdet blir beskrevet ved produksjonstidspunktet slik at en datamaskin automatisk kan forstå dokumentenes innhold. Semistrukturerte dokumentformater som XML inneholder støtte for spesifisering av slik informasjon og muliggjør differensiert indeksering av innholdet basert på annotert informasjon. Dette gjør mer detaljerte spørringer enn tidligere mulig men stiller nye krav til de metoder som brukes for å indeksere dokumentene. En av de største utfordringene er å lokalisere og tolke den informasjonen som øker kvaliteten på resultatet av et søk uten at noe informasjon forsvinner. Informasjonen eksisterer ikke i en flat tekstfil, men inneholder distinkte datatyper som må behandles individuelt. Dette krever nye metoder som muliggjør indeksering basert på denne informasjonen. I denne oppgaven presenteres et forslag til et system som indekserer XML dokumenter ved å tolke tilhørende XML Schema inneholdende annotasjoner av datatype og dataformat. Ved å bruke for hvert element denne informasjonen er ønsket at indekseringen gjøres ved å automatisk normalisere elementinnholdet ut i fra angitt format og datatype. Søk kan dermed optimaliseres basert på datatype uavhengig av om originalt format og dokumentstruktur er forskjellig. Testing av systemet er gjennomført for å finne ut hvordan eksisterende XML dokumenter støtter denne typen indeksering og eventuelle løsninger for hvordan det kan gjøres bedre. Utkommet fra arbeidet på oppgaven og hovedkonklusjonen er at den foreslåtte metoden fungerer godt som løsning på problemstillingen, gitt at de eksterne data som brukes er strukturert slik at datatyper kan defineres for innholdet.	nb_NO
dc.language	nor	nb_NO
dc.publisher	Institutt for datateknikk og informasjonsvitenskap	nb_NO
dc.subject	ntnudaim	no_NO
dc.subject	MIT informatikk	no_NO
dc.subject	Informasjonsforvaltning	no_NO
dc.title	Indeksering av heterogene XML dokumenter ved hjelp av datatyper fra XML Schema	nb_NO
dc.title.alternative	Indexing heterogeneous XML Documents using Data Types from XML Schema	nb_NO
dc.type	Master thesis	nb_NO
dc.source.pagenumber	119	nb_NO
dc.contributor.department	Norges teknisk-naturvitenskapelige universitet, Fakultet for informasjonsteknologi, matematikk og elektroteknikk, Institutt for datateknikk og informasjonsvitenskap	nb_NO

Tilhørende fil(er)

Filnavn:: 351337_COVER01.pdf
Størrelse:: 4.184Mb
Format:: PDF

Åpne

Filnavn:: 351337_FULLTEXT01.pdf
Størrelse:: 1.257Mb
Format:: PDF

Åpne

Filnavn:: 351337_ATTACHMENT01.zip
Størrelse:: 646.1Kb
Format:: Ukjent

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6547]

Vis enkel innførsel