Vis enkel innførsel

dc.contributor.advisorÖzer Özdikis
dc.contributor.authorMagnus Austlid Grov
dc.date.accessioned2019-10-31T15:16:43Z
dc.date.available2019-10-31T15:16:43Z
dc.date.issued2019
dc.identifier.urihttp://hdl.handle.net/11250/2625802
dc.description.abstractGjenfinne dokumenter som er generert innenfor en viss tidsperiode, kan være en utfordrende oppgave. Det er fordi mange dokumenter ikke har et rikig tidsstempel assiosiert med dem. Automatisert tidsstempling for dokumenter er prosessen med a forutsi publiseringsdatoen for et dokument basert pa innholdet. Denne prediksjonsoppgaven kan være spesielt viktig for søkemotorer dersom brukeren er interessert i dokumenter som bare stammer fra en bestemt tidsperiode. Dette kalles et tekst-innhold søk. Metoder som analyserer innholdet av et utdatert dokument og forutsier et tidsstempel med høy nøyaktighet, kan øke ytelsen til slike spørringer. Dokument tidsstempling har fatt økende interesse fra forskere de siste arene. I denne avhandlingen har det blitt gjort en undersøkelse av eksisterende metoder for automatisk dokument tidsstempling. Avhandlingen foreslar også to nye metoder som er basert på kernel density estimation og nevrale nettverk. Disse metodene sammenlignes med state-of-the-art metoder ved hjelp av populære datasett i litteraturen.
dc.description.abstractRetrieving documents generated at a certain time period can be a challenging task since many documents may not have a valid timestamp associated with them. Automatic document timestamping is the process of predicting the publication date of a document based on its content. This prediction task can be particularly important for search engines if the user is interested in documents originating from a certain time period, which is called a text-containment search. Methods that analyze the content of an undated document and predict a timestamp with high accuracy could increase the performance of such queries. Automatic document timestamping has received increasing interest from researchers in recent years. In this thesis, a survey on existing methods for automatic document timestamping has been researched. The thesis also proposes two new methods that are based on kernel density estimation and neural networks. These methods are compared with state-of-the-art methods using popular datasets in the literature.
dc.languageeng
dc.publisherNTNU
dc.titlePredicting publication date of documents based on content
dc.typeMaster thesis


Tilhørende fil(er)

FilerStørrelseFormatVis

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel