Incremental Update of Document Timestamping Models
Abstract
Å estimere opprettelsestiden for dokumenter er en oppgave som krever et annotert datasett, og ytelsen til en estimeringsmodell er ofte tett knyttet til størrelsen på datasettet som brukes. Ideen om en automatisk måte å øke størrelsen på treningsdataene på, kan bidra til å forbedre ytelsen til eksisterende dokument-dateringsmetoder. Det kan også åpne for nye muligheter innen datering av dokumenter, der det tidligere ikke eksisterte et annotert datasett av tilstrekkelig størrelse. I denne oppgaven foreslås en ny tilnærming til automatisk oppdatering av dateringsmodeller. Tanken er å inkrementelt legge til tidligere usettede dokumenter med en estimert etikett, hvis tilliten til prediksjonen oppfyller et visst krav. Under eksperimentene i denne oppgaven implementeres og modifiseres en eksisterende tilnærming til dokumentdatering for å gjøre det mulig å oppdatere modellen inkrementelt. Deretter presenteres og evalueres resultatene i sammenligning med en ideell utvidelse av treningsdataene. I oppgaven eksperimenterer jeg også med bruk av regresjonsbaserte tidsstemplingsteknikker for dokumenter. Disse eksperimentene inkluderer bruk av forskjellige grupper med egenskaper og regresjonsmetoder for å finne regresjonsmetodene med best ytelse, og måle virkningen av hver gruppe med egenskaper. Estimating the creation time of documents is a task that requires an annotated dataset, and the performance of an estimation model is often closely tied to the size of the dataset used. The idea of an automatic way of increasing the size of the training data, could help improve the performance of existing document dating methods. It could also open up for new opportunities in the field of document timestamping, where there previously did not exist an annotated dataset of sufficient size. In this thesis, a new approach to automatically updating a dating model is suggested. The idea is to incrementally add previously unseen documents with an estimated label, if the confidence of the prediction meets a certain threshold. During the experiments in this thesis, an existing approach to document dating is implemented and modified to allow the model to be incrementally updated. Then the results are presented and evaluated in comparison to an ideal expansion of the training data. In the thesis, I also experiment with the usage of regression-based document timestamping techniques. These experiments include the usage of different feature groups and regression methods to find the best performing regression methods, and measure the impact of each feature group.