Graph-Based Approaches to Document Classification and Understanding
Abstract
Automatisk prosessering av bygningsdokumenter kan skape betydelig verdi for kunder i eiendomssektoren. Eiendomsselskaper lagrer og vedlikeholder mange dokumenter, noe som krever mye arbeid. Denne masteroppgaven ser på maskinlæringsbaserte tilnærminger for å automatisk prosessere bygningsdokumenter. Målet er å oppnå rask innsikt i dokumentasjonen med minimalt manuelt arbeid. Dette oppnås ved å implementere ulike tilnærminger som krever få eller ingen annoterte dokumenter.
Hovedtilnærmingen for å oppnå innsikt i dokumentasjonen er å utvikle en metode for å separere dokumenter basert på type. Denne masteroppgaven studerer først ulike måter å representere dokumenter på som lesbare formater for datamaskinen, kalt innpakninger (embeddings på engelsk). Etter å ha laget innpakninger, brukes ulike grupperingsalgoritmer (clustering algorithms) for å vurdere hvor effektive de er på å separere dokumenter fra hverandre.
Videre utvikles en metode for å definere en topologisk graf, gitt innpakninger av dokumenter. Gruppedetekteringsalgoritmer basert på topologiske grafer (community detection algorithms) anvendes deretter for å separere dokumentene i grafen etter type. Etter dette gjennomføres omfattende eksperimenter for å sammenligne ulike metoder og finne ut hvilken som er mest effektiv. Dette blir fulgt opp av en diskusjon som tolker og reflekterer over resultatene.
Oppgaven gjør flere viktige bidrag. Et av de viktigste bidragene er utviklingen av en gruppedeteksjonsalgoritme basert på topologiske grafer for å separere dokumenter etter type. Videre kommer bidrag som øker kvaliteten på grafer og forbedrer valget av noder som skal være annoterte for maskinlæringsalgoritmen. Metodene og bidragene som har blitt implementert i denne masteroppgaven, kan ha betydelig nytteverdi inne dokumentklassifisering og forståelse. Automatic processing of building documents can provide significant value to customers throughout the real estate sector. The sector stores and maintains many documents, which require a lot of manual work to manage properly. This thesis studies machine-learning approaches to processing building documentation with the goal of providing fast insights with minimal manual effort. This is done by implementing different unsupervised and semi-supervised machine learning approaches to process the documentation.
The main approach to obtaining insights into the documentation is to develop methods to separate the documentation based on type. The thesis first studies how to represent documents in a machine-interpretable format in the form of embeddings. Several embedding models are tested to find a suitable approach for representing documents. After embedding the documents, clustering methods are tested to determine how effectively they are able to separate the document embeddings.
Furthermore, a method is implemented to define topological graphs based on these documents and develop techniques to increase the quality of the graph. Community detection algorithms are then applied to the graphs to obtain a separation like the one achieved with the clustering. Following this, extensive experiments are done to compare different methods of separating documents based on type and to discover which methods are most effective. A thorough discussion is then given interpreting and reflecting on the results.
The work in this thesis makes several contributions. One of the main contributions is developing a community detection algorithm to separate documents based on type. Furthermore, contributions are made, such as techniques to increase the quality of graphs for community detection and improve labeled data point selection for semi-supervised learning. The approach proposed in this thesis, along with the contributions made, holds significant potential to improve document classification and understanding.