Sequence Input Aggregation

Andersen, Alexander Meldal

dc.contributor.advisor	Gulla, Jon Atle
dc.contributor.advisor	Kille, Benjamin Uwe
dc.contributor.author	Andersen, Alexander Meldal
dc.date.accessioned	2022-11-02T18:19:28Z
dc.date.available	2022-11-02T18:19:28Z
dc.date.issued	2022
dc.identifier	no.ntnu:inspera:112296943:33622862
dc.identifier.uri	https://hdl.handle.net/11250/3029684
dc.description.abstract	Aggregering av sekvensiell input handler om å redusere et, potensielt veldig stort, sekvensielt datasett til enklere variabler. I industrien, og særlig innen bank og finans, er sekvensielle data veldig vanlige, som gjør dette til en høyst relevant oppgave. Grunnet at sekvensene av transaksjoner utvikles dynamisk over tid, i takt med at folk endrer hvordan de tjener og bruker penger, så kan en automatisk måte å definere slike aggregater potensielt spare mye manuelt arbeid. Vi foreslår to typer automatiske metoder for å gjenkjenne komplekse mønstre i sekvenser av transaksjoner. Den første innebærer å trene et autoenkoder-nevralt nettverk til å komprimere en sekvens til et gitt antall variabler, og den andre er å anvende Fourier-analyse. Begge metodene kan anvendes på store umerkede sekvensielle datamengder, for å effektivt kunne aggregere dem. Vi bruker data fra den virkelige verden for å evaluere metodene våre, ved å bruke aggregatene vi lager som input-variabler for trebaserte maskinlæringsalgoritmer på merket data. De automatiske metodene viser noe potensiale i å finne kjennetegnende informasjon, og autoenkoderen ser ut til å fange opp mer informasjon enn Fourier-analyse gjør, men de automatiske metodene klarer ikke å forbedre resultatene man får, når de blir sammenlignet med manuelt definerte aggregater.
dc.description.abstract	Sequential input aggregation is the task of condensing a, potentially very large, sequential dataset into simpler features. In the industry, particularly finance and banking, sequential data is common, making this a broadly relevant task. Due to the dynamic nature of transactions, and the way people spend and earn money, an automated way of defining such features could potentially save a lot of manual labor. We propose two kinds of automatic methods of recognizing complex patterns in sequences of transactions. The first method is fitting autoencoder recurrent neural networks to learn a fixed number of features, and the second is applying Fourier analysis. Both of these can be applied to large amounts of unlabeled, transactional data for effective aggregation of said data. Using real world data, we evaluate our aggregation methods, by using the aggregates as inputs for tree-based supervised learners. The automatic methods show some promise in recognizing features, with the autoencoders seemingly capturing more than the Fourier analysis, but the automatic methods could not yield any improvement when compared to manual feature engineering.
dc.language	eng
dc.publisher	NTNU
dc.title	Sequence Input Aggregation
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:112296943:3362 ...
Størrelse:: 7.414Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6547]

Vis enkel innførsel