Investigation of Neural Network Auto Encoders as Means of Initialisation
Description
Full text not available
Abstract
Initialisering av vekter i kunstige nevrale nettverk har fått mye oppmerksomhet i litteratur. Det kan ha en signifikant effekt på konvergensrate, varians, generalisering og ytelse. Til tross for dets viktighet, er kvalitetsmetoder for initialisering av LSTM og BLSTM få. De er ofte initialisert ved bruk av metoder som ble utledet for å oppnå visse viktige egenskaper. Disse metodene ble imidlertid utledet for enkle nevrale nettverk, og er ikke pålitelige nok for BLSTM.
Grådig lagvis autoenkoder forhåndstrening er en initialiseringsmetode hvor hvert lag i det nevrale nettverket først blir trent til å replikere dets input. Vektene fra forhåndstreningen blir deretter brukt som initielle vekter. Det er en populær metode for mange nevrale nettverk arkitekturer, og i denne avhandlingen, blir dens effekt i BLSTM-modeller vurdert. Flere tilnærminger blir vurdert, hvor noen involverer å dele vekter mellom enkoder- og dekodervekter. Videre, blir det laget eksperimenter med hensikt å måle framover informasjonsflyt og bakover gradientflyt.
Autoenkoder forhåndstrening ga signifikant raskere konvergensrate. Dette var særlig tilfellet for deling av "recurrent kernel" og "bias" vektene mellom enkoder og dekoder. Den positive effekten kan muligens bli forklart ved forbedret framover informasjonsflyt og bakover gradientflyt. Initialisation of weights in artificial neural networks has been given much attention in literature. It can have a significant impact on convergence rate, variance, generalisation and final performance. Despite its importance, quality methods for initialising LSTMs and BLSTMs remain sparse. They are usually initialised by methods which have been derived to obtain certain important properties. However, these methods were derived for simple neural networks, and are not reliable enough for BLSTMs.
Greedy layer-wise auto encoder pre-training is an initialisation method where each layer in the neural network is first trained to replicate its input. The weights obtained from pre-training are then used as initial weights. It is a popular method for many neural network architectures, and in this thesis, its effect on BLSTM models is assessed.
Several approaches are considered, some of which involve tying encoder and decoder weights. Furthermore, experiments are designed in order to measure the behaviour of information flow during forward propagation and backward propagation. Auto encoder pre-training yielded significantly faster convergence. This was in particular the case for tying the recurrent kernel and the bias weights between encoder and decoder. The positive effect may possibly be explained by improved information flow during both forward and backward propagation.