Classification of speech samples using multiple Neural Networks in a tree hierarchy
Master thesis
Permanent lenke
https://hdl.handle.net/11250/2777484Utgivelsesdato
2020Metadata
Vis full innførselSamlinger
Sammendrag
Denne rapporten beskrier et forskningsprosjekt som hadde som mål å utforske metoder til å redusere byrden på det utstyret fra høyeste hylle brukt til å trene nevrale nettverk gjennom å bruke mange mindre nevrale nettverk, i stedet for et stort nettverk.Nevrale nettverk brukt i denne masteroppgaven er re-trent iterativt på et progressivt større sett med data, og deretter brukt i et tre-hierarki.Forskjellige lærdommer fra tidligere forskning ute i feltet er brukt til å akselerere utviklingen av den nevrale nettverk modellen til å oppnå gode resultater før hoved-eksperimentene begynner.
Gjennom treningsprosessen, en modifisert tapsfunksjon med en filter er brukt til å rettlede det nevrale nettverket til å oppnå bedre klassifiseringer for gitte dataprøver.Filteret er brukt gjennom å legge til et ekstra lag med nevroner etter softmax laget, som er deretter fjernet etter treningsprosessen er ferdig.Vektene av dette ekstra-laget er manuelt modifisert til å overføre resultatene fra softmax-laget direkte til ekstra-laget.Ettersom målet med denne prosessen er å skale bedre klassifiseringer, det resulterende nettverket er fjernet på slutten av denne prosessen.Bedre klassifiseringer er brukt som grunnlag for grupperingen av datasettet brukt i denne masteroppgaven.
Den iterative re-treningen tar disse bedre klassifiseringene, og bruker de i treningsprosessen ettersom mer og mer av datasettet er bearbeidet.Til slutt er nettverkene samlet i et tre, og gruppene er kjedet sammen til å distribuere datasettet til mindre fragmenter.Både den iterative re-treningen og det nevrale nettverk-treet er forsøkt i kombinasjon.I tillegg er en kontroll-gruppe som ikke bruker den iterative re-treningen brukt til å danne et tre.
Resultatet av masteroppgaven viser at iterativ re-trening har noe effekt på størrelsen og kvaliteten av de opprinnelige data gruppene, så lenge man justerer på parameterne i nettverkene korrekt.Gjennom trærne generert gjennom iterativ re-trening, vellykkede eksperiment er vist gjennom sammenligning av flere lyd klipp som ble gruppert i samme og forskjellige tre noder.Modifisering av tapsfunksjonen er vist til å ha liten effekt, men hele prosessen viser en klar hevelse av kvaliteten over alternativene. This report describes the research project which aimed to investigate ways to reduce the load on the high-end hardware used in training neural networks by utilizing many smaller neural networks, rather than one big network.Neural networks used in this thesis are iteratively re-trained on a progressively larger dataset and then used to form a tree hierarchy.Various learnings from previous research done in the field are applied to accelerate the development of the neural network model to achieve satisfactory results before proceeding with the main experiments.
During the training process, a modified loss function with a filter is applied to guide the neural network to achieve better classifications for the given samples.The filter is applied by adding an extra layer of neurons after the softmax layer, which is then discarded after the training process is finished.Weights of the extra layer have been manually modified to transfer the results of the softmax layer directly to the extra layer.As the goal of this process is to create better classifications, the resulting network is discarded at the end of the process.Better classifications are used as the basis for the clustering of the dataset used in the thesis.
The iterative re-training takes these better classifications, and uses them in the training process as more and more of the dataset is processed.Finally, the networks are assembled to form a tree, chaining clusters together to distribute the dataset into smaller fragments.Both iterative re-training and the neural network tree are attempted in combination.Additionally, a control group not using iterative re-training is being attempted as well.
Results of the thesis show that iterative re-training has some effect on the size and quality of the original data clusters, assuming one tunes the parameters of the networks appropriately.Through the trees generated by using iterative re-training, success is shown by comparing several audio samples that were grouped to same and different tree nodes.Modification of the loss function is shown to have little effect, but the entire process shows clear increase in quality over the alternatives.