Vis enkel innførsel

dc.contributor.advisorMengshoel, Ole Jakob
dc.contributor.advisorCevolani, Lorenzo
dc.contributor.advisorChandra, Arjun
dc.contributor.authorHåland, André
dc.contributor.authorBirkeland, Bjørnar
dc.date.accessioned2021-09-15T16:09:52Z
dc.date.available2021-09-15T16:09:52Z
dc.date.issued2020
dc.identifierno.ntnu:inspera:57320302:34464967
dc.identifier.urihttps://hdl.handle.net/11250/2777740
dc.description.abstractDen stadig økende størrelsen på datasett har gjort det mulig for dype nevrale nettverk å utføre mange vanskelige oppgaver. Samtidig har enda større modeller vist seg å forbedre ytelsen til dype nevrale nettverk. Derimot har den enorme mengden datainnsamling med større modeller ført til at treningen har blitt uoverkommelig beregningsdyktig for en enkelt arbeider. Som sådan blir treningen parallellisert over flere arbeidere. Gjennom et litteraturstudie finner vi at tidligere arbeid hovedsakelig fokuserer på modellen, dens hyperparametre og kommunikasjonsmetoden når det skaleres til et stort antall arbeidere. Vi finner også at det, etter vår kunnskap, ikke eksisterer noen undersøkelse av hvordan datamengden tilgjengelig for hver enkelt arbeider påvirker nøyaktigheten. I denne oppgaven undersøker vi derfor effektene av forskjellige datafordelingstrategier når vi trener dype nevrale nettverk ved bruk av data parallelisme. Vi finner ingen signifikant forskjell i nøyaktighet mellom datamengden tilgjengelig for hver enkelt arbeider når vi synkroniserer i hvert steg. Når vi reduserer antall kommunikasjonsrunder, finner vi imidlertid at tildeling av overlappende data kan forbedre nøyaktigheten når partistørrelse/læringsrate forholdet er forskjøvet til en viss grad, sammenlignet med å tildele ikke-overlappende data.
dc.description.abstractThe ever increasing sizes of datasets have allowed deep neural networks to excel in many difficult tasks. In addition, even bigger models have proven to improve the performance of deep neural networks. However, the huge amount of data in combination with bigger models have resulted in the training process becoming prohibitively computationally expensive for a single worker. As such, the training process is parallelized across several workers. Through a literature review, we find that previous work mainly focus on the model, its hyperparameters and the communication method when scaling to large number of workers. We also find that there, to the best of our knowledge, does not exist any study on how the amount of data available to each worker affects the final accuracy. Thus, in this thesis, we explore the effects of different data assignment schemes when training deep neural networks using data parallelism. We find that when training fully synchronous, there is no significant difference in final accuracy between the amount of data available to each worker. When reducing the number of communication rounds, however, we find that when the batch size/learning rate relationship is altered to a certain degree, assigning overlapping data can improve the final accuracy, compared to assigning non-overlapping data.
dc.language
dc.publisherNTNU
dc.titleExploring data assignment schemes when training deep neural networks using data parallelism
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel