Minimizing the Effect of Client Timing Out in Federated Learning Using Federated Dynamic Timeout Window
Abstract
En av de største nedsidene med vanlig maskinlæring (ML) er at det blir utført sentralt. Dette impliserer at klienter må sende personlig og muligens privat data til en sentral server hvor en modell blir generert. En metode for å unngå denne begrensningen er Federated Learning (FL), en distribuert maskinslæringsrammeverk som tillater klientene å trene modellen lokalt uten å sende deres private data til den globale serveren. FL har mange fordeler, slik som å trene skreddersydde modeller til hver enkelt klient imens man ivaretar personvernet for data. Likevel så kommer det med noen utfordringer også. En av disse utfordringene omhandler problemet med at klienter bruker for lang tid. Når klienter bruker for lang tid under treningssteget kan det føre til forverring av nøyaktigheten og gjøre nettverket ineffektivt mtp. både tidsbruk og ressurser brukt. Dette skjer ettersom den globale serveren ikke mottar alle modell-oppdateringene og kan føre til partiskhet rettet mot de suksessfulle klientene som sendte inn oppdateringene. I tillegg, det kan hende at den globale serveren må vente veldig lenge i håp om at de trege klientene plutselig sender inn oppdatering. Noe som gjør at en enkelt kommunikasjonsrunde tar unødvendig lang tid imens alle de andre klientene og serveren venter på den tregeste. Denne avhandlingen forsøker å svare på spørsmålet "Hvordan kan vi forbedre suksessraten til kommunikasjonsrundene og minimere effekten av ekstremverdiene til trege klienter i Federated Learning med uavhengig og identisk fordelt data?". Forskningsspørsmålet ble svart på gjennom å ta i bruk et Design Science Research (DSR) rammeverk for å designe og implementere en konseptbevis-algoritme for å dynamisk sette et tidsavbruddsvindu for hver kommunikasjonsrunde i FL. Denne nyskapende algoritmen, Federated Dynamic Timeout Window (FedDyt), ble testet og evaluert gjennom to klassifiserings-eksperiment. Det første eksperimentet var klassifisering av håndskrevne tall med MNIST datasettet, mens det andre var klassifisering av bilder med CIFAR-10 datasettet. Resultatet av eksperimentene viste at FedDyt forbedret ytelsen både mtp. suksess raten til kommunikasjonsrunden og effektiviteten til FL-nettverket da det eksisterte ekstremverdier bland de trege klientene. I tillegg har FedDyt fordelen av å kunne implementeres sammen med andre FL implementasjoner og strategier. Noe som tilrettelegger for at fremtidig arbeid kan implementere den ved siden av deres løsning og justere den til deres applikasjon, eller til å finne et passende tidsavbruddsvindu. One of the main limitations of ordinary Machine Learning (ML) is that it is executed centrally. This implies that clients must send personal and possibly private data to a central server where a model will be created. One approach to circumvent this limitation is Federated Learning (FL), a distributed machine learning framework that enables clients to train a model locally without sending their private data to a global server. FL has several advantages, such as training models that are tailored to each client while maintaining data privacy. However, it does come with some challenges. One of these challenges is the issue of clients timing out. When clients time out during the training stage, it may lead to accuracy degradation and inefficiency in terms of both time and resources spent. This is because the global server will not receive all model updates from the clients and might result in biases towards the ones who successfully send in their updates. Furthermore, the global server might wait a really long time in the hope that the timed-out client might send the update. Client timing out makes a single communication round unnecessarily long as all the other clients and the server wait for that one client. This thesis tried to answer the question, "How can we improve the communication success rate and minimize slow client outlier's impact on learning efficiency in Federated Learning with Independent and Identically Distributed data?". The research question was answered by utilizing a Design Science Research (DSR) framework to design and implement a proof-of-concept algorithm for dynamically setting the timeout window for each communication round of FL. This novel algorithm, FedDyt, was tested and evaluated through two classification experiments. The first experiment was classifying handwritten digits with the MNIST dataset, and the second one was classifying images with the CIFAR-10 dataset. The results of the experiments showed that FedDyt improved performance both in terms of communication success rate and the efficiency of the FL network when slow client outliers were present. Also, FedDyt contained the benefit of subsiding alongside other \FL implementations and strategies. Making it possible for future work to implement it with their solutions and adjust it for their application, or to find an appropriate timeout window.