Reinforcement Learning for Mobile Network Optimization
Master thesis
Permanent lenke
https://hdl.handle.net/11250/3104659Utgivelsesdato
2023Metadata
Vis full innførselSamlinger
Sammendrag
Denne oppgaven bruker forsterkningslæring (RL) for å optimalisere ytelsen til mobilnettverket. Hovedfokuset er å optimalisere ytelsen til overleveringsprosessen (Handover) og algoritmene sine. Overleveringen er når en basestasjon (BS) bestemmer om en tilkoblet bruker skal overleveres til en annen BS mens brukeren beveger seg for å motta den beste signalstyrken og -kvaliteten. Overleveringsalgoritmene som brukes er A2A4 RSRQ og A3 RSRP. Soft actor-critic (SAC) RL-algoritmen har blitt brukt i mange eksperimenter og analysert for å optimere overleveringsytelsen, maksimere den totale datagjennomstrømningen, signalkvaliteten og signaleffekten som mottas av alle brukere, og minimere overleveringer som mulig. Ytelsen til SAC sammenlignes med ytelsen til Twin Delayed Deep Deterministic (TD3) RL-algoritmen for å evaluere hvilken som gir den beste optimaliseringen. Begge RL-algoritmene brukes for kontinuerlig observasjoner og handlingsroms miljøer. Mobilnettverket, som inkluderer noen basestasjoner og brukere, simuleres ved hjelp av ns-3-simulatoren siden det er svært komplisert å bruke forskningen og evaluere ytelsen på nettverk i den virkelige verden. Strukturen i kommunikasjonskanalene mellom RL-agenten og simulatoren er også forklart i denne oppgaven. Flere relaterte forskningsartikler er oppsummert og diskutert. En bakgrunnsforklaring av de grunnleggende ideene og teknologiene som brukes er også lagt til. Etter å ha brukt forskjellige eksperimenter med forskjellige oppsett, ble mange interessante resultater samlet. Hvert eksperiment fokuserte på et unikt perspektiv og hadde sitt unike mål. Resultatene viste at begge RL-algoritmene kunne forbedre den totale datagjennomstrømningen, signalkvaliteten og signalstyrken, men TD3 viste en raskere oppførsel enn SAC. Både TD3- og SAC-algoritmer viste en adaptiv oppførsel avhengig av det simulerte nettverksscenarioet, men SAC kunne ikke tilpasse seg nettverksendringene i alle eksperimenter. I tillegg viste A2A4 RSRQ-overleveringsalgoritmen andre og mer fornuftige resultater enn A3-algoritmen i forskjellige eksperimenter. Forbedringene i A2A4-algoritmen var tydelige i nesten alle eksperimenter, mens A3 ikke ble forbedret i alle eksperimenter. This thesis uses reinforcement learning (RL) to optimize mobile network performance. The main focus is to optimize the performance of the handover process and its algorithms. The handover is where a base station (BS) decides if a connected user should be handed over to another BS while the user is moving to receive the best signal power and quality. The handover algorithms used are A2A4 RSRQ and A3 RSRP. The Soft actor-critic (SAC) RL algorithm has been used in many experiments and analyzed to optimize the handover performance, maximize the total data throughput, signal quality, and signal power received by all users, and minimize the number of handovers as possible. The performance of SAC is compared to the performance of the Twin Delayed Deep Deterministic (TD3) RL algorithm to evaluate which provides the best optimization. Both RL algorithms are used for continuous state and action spaces' environments. The mobile network, which includes some base stations and users, is simulated using the ns-3 simulator since it is very complex to apply the research and evaluate the performance on real-world networks. The structure of the communication channels between the RL agent and the simulator is also explained in this thesis. Several related research articles are summarised and discussed. A background explanation of the basic ideas and technologies used is added too. After applying different experiments using different setups, many interesting results were collected. Each experiment focused on a different perspective and had its unique goal. The results showed that both RL algorithms could improve the total data throughput, signal quality, and signal power, but TD3 showed a faster behavior than SAC. Both TD3 and SAC algorithms showed an adaptive behavior depending on the simulated network scenario, but SAC couldn't adapt to the network changes in all experiments. In addition, the A2A4 RSRQ handover algorithm showed different and more reasonable results than the A3 algorithm in different experiments. The improvements in the A2A4 algorithm were obvious in almost all experiments, while A3 was not improved in all experiments.