Adjusting FEC for Real-Time Video Communication Using Reinforcement Learning

Bugge, Volrath Robinson

dc.contributor.advisor	Rossi, Pierluigi Salvo
dc.contributor.advisor	Håkonsen, Greg
dc.contributor.author	Bugge, Volrath Robinson
dc.date.accessioned	2021-10-15T17:20:32Z
dc.date.available	2021-10-15T17:20:32Z
dc.date.issued	2021
dc.identifier	no.ntnu:inspera:77039769:45159948
dc.identifier.uri	https://hdl.handle.net/11250/2823432
dc.description	Full text not available
dc.description.abstract	Teknologien har gjort store fremskritt og høyoppløselige dataskjermer har blitt forbruker standarden, er det en økende etterspørsel etter videotjenester av høy kvalitet. Dette behovet er vanskelig å oppfylle for et videokonferansesystem som har stramme tidsfrister. Videokonferanser er svært sårbare for pakketap, da dette kan forårsake betydelig degenerasjon av video-kvaliteten. FEC på pakkenivå brukes vanligvis for å holde den effektivt opplevde pakketapet på et minimum. Dette fører imidlertid høyere dataforbruk og treghet. Med tanke på at nettverket allerede er under stress, bør FEC-raten holdes under kontroll og justeres etter nettverkets oppførsel. Dette motiverer bruken av en intelligent kontrollmekanisme opptrent med forsterkende lærings algoritme. Hovedmålet med denne oppgaven er å undersøke mulige med å bruke forsterkende læring til å kontrollere beskyttelsesgraden for et videokonferanse-scenario. Spesielt vurderer vi bruken av en modell-fri Double Deep Q-Learning-agent. Hensikten med å tilby en agent arkitektur er å danne et inspirerende rammeverk som skal dannet et grunnlag for fremtidig arbeid. Vi eksperimenterer med flere forskjellige agenter basert på Double Deep Q-Learning-algoritmen som ble introdusert av Google DeepMind i 2015. Agentene er utstyrt med et belønnings-mål uttrykt ved at godput og båndbredde vektes mot hverandre. Agentene testes mot to separate nettverks-miljøer med økende nivåer av kompleksitet. Det grunnleggende pakketapet er simulert med en modell som ligner en kontinuerlig kontinuerlig tilstandsrom variant av en Hidden Markov-modell, som gjenspeiler en kvasi-statisk nettverks adferd. I det mer komplekse miljøet vurderes og håndteres rammetyper av videostrømmer separat av miljøet. Resultatene viser at agentene justerer beskyttelses hastighetene etter endring i nettverks-karakteristikken, noe som resulterer i en høyere poengsum enn bruk statiske FEC-rate. Videre, i det mer komplekse miljøet, utfører agenten ulik pakke beskyttelse for I- og P-bildene. Agentene utfører omtrent på samme nivå som ved statiske FEC-rate når tapskorrelasjonsvinduet reduseres til nær 32 pakker. Resultatene av de implementerte agentene er oppløftende; agentene lykkes med sine mål som er å justere pakke beskyttelsen. De utfører også bedre enn statiske FEC beskyttelse. Vi må likevel ta i forbehold alle begrensningene som stammer i fra de forenklede simuleringen. I fremtiden bør det av den grunn settes av flere ressurser for en mer realistisk nettverks-simulator. Vi konkluderer likevel med grunnet de lovende resultatene, bør metodene utforsket i denne masteroppgaven vurderes i fremtidige undersøkelser. Nøkkelord: Adaptive FEC-koder, Videokonferanse, QoE, Dyp Forsterkende Læring, Double Deep Q-Learning.
dc.description.abstract	As technology has made great strides and high-resolution computer monitors have become the consumer standard, there is an increasing demand for high-quality video services. This demand is tough to fulfill for a videoconferencing system that has tight deadlines. Videoconferencing is highly vulnerable to packet loss as this can cause substantial degeneration and artifacts of the perceived video and audio. Packet-level protection schemes are usually applied to keep the effective packet loss at a minimum. However, this comes at the cost of additional latency and bandwidth usage. As the underlying networks are already under stress, the protection rates should be kept under tight control and adjust after the network's behavior; this motivates the use of an intelligent Reinforcement Learning based control mechanism. The primary objective of this thesis is to investigate the possible use of Reinforcement Learning in controlling the protection rates in a videoconferencing scenario. In particular, we consider the use of a model-free Double Deep Q-Learning agent. The intention of providing an agent architecture is to form an inspirational framework serving as the basis for future work. We experiment with several different agents based on the Double Deep Q-Learning algorithm first introduced by Google DeepMind in 2015. The agents are equipped with a reward metric expressed as a linear combination of goodput and bandwidth usage, where the latter metric constitutes a negative penalty term. The agents are tested against two separate network environments with increasing levels of complexity. The basic packet loss is simulated with a model resembling a continuous state space variant of the Hidden Markov Model, reflecting a quasi-static network behavior. In the more complex environment, frame types of video streams are considered and handled separately by the environment. The results show that the agents adjust the protection rates after the changing channels, resulting in a higher score than static FEC rates. Moreover, in the more complex environment, the agent performs unequal packet protection for the I and P-frames. The agents perform near the same level as static FEC-rates when the loss-correlation window is reduced to near 32-packets. The results of the implemented agents are uplifting; the agents succeed with their objective of adjusting the packet protection, performing better than static FEC rates for time-correlated packet loss. Readers should, however, be aware of the limitations of the results due to simplification of the simulated environments, suggesting the use of a more accurate network-simulator tool in the future. However, based on the promising results, the methodology used within this thesis should at least be considered in future investigations. Keywords: Adaptive FEC codes, Videoconferencing, QoE, Deep Reinforcement Learning, Double Deep Q-Learning.
dc.language	eng
dc.publisher	NTNU
dc.title	Adjusting FEC for Real-Time Video Communication Using Reinforcement Learning
dc.type	Master thesis

Tilhørende fil(er)

Filer	Størrelse	Format	Vis

Denne innførselen finnes i følgende samling(er)

Institutt for elektroniske systemer [2334]

Vis enkel innførsel