Deep Reinforcement Learning for Supporting Ambulance Dispatch Decisions
Master thesis
Permanent lenke
https://hdl.handle.net/11250/3092542Utgivelsesdato
2023Metadata
Vis full innførselSamlinger
Sammendrag
Denne master avhandlingen utforsker bruken av forsterkningslæring og \acrfull{ppo} til ambulanseutsendelse-problemet, som et mulig beslutningsstøtteverktøy for Akutt medisin sentralen (AMK) i Oslo og Akershus, Oslo Universitets Sykehus (OUS).Ambulanseutsendelse-problemet er forskjellig fra et typisk ruteproblem (\acrfull{vrp}) siden pasienter (mål lokalasjoner) er stokastisk (ikke kjent på forhånd), som gjør at problemet er vanskelig å løse. I tilegg så strever AMK-sentralen med optimal ressursutnyttelse, kjapp responstid, og gode arbeidsforhold samtidig som at de opplever en økning i etterspørsel. For å løse dette problemet blir det det bygd en simuleringsmodell skrevet i Python, kombinert med \acrfull{osm}-reisetidsberegning og enkel syntetisk hendelses data generering. Hendelses-prioritet og kø blir også tatt i betraktning. Resultatene viser at \acrshort{ppo}-modellen presterer bedre enn heuristiske retningslinjer, som å sende den nærmeste ambulansen basert på Haversine- eller euklidsk avstand. Dette gjelder både for syntetisk og virkelig hendelsesdata. Det kreves derimot mer arbeid for at \acrshort{rl} kan brukes som et beslutningsstøtteverktøy. This master thesis explores the usage of \acrfull{rl} and \acrfull{ppo} to the ambulance dispatching problem as a possible decision support tool for the \acrfull{ems} in Oslo and Akershus municipality, \acrfull{ouh}. The ambulance dispatching problem differs from a typical \acrfull{vrp} since patients (target locations) arrive stochastically (not known ahead of time), which makes the problem hard to solve. Furthermore, the \acrshort{ems} strives for optimal resource utilization, rapid response time, and good working conditions while at the same time experiencing an increase in demand. To solve this problem, a simulation model written in Python combined with \acrfull{osm} travel time estimation and simple synthetic incident data generation is implemented. Incident priority and incident queue are also put under consideration. Results show that the \acrshort{ppo} model outperforms heuristic policies such as dispatching the closest ambulance by Haversine or Euclidean distance. Both when considering synthetic and real incident data. On the other hand, more work is needed for \acrshort{rl} to be used as a decision support tool.