Air Quality Prediction with Machine Learning
Abstract
I de senere år har luftkvalitet blitt et betydelig miljø- og helseproblem på grunn av rask urbanisering og industrialisering. På grunn av den påvirkning luftkvaliteten har på alles hverdag er nøyaktige observasjoner og prediksjoner av forurensing en viktig utfordring å løse. Det å forutsi luftkvaliteten er utfordrende med flere komplekse faktorer i et miljø i stadig endring.
Prosjektet er gjennomført i Trondheim, Norge og demonstrerer fordelene med maskinlæring for å forutse luftkvalitetes daglige mønster, og spesielt dens egenskap for å oppdage plutselige endringer med høyt forurensningsnivå. Dette studiet utforsker en løsning ved å bruke en tidsserie med flere variabler for å modellere forurensning av svevestøv (PM2.5 og PM10), i tillegg til nitrogendioksid (NO2) på tre målestasjoner for luftkvalitet. Forskningen fokuserer på å kombinere data over forurensende stoffer, meteorologisk data og trafikkdata sammen med en statistisk temporal-romslig teknikk for å gi luftkvalitetsprognoser for 24 og 48 timer fram i tid.
Omfattende analyse og eksperimenter av luftforurensning i sanntid illustrerer effektiviteten av maskinlæring for å forutsi luftforurensninger i form av generelt mønster og plutselige endringer. Resultatene uttrykker at Ensemble Learning kan forbedre stabiliteten og nøyaktigheten til å forutsi den generelle utviklingen i luftkvalitet betydelig. Blant flere er det Gradient Boosting som gir best resultater med lavest feilmargin. Ved forutsigelse av plutselige endringer i luftforurensning er det et Recurrent Neural Network som gir best nøyaktighet. Til slutt ble maskinlæringsresultatene sammenlignet med den nasjonale luftkvalitetstjenesten - en kunnskapsdrevet modell. Resultatene kunne da evalueres i praksis. Resultatene fra denne oppgaven viser seg å være overlegen i 24 timer, og med mer sammenlignbare resultater for 48-timers prognoser. Den data-drevne løsningen er dermed antatt å være et utmerket komplement til den kunnskapsdrevne modellen. In recent years, air quality has become a significant environmental health issue due to rapid urbanization and industrialization. Because of the impact air quality has on people’s everyday life, how to predict air quality precisely, has become an urgent and essential problem. Air quality prediction is a challenging problem with several complicated factors with additional dependencies among them.
We target our air prediction study to the city of Trondheim, Norway. The air quality in Trondheim is on average at a healthy level, but has periods of high variations of severe pollution, especially in the winter months. The study demonstrates the benefits of machine learning for predicting air pollutants general pattern, and to foresee sudden spikes of a high pollution level. This paper explores a multivariate time series approach to modeling and forecasting the pollution of PM2.5, PM10, and NO2 at three air quality stations. This study is concerned with combining data of pollutants, meteorological, and traffic data with statistical temporal-spatial feature engineering, to provide multi-step-ahead air quality forecasts for 24 and 48-hours.
Extensive experiments of real-time air pollution illustrate the effectiveness of machine learning to forecast air pollutions in terms of general pattern and sudden changes. Results express that ensemble techniques could significantly improve the stability and accuracy of predicting the general trend of air quality. Among the ensemble techniques, using gradient boosting with dropouts results in prediction errors with the lowest deviation. In the case of predicting sudden changes in air pollution, using a recurrent neural network with a memory unit results in the highest accuracy of classified spikes. Lastly, the machine learning results were compared with the national air quality service, a knowledge-driven model, to evaluate real-world practice. The predictions of general pattern and anomalies of this thesis are shown to be superior for 24-hour, and more comparable results for the 48-hour forecast. The data-driven approach is thus believed to be an excellent complement for the knowledge-driven model.