Applications of Data-Driven Equation Discovery to Synthetic and Experimental Data
Abstract
Fysikkbasert modellering kan være svært nøyaktig og oversiktlig, men krever omfattende kunnskap om dynamikken i systemet man ønsker å modellere. Datadrevne metoder kan i stedet basere seg på observasjonsdata og ikke kunn-skap, men mangler ofte oversiktlighet og generaliserbarhet ettersom de ofte kan betraktes som svarte bokser med lite informasjon om hva som foregår mellom input og output. Ved å bruke symbolsk regresjon kan systemdynamikken modelleres i form av ligninger og dermed reduseres noen av disse begrensningene typisk for datadrevne metoder.
Den ene delen av denne oppgaven er en simulator for todimensjonale varme-ligninger som brukes til å lage syntetisk data med varierbart støynivå. Denne brukes til å demonstrere hvordan ligninger kan finnes fra data, hvor støysensitive disse metodene er og hvordan principal component analysis (PCA) kan benyttes for å redusere støy. Den andre delen er et praktisk eksperiment som består av en aluminiumsplate med et varmeelement og et IR-kamera som måler temperaturutviklingen i denne platen. Målet med denne delen er å anvende kunnskapen fra forsøkene med syntetisk data til et faktisk eksempel med ekte måledata og se på utfordringene dette medfører.
Både LASSO og den evolusjonære algoritmen gene expression programming (GEP) klarte å finne en todimensjonal varmeligning fra kun data. Disse data-drevne metodene er støysensitive, men de fungerte også for mer støyfull data ved å benytte PCA for å filtrere bort støy ved hjelp av dimensjonalitetsreduksjon. De datadrevne metodene klarte ikke å hente ut varmeledningsdynamikken for aluminiumsplaten, men fant i stedet en mer generell ligning som fanget opp den totale kjølende effekten fra omgivelsene. En hybridmetode hvor GEP benyttes for å korrigere for en upresis fysikkbasert modell forbedret nøyaktigheten sammenlignet med å bare bruke den fysikkbaserte modellen. Ingen betydelig forbedring ble funnet for det praktiske forsøket med aluminiumsplaten ved å bruke en hybridmodell, trolig grunnet relativt store mengder støy. Physics-based modeling can be highly accurate and interpretable, but requires accurate knowledge of the system dynamics desired to model. Data-driven methods can rely on observational data instead of knowledge, but often suffer from low interpretability and generalizability due to their typical black-box nature. By using symbolic or sparse regression for equation discovery, the system dynamics can be modeled in the form of an expression and thereby reduce some of the limitations associated with data-driven methods.
This research consists of two main elements that will be studied in parallel throughout this thesis. One of them is a two-dimensional heat conduction simulator to create synthetic data with an adjustable noise factor with the purpose of demonstrating the concept of equation discovery, how noise-sensitive these methods are, and how the impact of noise can be reduced with principal component analysis (PCA). The other part is a practical experiment consisting of an aluminum plate with a heating element and a low-cost IR camera to measure the temperature evolution in this plate. The purpose of this part is to apply the knowledge from the synthetic experiments to a more relevant industrial use case and to study the challenges of extending the methodology tested on synthetic data to real measurement data.
A two-dimensional heat equation was successfully recovered from data by using the sparse regression technique LASSO or by using the evolutionary algorithm gene expression programming (GEP) for symbolic regression. These data-driven methods are susceptible to noise, but can still be efficient for noisier data when combined with the dimensionality-reduction method PCA for denoising. When using a data-driven approach for describing heat evolution in the aluminum plate, heat conduction dynamics could not be extracted directly as only a more general expression capturing the overall cooling effect could be found, likely due to the large amount of noise from the low-cost IR camera. A hybrid approach based on an inaccurate physics-based model and using GEP to correct for the error could be used to improve performance for simulated data compared to a purely physics-based approach. No significant improvement was seen for the experimental set-up with this approach, probably due to noise.