Vis enkel innførsel

dc.contributor.advisorGravdahl, Jan Tommy
dc.contributor.advisorRasheed, Adil
dc.contributor.advisorHalvorsen, Ivar
dc.contributor.authorLundby, Erlend Torje Berg
dc.date.accessioned2023-06-19T08:55:05Z
dc.date.available2023-06-19T08:55:05Z
dc.date.issued2023
dc.identifier.isbn978-82-326-7113-7
dc.identifier.issn2703-8084
dc.identifier.urihttps://hdl.handle.net/11250/3072002
dc.description.abstractData-driven modeling has experienced an enormous increase in popularity recent years due to the ever-growing data abundance, access to cheap computational resources and great advances in algorithms and methodology. This has lead to great accomplishments done by Machine Learning (ML) models within a range of domains. This extraordinary success has not gone unnoticed within different process industries. Motivated by the potential to improve efficiency, reduce energy consumption, prevent severe incidents, costly downtime and more, stakeholders in the industries are now looking to the ML community for solutions. However, unlike a range of the successful showcases of data-driven modeling approaches, process industries typically struggle with challenges of using ML models due to limited access to informative data. Moreover, the safety critical nature of most industrial processes put additional requirements on models’ ability to generalize to the broader operational window, as well as knowledge about when the models fail. This does in general not coincide with highly complex ML models, which typically requires vast data to generalize, as well as suffering from low interpretability, challenging the trustworthiness of these types of models when applied in dynamical processes. This thesis presents a set of approaches utilizing Data-Driven Models (DDMs) of dynamical processes under the constraint of limited data. A novel hybrid modeling approach, combining Physics Based Models (PBMs) and compressed sensing was developed and utilized to estimate unmodeled dynamics in a measured signal sampled at low frequency in an aluminum electrolysis simulator. Subtracting the PBM estimate from the measurements leaves us with a manipulated coarsely sampled signal representing unmodeled dynamics. This manipulation enables the powerful tool of compressed sensing, which can now estimate the unmodeled dynamics from measurements sampled at a much lower frequency than what the Shannon-Nyquist theorem requires. Another hybrid modeling approach presented in this thesis combines PBMs with Neural Networks. The NN is used to correct the modeling errors of a PBM by adding a corrective source term to the set of governing Ordinary Differental Equations (ODEs) known as the PBM. The method combines the best of both modeling approaches, while eliminating some of their weaknesses. That is, the resulting hybrid modeling approach keeps the interpretability of the PBM and correct for its error using the NN. Moreover, the PBM simplifies complexity of the learning problem for the NN, leading to a reduced need for data. The modeling approach is showcased on a set of high dimensional ODEs representing the mass and energy balance of the aluminum electrolysis. Moreover, a purely data-driven modeling approach was used in another work of this PhD. The effect of sparsity promoting ℓ1 regularization on the generalizability, interpretability, and training stability when modeling a high dimensional set of ODEs was studied and compared to a densely connected NN. The results show that the ℓ1 regularization significantly reduces the complexity of the model, making the model more interpretable. Moreover, the results show that the sparse NN generalizes better, and yield more stable convergence under the constraints of limited access to training data. Building on this work, we introduce skip-connections to a NN for modeling high-dimensional nonlinear dynamics. The combination of sparsity promoting regularization and skip-connections significantly improves model accuracy and predictive stability for models trained on limited data. The case studies in both works were conducted on a set of high-dimensional ODEs representing the aluminum electrolysis. Finally, the problem of maximizing the information content inherent in the training set was addressed. The goal was to excite the system dynamics to obtain the most informative data for training Deep Neural Networks (DNNs). We present a novel framework that samples a set of simulated informative state-action trajectories distributed around the state-action space. This enables utilizing a novel static Batch Mode Deep Active Learning (BMDAL) acquisition formulation to choose the most informative regions in the state-action space in which to exite the system dynamics. The case study show that the proposed method can outperform state-of the- art random based sampling methods in terms of providing training data such that DNNs faster converges to acceptable model performaces in terms of accuracy and generalization. The work in this thesis has contributed with methodology that addresses some challenges related to limitation of data which prevents the use of DDMs in process industries that could potentially be highly beneficial. However, a wide range of challenges still needs to be addressed, related to noise and disturbances, low observability as well as safety concerns.en_US
dc.description.abstractSammendrag Datadrevet modellering får stadig mer oppmerksomhet som følge av tilgang på økende mengde data og billige databehandlingsressurser, samt store fremskritt innen algoritmer of metodikk. Dette har ført til at maskinlæringsmodeller har løst en rekke kompliserte modelleringsproblem innen ulike domener. Denne suksessen har fått oppmerksomhet blant flere prosessindustrier, som nå ser på muligheten til å bruke maskinlæring for å blant annet øke produksjonsrater, redusere energiforbruk, forutse og dermed unngå alvorlighe hendelser i produksjon og dyrbar nedetid og så videre. Prosessindustrien møter imidlertid store utfordringer knyttet til sikkerhetskritiske aspekter samt manglede tilgang på data. Avanserte maskinlæringsmodeller trenger typisk mye data for å kunne generalizere, samtidig som de som regler er vansklige å tolke på grunn av deres kompleksitet. Kombinasjonen av disse faktorene kompliserer bruken av maskinlæringsmodeller i prosessindustrien. Denne avhandlingen presenterer en rekke bidrag med datadrevne modeller som på ulike vis addresserer utfordringer knyttet til å modelere dynamiske prosesser med begrenset tilgang på data. En ny hybrid modell som kombinerer en fysikkbasert modell med compressed sensing kan estimere periodisk, stasjonær umodellert dynamikk i et signal som er målt ved svært lave frekvenser. I casestudiet ble det brukt en enkel simuleringsmodell av aluminumselektrolysen, og det målte signalet var metallhøyden av smeltet aluminum i elektrolysecellen. En annen hybrid modell presentert i avhandlingen bruker et neuralt nettverk til å rette opp modelleringsfeilen til en fysikkbasert modell. Den resulterende hybride modellen kombinerer det beste av begge modellene samtidig som den eliminerer noen av ulempene de bærer. Det vil si, den hybride modellen beholder tolkbarheten til den fysikkbaserte modellen, samtidig som det neurale nettverket reduserer modellfeilen i den fysikkbaserte modellen. Det neurale nettverket trenes på manipulert data, det vil si residualet mellom målinger fra prosessen og fysikkbaserte estimater av målingene. Dette reduserer kompleksiteten i læringsproblemet og fører til at det kreves mindre data for å oppnå gode datadrevne modeller. Casestudiet ble utført på et sett av høydimensjonelle ordinære differensiallikninger (ODE’er) som representerer masse-, og energibalansen i aluminumselektrolysen. I tillegg til å bruke hybride modeller for å løse utfordringer knyttet til manglende data presenterer denne avhandlingen også rene datadrevne tilnærminger. Effekten av den kompleksitetsreduserende ℓ1 regulariseringen på neurale nettverks evne til å generalisere, samt nettverkens treningsstabilitet og tolkbarhet ble analysert i et av bidragene. Resultatene av casestudiet viste at ℓ1 regulariserte nettverk oppnådde bedre generaliseringsevner, samt mer stabil treningskonvergens sammenliknet med nettverk trent uten denne regulariseringen. Videre gjorde den reduserte kompleksiteten at tolkbarheten til modellene økte. Casestudien ble utført på samme høydimensjonelle set av ODE’er som i sistnevnte hybride modell. I det påfølgende arbeidet som bygger på disse resultatene så introduserte vi skip-connections til modellstrukturen for å modellere det samme dynamiske systemet. Det viste seg i casestudien at modeller med skip-connections som trenes med ℓ1 regularisering oppådde økt modellnøyaktighet, samt prediktiv stabilitet for modeller trent med begrensede mengder data. Det sise bidraget i denne avhanlingen tar for seg informasjonsinnholdet i treningsdataen. Målet er å eksitere et dynamisk system på en slik måte at man får mest mulig informasjon ut av det eksiterte dynamiske systemet. Dette gjør man for å sample data som skal brukes til å trene neurale nettverk. Vi presenterer et nytt rammeverk basert på active learning. Først sampler man et sett av simulerte, informative state-action baner fordelt rundt om i tilstandsrommet. Dette muliggjør å utnytte en ny statisk aktiv læringsformulering som søker finne de mest informative områdene i tilstandstommet for så å eksitere systemet i disse områdene. Resultatene viser at active learning metoden kan utkonkurrere de beste eksitasjonsmetodene basert på tilfeldig eksitasjon. Arbeidet i denne avhandlingen har bidratt med metodikk som addreserer noen av utfordringene knyttet til manglende treningsdata som vanskligjør bruken av datadrevne modeller i prosessindustri. Det er imidlertid en rekke utfordinger som ikke er addressert, knyttet til målestøy, prosessforstyrrelser, lav observerbarhet samt sikkerhetskritiske aspekter.en_US
dc.language.isoengen_US
dc.publisherNTNUen_US
dc.relation.ispartofseriesDoctoral theses at NTNU;2023:206
dc.titleData-Driven Dynamical Modeling in the Face of Data Limitationsen_US
dc.typeDoctoral thesisen_US
dc.subject.nsiVDP::Technology: 500::Information and communication technology: 550::Technical cybernetics: 553en_US


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel