Employing Machine Learning for solvent development in the CO2 capture industry
Description
Full text not available
Abstract
Motivasjonen bak denne forskningen var å dypere forstå maskinlæring (ML) algoritmer og metoder, spesielt med hensyn til manglende data, med mål om å kartlegge ønskede egenskaper og strukturer i aminløsningsmidler, brukt i CO2 fangende teknologi, ved å analysere kvantitative struktur-aktivitet forhold (QSAR) modeller. Regresjon- og klassifikasjons modeller ble evaluert for fire egenskaper av interesse, nemlig, pKa, CO2-opptak ved 40°C, med syklisk kapasitet på 40-80°C, og til slutt, biologisk nedbrytning (BOD28), den eneste kategoriske egenskapen.
Manglende data innenfor datasettet var en betraktelig mengde, og siden det inneholder en betraktelig mengde av eksperimentelle resultater, var feil innen datasettet allerede til stede. I noen tilfeller, hadde spesifikke aminløsningsmidler flerfoldige datapunkter gjennomført under like forhold. En gruppe-spesifikk justering ble lagd, for å bytte ut et enkelt datapunkt for hver unike aminløsningsmidler. SMILES koder, korresponderte til strukturen av aminløsningsmidler, var brukt innenfor en åpen-kilde python verktøy for kjem informatikk, for å anskaffe struktur-baserte beskrivelser, som eksempelvis antall atomer og antall obligasjoner.
Gaussian prosesser (GP) var ML algoritmen i hovedfokus, grunnet godt arbeid med små datasett. For å finne best mulige sett med beskrivelser som modell input, ble tre funksjonsvalgteknikker vurdert, i.e., forward selection, SelectKBest, og den genetiske algoritmen. Forward selection utmerket seg, mest sannsynlig på grunn av å være den eneste metoden inkorporert med Leave One Out Cross-Validation (LOOCV), da det var relativt simpelt å konstruere fra bunnen av. LOOCV bidro til å imøtekomme for begrenset data tilgjengelig, mens de sistnevnte metodene var innebyggede og brukt tradisjonelt fem-fold CV.
For hver egenskap, var best modell prestasjon oppnådd gjennom bruk av GP med forward selection og LOOCV. For pKa, CO2 opptak, og syklisk kapasitet, var modeller med en R-squared på rundt 0.8 oppnådd. For den kategoriske bionedbrytning egenskapen, ble en nøyaktighet score på over 90% oppnådd, når to likt fordelte kategorier ble brukt. Tre kategorier ga utilfredsstillende resultater, sannsynligvis grunnet ujevn fordeling av data.
Angående beskrivelser, dukket det opp lett forklarlige, som eksempelvis fr_piperdine og fr_piperzine, som angir frekvensen av piperdine og piperzine ringer. Imidlertid var det vanligvis relativt komplekse beskrivelser, som eksempelvis PEOE_VSA og SlogP_VSA, som er ment til å fange opp direkte elektrostatiske interaksjoner, så vel som hydrofobiske og hydrofile effekter.
QSAR modellering viser stort potensial da den kan forutsi diverse egenskaper av interesse, for mulige nye aminløsningsmidler alternativer, og ved å gjøre det, kan en forminske tidskrevende eksperimenter, og bidra til en mer bærekraftig framtid. Derimot, har modellene en liten ulempe når det kommer til klare tolkninger. The motivation of this research was to better understand machine learning (ML) algorithms and methods, especially with regards to lack of data, with the aim of mapping desirable traits and structures in amine solvents, used in CO2 capture technology, by analysing quantitative structure–activity relationship (QSAR) models. Regression and classification models were evaluated for four properties of interest, namely, pKa, CO2 loading at 40°C, cyclic capacity at 40-80°C, and finally, biodegradation (BOD28), the only categorical property.
Missing data within the dataset was of considerable amount, and due to containing a great deal of experimental results, error within the dataset was already present. In some cases, specific amines had multiple datapoints conducted under similar conditions. A group-specific adjustment was made, to yield a single datapoint for each unique amine. SMILES codes, corresponding to the structure of the amines, were used within an open-source python toolkit for cheminformatics, to acquire structural-based descriptors, such as number of atoms and bond count.
Gaussian processes (GP) was the ML algorithm of main focus, due to working well with small datasets. To find optimal sets of descriptors as model input, three feature selection techniques were assessed, i.e. forward selection, SelectKBest, and the genetic algorithm. Forward selection excelled, most likely due to being the only method incorporated with Leave One Out Cross-Validation (LOOCV), as is was relatively simple to construct from scratch. LOOCV helped accommodate for the limited data at hand, whereas the latter two methods were inbuilt, and used traditional five-fold CV.
For each property, best model performance was obtained using GP with forward selection and LOOCV. For pKa, CO2 loading, and cyclic capacity, models with an R-squared of around 0.8 were achieved. For the categorical biodegradation property, an accuracy score of over 90% was reached, when two evenly split categories were used. Three categories yielded unsatisfactory results, likely due to unevenly distributed data.
Regarding descriptors, easily explainable ones did appear, such as fr_piperdine and fr_piperzine, that denote the frequency of piperdine and piperzine rings. More common though were quite complex descriptors, such as PEOE_VSA and SlogP_VSA, that are intended to capture direct electrostatic interactions, as well as hydrophobic and hydrophilic effects.
QSAR modelling does show great potential in being able to predict various properties of interest, for possible new amine solvent alternatives, and by doing so, cut down on time-consuming experiments, contributing to a more sustainable future. However, the models have a slight disadvantage when it comes to clear interpretation.