Nonlinear optimization for Hyperparameter computation in Gaussian Processes machine learning
Abstract
Målene til denne masteroppgaven er:1. Litteraturstudie på Gaussiske Prosesser (GP), Optimeringsteori og metoden avulineære konjugerte gradienter (NCG).2. Ny implementasjon av en GP-algoritme i programvare.3. Analyse av optimering av hyperparameter ved bruk av en NCG metode.4. Testcaser av GP implementasjonen og sammenligne ytelse med eksisterendedataprogramvare.Gaussiske Prosesser har vist stor potensiale i å kunne tolke høyst ulineære modeller medekstrem presisjon med lite tuning. To testcaser har blitt designet for å teste funksjonalitet i GPimplementasjonen. Den første er regresjon av en 1-dimensjonal sinus kurve med støy. Denandre er en 4-dimensjonal-robot manipulator modell med friksjon i leddene.Resultatene til første case har vist stor potensiale og er sammenlignbare med ytelse tilandre eksisterende implementasjoner. Kjøretiden var lav og skalerbar (26 sekunder for 1000kjøringer av optimaliseringsalgoritmen). Resultatene til den andre cases har gitt defekteresultater og viser at implementasjonen ikke er feilfri. Uansett sluttresultatet, så viser dettearbeidet at GP er et fantastisk verktøy i maskinlæringskassen. The goals of this thesis are:1. Literature study on Gaussian Processes (GP), Optimization theory, and NonlinearConjugate Gradient (NCG) method.2. Novel implementation of a GP algorithm in computer software.3. Analysis of hyperparameter optimization using the NCG methods.4. Case examples of the GP implementation and performance comparison to existingsoftware.Gaussian Process has showed great potential in ability to interpret highly non-linearmodels extremely well with minimal tuning. Two test cases have been designed to test thefunctionality of the GP implementation. The first one is a 1-dimensional sinusoidal waveregression with some noise. The second example is a 4-dimensional 2-link planar robotmanipulator arm model with friction in the joints.The results of first test case showed great potential and were comparable to theperformance of the existing software. The runtime of the implementation was low and wellscalable (26 seconds for 1000 runs of the optimization algorithm). The results of the secondtest case produced faulty results and point to problems in the implementation. Regardless ofthe final results, this thesis shows that Gaussian Processes is a great tool to have in the machinelearning toolbox.