Riemannian Optimization for Deep Learning
Abstract
Sentrale konsepter og strukturer i riemannsk optimering presenteres og diskuteres for å gi en uavhengig behandling av Riemannian gradient descent-metoden (RGD). Egenskaper ved RGD diskuteres og sammenliknes med de av euklidsk gradient descent, som RGD er en generalisering av.
Mulige anvendelser av riemannsk optimering og RGD i feltet dyp læring diskuteres, samt nødvendige hensyn man må ta i implementering av disse. Enkle beregningseksperimenter for demonstrasjon gjøres med RGD for lav rang matrise-mangfoldigheten og den ortogonale gruppen til et CIFAR-10 bildeklassifiseringsproblem og et recurrent neural network problem med lange tidsavhengigheter. Central concepts and structures of Riemannian optimization are presented and discussed to give a self-contained treatment of the Riemannian gradient descent method (RGD). Properties of RGD are discussed and compared with those of euclidean gradient descent, which RGD is a generalization of.
Possible applications of Riemannian optimization and RGD in the field of deep learning are discussed along with considerations one must make in implementations of such methods. Proof-of-concept computational experiments are made using RGD for the fixed-rank matrix manifold and the orthogonal group on CIFAR-10 image classification and a long time-dependence recurrent neural network problem.