Cylindrical hidden Markov random field models with applications to ocean surface currents
Abstract
Observasjoner av overflatestrømmer i havet gir opphav til romlige sylindriske data, som er bivariate representasjoner av en lineær styrke og en sirkulær vinkel. For å kunne analysere disse dataene utvikler vi en skjult Markov tilfeldig feltmodell. Modellen segmenterer det romlige domenet i latente klasser, med strukturen til en Potts modell. Hver klasse definerer en sylindrisk tetthet som representerer et spesifikt sirkulasjonsmønster. Klassene bestemmer mønstrene ved å tilføre et sett fikserte parametere til de sylindriske tetthetene. Vi vurderer to ulike sylindriske fordelinger, Weibull sine-skewed von Mises fordelingen med mulighet for skjevhet i den sirkulære delen, og generalized Pareto-type wrapped Cauchy fordelingen med mulighet for tunge haler i den lineære delen. På denne måten er modellen i stand til å redegjøre for forskjellige typiske trekk i sylindriske data, slik som sirkulær-lineær avhengighet, multimodalitet, skjevhet og tunge haler.
Fordi modellens likelihood funksjon er for krevende å beregne, er det behov for tilnærminger for å estimere modellparametrene. Vi vurderer to tilnærminger til en sammensatt likelihood funksjon. Først ser vi på par av observasjoner som komponenter i likelihood funksjonen. Denne metoden reduseres til en forventnings-maksimeringsalgoritme som er enkel å implementere og fungerer iterativt ved først å predikere sannsynligheten for de latente klassene og deretter maksimere den sammensatte likelihood funksjonen basert på disse sannsynlighetene. Den andre metoden betrakter større blokker av observasjoner og beregner den eksakte likelihood funksjonen for hver blokk ved hjelp av en romlig utvidelse av forward--backward algoritmen for skjulte Markov-modeller. En simuleringsstudie indikerer at førstnevnte metode har et større konvergensområde, mens sistnevnte halverer beregningstiden. Basert på resultatene utvikler vi en hybrid algoritme som kombinerer det store konvergensområdet til forventnings-maksimaliseringsalgoritmen med beregningseffektiviteten til blokk likelihood algoritmen.
Vi benytter den hybride algoritmen for å studere overflatestrømmer to steder i Norskehavet. I begge tilfeller er modellen i stand til å bryte strømningene ned i tolkbare lokale regimer. For å kunne sammenligne egnetheten til de to sylindriske tetthetene for hvert datasett, benytter vi såkalte "scoring rules". Resultatene indikerer at begge tetthetene kan være nyttige for det første datasettet, mens det andre datasettet ikke viser tegn til tunge haler. Observations of ocean surface currents are represented by direction vectors and give rise to spatial cylindrical data, which are bivariate representations of a linear magnitude and a circular angle. To analyse such data we develop a hidden Markov random field model. The model segments the spatial domain into latent classes, with the structure of a Potts model. Each class defines a cylindrical density that represents a specific circulation pattern, or state of the ocean. The classes decide the patterns by supplying a set of fixed parameters to the cylindrical densities. We consider two types of cylindrical distributions, the Weibull sine-skewed von Mises distribution, which is skewed in the circular part, and the generalized Pareto-type wrapped Cauchy distribution, which is heavy-tailed in the linear part. In this way, the model can parsimoniously account for various commonly observed features in cylindrical data, such as circular-linear dependence, multimodality, skewness, and heavy-tailedness.
Because the likelihood function of the model is computationally unfeasible, approximations are needed to estimate the model parameters. Hence, we consider two approaches towards forming a composite-likelihood. First, we regard pairs of observations as components of the likelihood. This method reduces to an expectation-maximization algorithm that is simple to implement and works iteratively by first predicting the probability of the latent classes and then maximizing the composite-likelihood based on these probabilities. The second method regards larger blocks of observations and computes the exact likelihood of each block by a spatial extension of the forward--backward algorithm for hidden Markov models. The properties of the two methods are investigated in a simulation study, indicating that the former has a larger area of convergence, whereas the latter approximately halves the computation time. Based on the results, we develop a hybrid algorithm that combines the large area of convergence of the expectation-maximization algorithm with the computational efficiency of the block-likelihood.
We employ the hybrid algorithm to study ocean surface currents at two locations in the Norwegian Sea. In both cases, the model is able to describe the currents in terms of interpretable local regimes. We apply scoring rules to measure how well the two cylindrical densities match the two data sets. Results indicate that both densities have merit for the first data set, whereas the second does not display heavy tails.