Objective inference for correlation
Abstract
Denne masteroppgaven tar for seg problemstillingen om å hente mest mulig informasjon om korrelasjonen i en binormal fordeling basert på observerte punkter i planet. Forventningsverdiene og variansene er antatt kjente. Til tross for denne tilsynelatende forenklingen, er den kjent for å gi komplikasjoner.
Oppgaven er en videreføring av prosjektoppgaven som gikk ut på å finne de beste metodene for å estimere korrelasjonen. Masteroppgaven utvider dette temaet ved å i tillegg se på metoder for å beregne usikkerheten. Usikkerheten blir først og fremst uttrykt ved hjelp av såkalte konfidensfordelinger. Bayesianske, og frequentistiske metoder blir brukt til både estimeringen av korrelasjonen og usikkerheten. Fiduse metoder blir også brukt til å utrykke usikkerhet. For å sammenligne metoder og estimatorer vil tap- og riskfunksjoner bli brukt, deriblant kvadrattap, Fisher information metric og Kullback-Leibler divergens. De Bayesianske metodene er basert på objektive priorfordelinger som uniform, Jeffreys, penalized complexity (PC) og arcsine prior. For usikkerhetsberegning er en ekstra prior tatt i bruk, her navngitt som arctanh prior. De fiduse metodene er basert på generalisert fidus inferens.
Analysen for å estimere korrelasjonen viser at Bayesianske estimatorer kan gi bedre resultater enn frekventististe estimatorer som MLE og empirisk korrelasjon ved små datasett. Ut av dem, står posterior gjennomsnitt med uniform prior som en god kandidat.
For usikkerhetsmål vil ikke posteriorfordelingene har tilstrekkelig frekventistisk dekning og kan ikke brukes for små datasett. Den eksakte konfidensfordelingen gitt i Teorem 3.2 er den mest konsistente fordelingen og er derfor anbefalt.
Flere av nøkkelresultatene i oppgaven er som følger:1. Posterior median minimerer forventet Fisher information metric, og Posterior gjennomsnitt minimerer forventet Kullback-Leibler divergens2. En rekke konfidensfordelinger kan bli beregnet ved hjelp av pivoter gitt i ligning (32) og mer generelt ligning (38)3. Fremgangsmåter for å lage konfidensfordelinger ved hjelp av pivotaler og data genererende funksjoner i tilfeller hvor en direkte invertering ikke ermulig This master thesis considers inference of the correlation in a binormal distribution based on observed points in the plane. The means and variances are assumed known. Despite this seemingly simplification, it is well known to give complications.
The thesis is an continuation of the project report which focused on finding the best methods for estimating the correlation. It expands this topic by introducing methods for quantifying the uncertainty. The uncertainty will first and foremost be expressed in terms of so called confidence distributions. Bayesian and frequentist methods will be used in both estimation of the correlation and uncertainty. Fiducial methods will be used for expressing the uncertainty. To compare methods and estimators, loss and risk functions will be used, including squared error, Fisher information metric and Kullback-Leibler divergence. The Bayesian methods are based on objective prior distributoins such as uniform, Jeffreys, penalized complexity (PC) and arcsine prior. For uncertainty, an additional prior is used, which will be referred to as the arctanh prior. The fiducial methods are based on generalized fiducial inference.
The analysis of the point estimators shows that the Bayesian estimators can outperform the frequentist estimators such as the MLE and empirical correlation, for small data sizes. Out of the estimators, the posterior mean using the uniform prior stands out as a good candidate.
For the uncertainty quantification, none of the posterior distributions will have sufficient frequentistic coverage. The exact confidence distribution here given in theorem 3.2 performs the most consistently and is therefore recommended. The thesis introduces a general and a specific methods for creating confidence distributions using pivotal quantities.
Multiple key results in this thesis is as follows:1. Posterior median minimizes expected Fisher Information Metric and posterior mean minimizes expected Kullback-Liebler divergence.2. A collection of confidence distributions can be calculated using the pivots in equation (32) and more generally equation (38).3. A Procedure for creating confidence distributions using pivots and data generating function in cases where a direct inversion is not possible.