Exact inference conditioned on the selection event

Næss, Fanny Øverbø

dc.contributor.advisor	Bakke, Øyvind
dc.contributor.author	Næss, Fanny Øverbø
dc.date.accessioned	2024-09-03T17:21:38Z
dc.date.available	2024-09-03T17:21:38Z
dc.date.issued	2024
dc.identifier	no.ntnu:inspera:187375737:47642364
dc.identifier.uri	https://hdl.handle.net/11250/3149995
dc.description.abstract	Klassiske statistiske verktøy for inferens bygger på antagelsen om at modellene som tilpasses og hypotesene som testes er forhåndsspesifiserte. I praksis er det vanlig at en modell velges ved å inkludere de forklaringsvariablene som har en observert sterk sammenheng med responsvariabelen. For å utføre gyldig inferens etter modellseleksjon på samme datasett, er det nødvendig å tilpasse utregningen av p-verdier og konfidensintervaller slik at det stokastiske aspektet av hendelsene som har ført til valget av den gitte modellen tas hensyn til. I denne oppgaven utforsker vi et rammeverk for gyldig inferens etter modellseleksjon basert på betinging på polyhedrale seleksjonshendelser. Denne tilnærmingen tillater bruk av det samme datasettet til modellseleksjon og tilhørende inferens. Metoden er på lukket form, og gir eksakte p-verdier og konfidensintervaller ved normalfordelte residualer. Vi introduserer det nødvendige teoretiske grunnlaget for å bruke polyedermetoden, og utleder seleksjonsjusterte p-verdier og konfidensintervaller for regresjonskoeffisienter i lineære modeller. En nødvendig forutsetning for polyedermetoden er at modellseleksjonsprosedyren som har blitt utført kan formuleres i sin helhet som en statistisk hendelse på polyederform. Variabelseleksjonsmetodene forlengs stegvis seleksjon med fiksert antall steg og lasso med fiksert lambda oppfyller dette kriteriet. Vi utleder generelle metoder for konstruksjon av polyhedrale seleksjonshendelser for forlengs seleksjon og lasso. For å klargjøre anvendelsen av polyedermetoden for gyldig inferens etter seleksjon ved disse metodene implementerer vi egen kode i R og presenterer eksempler på resulterende seleksjonsjusterte konfidensintervaller. Vi generaliserer også metoden ved å ekskludere betinging på observert fortegnsmønster, noe som resulterer i kortere konfidensintervaller med samme dekningssannsynlighet.
dc.description.abstract	Classical statistical inference tools rely on the assumption that the models and hypotheses to be tested are specified prior to data exploration. It is common practice to choose a model by inclusion of the variables that are observed to have a strong association with the response variable. In order to perform valid inference after model selection has been carried out on the same dataset, the calculation of p-values and confidence intervals must be adjusted in order to account for the stochastic aspect of the events leading to the selection of the particular model. In this thesis we explore a framework for post-selection inference based on conditioning on polyhedral selection events. This approach allows us to use the same dataset for model selection and corresponding inferences. The method is in closed form, and yields exact p-values and confidence intervals in the case of Gaussian errors. We introduce the necessary theoretical foundation for the polyhedral inference method, and derive selection adjusted p-values and confidence intervals for coefficients in the multiple linear regression model. A central criterion of the polyhedral method is that the model selection procedure that has been carried out can be formulated in its entirety as a polyhedral statistical event. Forward stepwise selection with a fixed number of steps and the lasso, when used as a model selector with fixed lambda, fulfill this criteria. We derive the general schemes for construction of polyhedral selection events for forward selection and the lasso. In order to clarify the applications of the polyhedral method for inference after model selection by these selection procedures, we implement the methods in R and present examples of the resulting selection adjusted confidence intervals. We expand the method by omitting the conditioning on the observed sign pattern, resulting in shorter confidence intervals with the same coverage probability.
dc.language	eng
dc.publisher	NTNU
dc.title	Exact inference conditioned on the selection event
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:187375737:4764 ...
Størrelse:: 8.767Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for matematiske fag [2527]

Vis enkel innførsel