Linear Regression for Survey Data
Bachelor thesis
Permanent lenke
https://hdl.handle.net/11250/2980250Utgivelsesdato
2020Metadata
Vis full innførselSamlinger
Sammendrag
Denne bacheloroppgaven er en del av emnet MA2002 på NTNU, som er 15studiepoeng over ett semester.
I denne oppgaven diskuterer vi hvordan man gjør linear regresjon når etkomplekst utvalgsdesign er brukt for å samle inn dataene. Vi bruker et annetparadigme enn i klassisk regresjon hvor vi antar en uendelig populasjon og athver observerte verdi er tilfeldig. Her aksepterer vi istedenfor at populasjonener endelig og antar at hver respons er fastsatt og det tilfeldige kommer frahvilke individer som er med i utvalget. De største problemene er å ta hensyntil de forskjellige utvalgsdesignene for å unngå bias i resultatene, samtfeil variansestimater.
Vi skal gå gjennom tre ulike utvalgsteknikker: Den første utvalgsteknikken viser på er en SRS. Her velger man først størrelsen på utvalget. Så lar manhvert mulige utvalg, med den valgte størrelsen av populasjonen, ha samme sannsynlighetfor å bli valgt. En SRS har fordelen at alle individer i utvalget eruavhengige.Den andre utvalgsteknikken vi ser på er stratifisering. Her deler vipopulasjonen i en partisjon og gjør et uavhengig utvalg fra hver delmengde.Dette gjør at vi kan lage uavhengige regresjonslinjer for hver delmengde.Den tredje utvalgsmetoden vi ser på er klyngeutvalg. Her deler vi igjenpopulasjonen inn i en partisjon, men istedenfor å gjøre et utvalg fra alledelmengdene gjør vi bare et utvalg fra noen av dem, valgt ved å gjøreet utvalg av delmengdene. Klyngeutvalg er brukt for å redusere kostnadene ved ågjøre utvalg. Ofte er delmengdene geografiske områder, som betyr at å baregjøre utvalg innen noen delmengder sparer reisetid. Når man utfører storeundersøkelser er ofte disse metodene kombinert til det som kalles en kompleksundersøkelse. For eksempel gjør man ofte først stratifisering på hele populasjonen,og så bruker man klyngeutvalg innen hver delmengde.
Hvis individene innen delmengdene i stratifisering er like så vilstratifisering redusere usikkerheten i estimatene sammenlignet med en SRS avsamme størrelse. Ved klyngeutvalg, derimot, vil vi som regel få størreusikkerheter i estimatene ettersom individene inne i delmengdene ofte er merlike enn individer på tvers av delmengdene. Dette gjør at utvalget inneholdermindre informasjon om populasjonen enn et ikke-klusteret utvalg. Dette førertil at hypotesetester angående regresjonslinjen for lavere styrke og atprediksjonsintervallene blir større. Det atregresjonskoeffisientene er ikke-lineære uttrykk gjør at variansestimasjon erkomplisert. Vi viser derfor en approksimasjonsmetode som heter linearisering. This Bachelor's thesis is submitted for the course MA2002 at NTNU which is 15credits over one semester.
In this thesis we discuss how to do linear regression when the data iscollected using a complex sampling design. We use a different paradigm fromclassical regression, where we assume an infinite population and that theresponse observed for each individual is random. Here, we instead acknowledgethat the population is finite and assume the value of each individual is fixedand the randomness arises from which individuals are included in the sample. Themajor issues are accounting for different sampling designs to prevent bias andincorrect uncertainty estimates.
We explain three different sampling techniques: the first sampling techniquewe look at is a Simple Random Sample. First, wechoose the size of the sample. Then we let each possible subset ofthe population, of that sample size, have the same probability of being chosen asthe sample. A Simple Random Sample has the advantage that all the sampledunits are independent.The second sampling technique we look at is stratification. Here we split thepopulation into a partition and sample independently from each subset. Thisallows us to get independent regression lines from each subset. The thirdsampling technique we look at is clustering. Here we again splitthe population into a partition, but instead of sampling from all subsets ofthe partition we instead sample only from some of the subsets, chosen bytaking a sample of the subsets. Clustering is usedto reduce costs when doing surveys. Often the clusters are geographical areas,which means that sampling only inside some subsets allow us to save travel time. When performing large surveys, these techniques are usually combined into whatis called a complex survey. For example, by first doing stratification on thewhole population and then using clustering inside each subset.
If the sampling units inside the strata are similar, then stratification will reducethe uncertainty compared to a SRS of the same size. With clustering, however, we usually getlarger uncertainty, as units inside clusters are usually more similar thanunits across clusters. This causes the sample to carry less information than anon clustered sample. This leads to hypothesis tests regarding the regressionline having less power and the prediction intervals to become larger. The non-linearnature of the regression coefficients means that estimating their variancebecomes complicated. We therefore show an approximation technique called linearization.