Linear Regression for Survey Data

Matre, Andreas

Matre, Andreas

Bachelor thesis

Åpne

no.ntnu:inspera:56982622:24252901.pdf (6.836Mb)

Permanent lenke

https://hdl.handle.net/11250/2980250

Utgivelsesdato

2020

Metadata

Vis full innførsel

Samlinger

Institutt for matematiske fag [2527]

Sammendrag

Denne bacheloroppgaven er en del av emnet MA2002 på NTNU, som er 15

studiepoeng over ett semester.

I denne oppgaven diskuterer vi hvordan man gjør linear regresjon når et

komplekst utvalgsdesign er brukt for å samle inn dataene. Vi bruker et annet

paradigme enn i klassisk regresjon hvor vi antar en uendelig populasjon og at

hver observerte verdi er tilfeldig. Her aksepterer vi istedenfor at populasjonen

er endelig og antar at hver respons er fastsatt og det tilfeldige kommer fra

hvilke individer som er med i utvalget. De største problemene er å ta hensyn

til de forskjellige utvalgsdesignene for å unngå bias i resultatene, samt

feil variansestimater.

Vi skal gå gjennom tre ulike utvalgsteknikker: Den første utvalgsteknikken vi

ser på er en SRS. Her velger man først størrelsen på utvalget. Så lar man

hvert mulige utvalg, med den valgte størrelsen av populasjonen, ha samme sannsynlighet

for å bli valgt. En SRS har fordelen at alle individer i utvalget er

uavhengige.

Den andre utvalgsteknikken vi ser på er stratifisering. Her deler vi

populasjonen i en partisjon og gjør et uavhengig utvalg fra hver delmengde.

Dette gjør at vi kan lage uavhengige regresjonslinjer for hver delmengde.

Den tredje utvalgsmetoden vi ser på er klyngeutvalg. Her deler vi igjen

populasjonen inn i en partisjon, men istedenfor å gjøre et utvalg fra alle

delmengdene gjør vi bare et utvalg fra noen av dem, valgt ved å gjøre

et utvalg av delmengdene. Klyngeutvalg er brukt for å redusere kostnadene ved å

gjøre utvalg. Ofte er delmengdene geografiske områder, som betyr at å bare

gjøre utvalg innen noen delmengder sparer reisetid. Når man utfører store

undersøkelser er ofte disse metodene kombinert til det som kalles en kompleks

undersøkelse. For eksempel gjør man ofte først stratifisering på hele populasjonen,

og så bruker man klyngeutvalg innen hver delmengde.

Hvis individene innen delmengdene i stratifisering er like så vil

stratifisering redusere usikkerheten i estimatene sammenlignet med en SRS av

samme størrelse. Ved klyngeutvalg, derimot, vil vi som regel få større

usikkerheter i estimatene ettersom individene inne i delmengdene ofte er mer

like enn individer på tvers av delmengdene. Dette gjør at utvalget inneholder

mindre informasjon om populasjonen enn et ikke-klusteret utvalg. Dette fører

til at hypotesetester angående regresjonslinjen for lavere styrke og at

prediksjonsintervallene blir større. Det at

regresjonskoeffisientene er ikke-lineære uttrykk gjør at variansestimasjon er

komplisert. Vi viser derfor en approksimasjonsmetode som heter linearisering.

This Bachelor's thesis is submitted for the course MA2002 at NTNU which is 15

credits over one semester.

In this thesis we discuss how to do linear regression when the data is

collected using a complex sampling design. We use a different paradigm from

classical regression, where we assume an infinite population and that the

response observed for each individual is random. Here, we instead acknowledge

that the population is finite and assume the value of each individual is fixed

and the randomness arises from which individuals are included in the sample. The

major issues are accounting for different sampling designs to prevent bias and

incorrect uncertainty estimates.

We explain three different sampling techniques: the first sampling technique

we look at is a Simple Random Sample. First, we

choose the size of the sample. Then we let each possible subset of

the population, of that sample size, have the same probability of being chosen as

the sample. A Simple Random Sample has the advantage that all the sampled

units are independent.

The second sampling technique we look at is stratification. Here we split the

population into a partition and sample independently from each subset. This

allows us to get independent regression lines from each subset. The third

sampling technique we look at is clustering. Here we again split

the population into a partition, but instead of sampling from all subsets of

the partition we instead sample only from some of the subsets, chosen by

taking a sample of the subsets. Clustering is used

to reduce costs when doing surveys. Often the clusters are geographical areas,

which means that sampling only inside some subsets allow us to save

travel time. When performing large surveys, these techniques are usually combined into what

is called a complex survey. For example, by first doing stratification on the

whole population and then using clustering inside each subset.

If the sampling units inside the strata are similar, then stratification will reduce

the uncertainty compared to a SRS of the same size. With clustering, however, we usually get

larger uncertainty, as units inside clusters are usually more similar than

units across clusters. This causes the sample to carry less information than a

non clustered sample. This leads to hypothesis tests regarding the regression

line having less power and the prediction intervals to become larger. The non-linear

nature of the regression coefficients means that estimating their variance

becomes complicated. We therefore show an approximation technique called linearization.

Utgiver

NTNU