dc.contributor.advisor | Fuglstad, Geir-Arne | |
dc.contributor.author | Matre, Andreas | |
dc.date.accessioned | 2022-02-18T18:24:13Z | |
dc.date.available | 2022-02-18T18:24:13Z | |
dc.date.issued | 2020 | |
dc.identifier | no.ntnu:inspera:56982622:24252901 | |
dc.identifier.uri | https://hdl.handle.net/11250/2980250 | |
dc.description.abstract | Denne bacheloroppgaven er en del av emnet MA2002 på NTNU, som er 15
studiepoeng over ett semester.
I denne oppgaven diskuterer vi hvordan man gjør linear regresjon når et
komplekst utvalgsdesign er brukt for å samle inn dataene. Vi bruker et annet
paradigme enn i klassisk regresjon hvor vi antar en uendelig populasjon og at
hver observerte verdi er tilfeldig. Her aksepterer vi istedenfor at populasjonen
er endelig og antar at hver respons er fastsatt og det tilfeldige kommer fra
hvilke individer som er med i utvalget. De største problemene er å ta hensyn
til de forskjellige utvalgsdesignene for å unngå bias i resultatene, samt
feil variansestimater.
Vi skal gå gjennom tre ulike utvalgsteknikker: Den første utvalgsteknikken vi
ser på er en SRS. Her velger man først størrelsen på utvalget. Så lar man
hvert mulige utvalg, med den valgte størrelsen av populasjonen, ha samme sannsynlighet
for å bli valgt. En SRS har fordelen at alle individer i utvalget er
uavhengige.
Den andre utvalgsteknikken vi ser på er stratifisering. Her deler vi
populasjonen i en partisjon og gjør et uavhengig utvalg fra hver delmengde.
Dette gjør at vi kan lage uavhengige regresjonslinjer for hver delmengde.
Den tredje utvalgsmetoden vi ser på er klyngeutvalg. Her deler vi igjen
populasjonen inn i en partisjon, men istedenfor å gjøre et utvalg fra alle
delmengdene gjør vi bare et utvalg fra noen av dem, valgt ved å gjøre
et utvalg av delmengdene. Klyngeutvalg er brukt for å redusere kostnadene ved å
gjøre utvalg. Ofte er delmengdene geografiske områder, som betyr at å bare
gjøre utvalg innen noen delmengder sparer reisetid. Når man utfører store
undersøkelser er ofte disse metodene kombinert til det som kalles en kompleks
undersøkelse. For eksempel gjør man ofte først stratifisering på hele populasjonen,
og så bruker man klyngeutvalg innen hver delmengde.
Hvis individene innen delmengdene i stratifisering er like så vil
stratifisering redusere usikkerheten i estimatene sammenlignet med en SRS av
samme størrelse. Ved klyngeutvalg, derimot, vil vi som regel få større
usikkerheter i estimatene ettersom individene inne i delmengdene ofte er mer
like enn individer på tvers av delmengdene. Dette gjør at utvalget inneholder
mindre informasjon om populasjonen enn et ikke-klusteret utvalg. Dette fører
til at hypotesetester angående regresjonslinjen for lavere styrke og at
prediksjonsintervallene blir større. Det at
regresjonskoeffisientene er ikke-lineære uttrykk gjør at variansestimasjon er
komplisert. Vi viser derfor en approksimasjonsmetode som heter linearisering. | |
dc.description.abstract | This Bachelor's thesis is submitted for the course MA2002 at NTNU which is 15
credits over one semester.
In this thesis we discuss how to do linear regression when the data is
collected using a complex sampling design. We use a different paradigm from
classical regression, where we assume an infinite population and that the
response observed for each individual is random. Here, we instead acknowledge
that the population is finite and assume the value of each individual is fixed
and the randomness arises from which individuals are included in the sample. The
major issues are accounting for different sampling designs to prevent bias and
incorrect uncertainty estimates.
We explain three different sampling techniques: the first sampling technique
we look at is a Simple Random Sample. First, we
choose the size of the sample. Then we let each possible subset of
the population, of that sample size, have the same probability of being chosen as
the sample. A Simple Random Sample has the advantage that all the sampled
units are independent.
The second sampling technique we look at is stratification. Here we split the
population into a partition and sample independently from each subset. This
allows us to get independent regression lines from each subset. The third
sampling technique we look at is clustering. Here we again split
the population into a partition, but instead of sampling from all subsets of
the partition we instead sample only from some of the subsets, chosen by
taking a sample of the subsets. Clustering is used
to reduce costs when doing surveys. Often the clusters are geographical areas,
which means that sampling only inside some subsets allow us to save
travel time. When performing large surveys, these techniques are usually combined into what
is called a complex survey. For example, by first doing stratification on the
whole population and then using clustering inside each subset.
If the sampling units inside the strata are similar, then stratification will reduce
the uncertainty compared to a SRS of the same size. With clustering, however, we usually get
larger uncertainty, as units inside clusters are usually more similar than
units across clusters. This causes the sample to carry less information than a
non clustered sample. This leads to hypothesis tests regarding the regression
line having less power and the prediction intervals to become larger. The non-linear
nature of the regression coefficients means that estimating their variance
becomes complicated. We therefore show an approximation technique called linearization. | |
dc.language | | |
dc.publisher | NTNU | |
dc.title | Linear Regression for Survey Data | |
dc.type | Bachelor thesis | |