Linear Regression for Survey Data

Matre, Andreas

dc.contributor.advisor	Fuglstad, Geir-Arne
dc.contributor.author	Matre, Andreas
dc.date.accessioned	2022-02-18T18:24:13Z
dc.date.available	2022-02-18T18:24:13Z
dc.date.issued	2020
dc.identifier	no.ntnu:inspera:56982622:24252901
dc.identifier.uri	https://hdl.handle.net/11250/2980250
dc.description.abstract	Denne bacheloroppgaven er en del av emnet MA2002 på NTNU, som er 15 studiepoeng over ett semester. I denne oppgaven diskuterer vi hvordan man gjør linear regresjon når et komplekst utvalgsdesign er brukt for å samle inn dataene. Vi bruker et annet paradigme enn i klassisk regresjon hvor vi antar en uendelig populasjon og at hver observerte verdi er tilfeldig. Her aksepterer vi istedenfor at populasjonen er endelig og antar at hver respons er fastsatt og det tilfeldige kommer fra hvilke individer som er med i utvalget. De største problemene er å ta hensyn til de forskjellige utvalgsdesignene for å unngå bias i resultatene, samt feil variansestimater. Vi skal gå gjennom tre ulike utvalgsteknikker: Den første utvalgsteknikken vi ser på er en SRS. Her velger man først størrelsen på utvalget. Så lar man hvert mulige utvalg, med den valgte størrelsen av populasjonen, ha samme sannsynlighet for å bli valgt. En SRS har fordelen at alle individer i utvalget er uavhengige. Den andre utvalgsteknikken vi ser på er stratifisering. Her deler vi populasjonen i en partisjon og gjør et uavhengig utvalg fra hver delmengde. Dette gjør at vi kan lage uavhengige regresjonslinjer for hver delmengde. Den tredje utvalgsmetoden vi ser på er klyngeutvalg. Her deler vi igjen populasjonen inn i en partisjon, men istedenfor å gjøre et utvalg fra alle delmengdene gjør vi bare et utvalg fra noen av dem, valgt ved å gjøre et utvalg av delmengdene. Klyngeutvalg er brukt for å redusere kostnadene ved å gjøre utvalg. Ofte er delmengdene geografiske områder, som betyr at å bare gjøre utvalg innen noen delmengder sparer reisetid. Når man utfører store undersøkelser er ofte disse metodene kombinert til det som kalles en kompleks undersøkelse. For eksempel gjør man ofte først stratifisering på hele populasjonen, og så bruker man klyngeutvalg innen hver delmengde. Hvis individene innen delmengdene i stratifisering er like så vil stratifisering redusere usikkerheten i estimatene sammenlignet med en SRS av samme størrelse. Ved klyngeutvalg, derimot, vil vi som regel få større usikkerheter i estimatene ettersom individene inne i delmengdene ofte er mer like enn individer på tvers av delmengdene. Dette gjør at utvalget inneholder mindre informasjon om populasjonen enn et ikke-klusteret utvalg. Dette fører til at hypotesetester angående regresjonslinjen for lavere styrke og at prediksjonsintervallene blir større. Det at regresjonskoeffisientene er ikke-lineære uttrykk gjør at variansestimasjon er komplisert. Vi viser derfor en approksimasjonsmetode som heter linearisering.
dc.description.abstract	This Bachelor's thesis is submitted for the course MA2002 at NTNU which is 15 credits over one semester. In this thesis we discuss how to do linear regression when the data is collected using a complex sampling design. We use a different paradigm from classical regression, where we assume an infinite population and that the response observed for each individual is random. Here, we instead acknowledge that the population is finite and assume the value of each individual is fixed and the randomness arises from which individuals are included in the sample. The major issues are accounting for different sampling designs to prevent bias and incorrect uncertainty estimates. We explain three different sampling techniques: the first sampling technique we look at is a Simple Random Sample. First, we choose the size of the sample. Then we let each possible subset of the population, of that sample size, have the same probability of being chosen as the sample. A Simple Random Sample has the advantage that all the sampled units are independent. The second sampling technique we look at is stratification. Here we split the population into a partition and sample independently from each subset. This allows us to get independent regression lines from each subset. The third sampling technique we look at is clustering. Here we again split the population into a partition, but instead of sampling from all subsets of the partition we instead sample only from some of the subsets, chosen by taking a sample of the subsets. Clustering is used to reduce costs when doing surveys. Often the clusters are geographical areas, which means that sampling only inside some subsets allow us to save travel time. When performing large surveys, these techniques are usually combined into what is called a complex survey. For example, by first doing stratification on the whole population and then using clustering inside each subset. If the sampling units inside the strata are similar, then stratification will reduce the uncertainty compared to a SRS of the same size. With clustering, however, we usually get larger uncertainty, as units inside clusters are usually more similar than units across clusters. This causes the sample to carry less information than a non clustered sample. This leads to hypothesis tests regarding the regression line having less power and the prediction intervals to become larger. The non-linear nature of the regression coefficients means that estimating their variance becomes complicated. We therefore show an approximation technique called linearization.
dc.language
dc.publisher	NTNU
dc.title	Linear Regression for Survey Data
dc.type	Bachelor thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:56982622:24252 ...
Størrelse:: 6.836Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for matematiske fag [2527]

Vis enkel innførsel