The Social and Spiritual Situation in Lilleby – A Statistical Simulation Study with a Questionnaire Survey
Abstract
Oslo Monitor 1.0 ble publisert i januar 2018 av Tankesmien Skaperkraft. Rapporten beskriver den åndelige situasjonen, den sosiale smerten og de kulturelle utfordringene i Oslo. Data presentert i rapporten tildeles en sannsynlighetsfordeling med tilhørende parameterestimater. De definerte marginalfordelingene gir innsikt i den individuelle naturen til variablene. Vi ønsker å inkludere marginalfordelingene i en interaksjonsmodell slik at også samspillet mellom variablene kan beskrives. Interaksjonsmodellen utledes ved hjelp av copula-konseptet. Vi bruker en sekvensiell simuleringsalgoritme laget for kategoriske variabler med en binomisk eller multinomisk fordeling til å simulere en realisert befolkning av Lilleby. Biplot visualiserer den antatte avhengigheten mellom de inkluderte variablene i interaksjonsmodellen. Den realiserte Lilleby reflekterer marginalfordelingene fra Oslo Monitor 1.0 i tillegg til den antatte avhengigheten.
Innbyggerne i Lilleby deltar i en statistisk undersøkelse ved å svare på et spørreskjema. Spørreskjemaet sendes ut til et representativt og stratifisert utvalg av innbyggere. Ved en datainnsamling oppstår behovet for to hovedtyper korreksjon: Stratifisering og korreksjon av usikkerhet i svarene. Noen kjønn, aldersgrupper eller bydeler vil kunne være over- eller underrepresentert i utvalget som responderer på spørreskjemaet. Vi ønsker å gjenopprette et stratifisert respondentutvalg og dette gjøres ved at alle innsamlede spørreskjema vektes. Vektene bestemmes ved å løse det aktuelle minimeringsproblemet ved hjelp av Lagrange multiplikatorer. En rimelighetsmodell uttrykker det psykologiske aspektet som spiller inn når spørreskjemaer fylles ut. Vi ønsker å korrigere for usikkerheten som oppstår i svarene på grunn av dette. Derfor anvendes en posteriori-modell på de innsamlede spørreskjemaene. Respondentutvalget evalueres ved å se hvor sensitive de innsamlede spørreskjemaene er til korreksjon ved hjelp av stratifisering og korreksjon av potensielle usikkerheter i svarene. Dette gjøres ved å sammenligne fire ulike estimerte andeler. Usikkerhetskorreksjon er avgjørende for riktig sentrering av de estimerte andelene. Sentreringen kan forbedres ytterligere ved stratifisering, men på bekostning av større spredning. Den estimerte usikkerhetskorrigerte andelen kommer like godt ut som den estimerte andelen som både er stratifisert og usikkerhetskorrigert når deres RMSE sammenlignes. Ved å kun sammenligne sentreringen til disse to estimatene, presterer den stratifiserte og usikkerhetskorrigerte best. Korreksjon av respondentutvalget ved hjelp av stratifisering og korreksjon av potensielle usikkerheter i svarene synes å være effektive verktøy. De korrigerer for svarskjevheter og usikkerhet i svarene som oppstår i en statistisk undersøkelse hvor menneskers uforutsigbare atferd er involvert. Oslo Monitor 1.0 was released in January 2018 by The Think Tank Skaperkraft. The report accounts for the spiritual situation, social suffering and cultural challenges in Oslo. The data presented in the report are given a probability distribution with corresponding parameter estimates. The specified marginal distributions only provide insight concerning the individual nature of the variables. The goal is to include the marginal distributions in an interaction model to account for the interplay among the variables as well. The concept of copulas is introduced to derive the interaction model. From the interaction model a sequential simulation algorithm is developed for categorical variables with either a binomial or multinomial distribution. The algorithm generates a realization of the population in a city called Lilleby. Biplots visualize the dependence assumed between the variables included in the interaction model. The realized population of Lilleby reflects both the marginal distributions from Oslo Monitor 1.0 and the dependence assumed to exist.
The population of Lilleby participates in a statistical survey with questionnaires. The questionnaire is distributed to a representative and stratified sample of Lilleby residents. Data collection deals with two major types of correction: Stratification and bias correction. Stratification is enforced when the questionnaires are distributed. But some gender, age groups or districts might be over- or underrepresented in the responses and must be weighted to restore the stratification. The weights are set by solving the prevailing minimization problem by Lagrange multipliers. A likelihood model expresses the psychological aspects of answering a questionnaire, such as potential prejudices. We apply a posterior model to the responses to correct for bias from potential prejudices. The response sample is evaluated by its sensitivity to the stratification and bias correction by the comparison of proportion estimates. Bias correction has major impact on the centering of the proportion estimates. The centering can be further improved by stratification but on the expense of somewhat larger spread. The bias corrected proportion estimate compared to the stratified and bias corrected proportion estimate by their RMSE calls them even. Still, the stratified and bias corrected proportion estimate is centered closest to the true Lilleby proportion compared to the bias corrected proportion estimate. The stratification model and, especially, the bias correction model appear as effective tools to correct for skewness in a response sample and to deal with the bias caused by potential prejudices in a statistical survey including the subjectivity and unpredictable behaviour of humans.