Missing Data An Introduction
Abstract
Grunnet hvor viktig dataanalyse er i mye menneskelig aktivitet, fra vitenskap til industri, så er metoder for å håndtere feil i data et viktig studiefelt. En slik feil er såkalt ''missing data''. Denne oppgaven gir leseren et overblikk over feltet ''missing data''. I oppgaven blir beskrives ''missingness''-mekanismer og hvordan de kan påvirker inferens. Imputasjon evalueres og konkluderes med å være en statistisk valid metode for å håndtere ''missing data'' i kontekst av disse ''missingness''-mekanismene. Flere vanlige og intuitive imputasjonsmetoder slik some Complete Case Analyse og Mean Imputasjon analyseres. Bevis fra teori og litteratur blir presentert og leder til konklusjonen om at Multippel Imputasjon (MI) er den overlegne metoden. Likevel blir dette motsagt av eksperimentale resultat, noe som tilsier at det trengs ytterligere studie for å oppdage kilden til denne uoverenstemmelsen. Because of the centrality of data analysis in many human endeavors from science to industry, methods of dealing with faults and errors in data are an important area of study. One such error is the problem of missing data. This thesis provides the reader with a comprehensive introduction to the field of missing data. It describes the concept of missingness mechanisms and how they might impact inference. Imputation is evaluated and found to be a statistically valid technique for addressing missing data in the context of these missingness mechanisms. Various common and intuitive imputation methods such as Complete Case Analysis and Mean Imputation are analysed. Evidence from theory and literature is presented and lead to the conclusion that Multiple Imputation (MI) is the superior method. However, this is contradicted by experimental results, suggesting further study is required to uncover the source of this disagreement.