dc.description.abstract | Denne rapporten presenterer en analyse av sensorreliabilitet ut ifra de foreløpige karakterene på skriftlig eksamen i videregående opplæring. Analysene er basert på karakterforslagene fra de to sensorene som foretok ekstern sensurering. Analysene er gjort med utgangspunkt i vurderinger av over 700 000 elevbesvarelser fra årene 2015–2019. Den endelige karakteren ble ikke inkludert i analysene. Dette er det beste estimatet vi kan få på sensorreliabilitet, siden det per i dag ikke er mulig å gjøre denne typen analyser på endelige eksamenskarakterer. Analysen brukte klassiske metoder som beregninger av kappa, vektet kappa og intraklasse-koeffisienter for å evaluere sensorreliabiliteten. Resultatene viser at vurderingen, slik den kommer til uttrykk i karakterforslagene, i noen fag preges av svært god sensorreliabilitet. I andre fag er denne reliabiliteten så lav at vi ikke kan utelukke at eksamenskarakteren ikke bare gjenspeiler den kompetansen kandidatene har, men også vel så mye hvilke sensorer som har vurdert besvarelsen. Det er altså store forskjeller mellom fagene, men også forskjeller i hvor mye karakterene varierer innenfor hvert fag. I tillegg ble det foretatt kasusstudier der det ble gjort MFRM-analyser av fagene, basert på utvalg der kandidater og sensorer er koplet til hverandre. Dette er en eksplorativ analyse, som må forstås som en tidlig inngang som grunnlag for videre studier. MFRM-analysen viste at eksamen generelt sett var bedre på å skille mellom sensorers strenghet enn kandidaters kompetanse1 . Videre kunne vi i analysen av delutvalgene for MFRM-analysen notere at det ikke fantes statistisk grunnlag for å skille mellom seks nivåer av kompetanse. I gjennomsnitt klarte eksamen å utskille tre nivåer av kompetanse presist nok, ifølge MFRM analysen, men her er det store forskjeller mellom fagene. En generell konklusjon fra disse analysene er at det er store variasjoner i sensorreliabilitet i norske eksamener, basert på analyser av foreløpige karakterer. Disse variasjonene har antakeligvis ulike årsaker i forskjellige fag. Dette må derfor utforskes nærmere for hvert fag, slik at passende tiltak kan iverksettes. | en_US |