Assisting efficient and fair grading with information retrieval and text mining techniques
Abstract
Sensurering av eksamensbesvarelser er en manuell og ofte tidkrevende prosess som krever høy konsentrasjon over lengre tid. Prosessen kan dermed bli utsatt for feil og to i utgangspunktet like gode svar, kan bli tildelt ulik karakter. Dette kan medføre at sensurprosessen oppleves urettferdig for studenter og slitsom for sensorer. For å overkomme denne utfordringen har det blitt foreslått å bruke datamaskiner til å automatisk evaluere og sensurere eksamensbesvarelser.
Automatisk sensurering (automatic grading) har blitt forsket på i flere tiår. Forskere har fokusert på å automatisk evaluere svar basert på ulike kriterier. Automatisk sensur av flersvarsoppgaver regnes i dag som løst, derimot er automatisk sensurering av tekstsvar en vedvarende utfordring. Sensurering av tekstsvar har utviklet seg i to dominerende retninger. Automatisk sensurering av essays (Automatic Grading of Essays) tar sikte på å vurdere stiler basert på språk. Automatisk sensurering av kortsvar (Automatic Short-Answer Grading) fokuserer på å evaluere innholdet i tekstsvar. De fleste studier gjennomført innen begge feltene har brukt Engelske svar og stiler. Ingen tidligere forskning er gjort innen automatisk sensurering av norske svar hvor det innholdet i svarene evalueres.
Denne masteroppgaven har som mål å bruke teknikker fra informasjonsgjenfinning (information retrieval) og tekstdatautvikling (text mining) til å evaluere innholdet av norske eksamensbesvarelser innen feltet informatikk (Computer Science). Svar fra tre tidligere eksamener i faget IT2810 Webutvikling ved Norges teknisk-naturvitenskapelige universitet brukes for å undersøke om slike teknikker kan bidra til en effektiv og rettferdig sensurprosess.
For å nå målet vil det bli gjennomført en litteraturstudie knyttet til automatisk sensurering. Videre vil det bli utført en analyse av eksamenssettene for å avdekke utfordringer og muligheter ved å bruke informasjonsgjenfinning og tekstdatautvikling til å evaluere eksamensbesvarelser. Tre eksperimenter vil bli gjennomført. De vil forsøke å evaluere svar basert på ordbruken i besvarelsene. Funnene fra studien tyder på at det er potensiale for å benytte disse teknikkene for å sikre en effektiv og rettferdig sensurprosess av norske eksamener. Spesielt viser disse teknikkene seg lovende for å kunne gi veiledning under sensurprosessen og for å oppdage svar hvor potensiell feil karakter har blitt satt. The process of grading answers to exams and other tests is a manual and often time-consuming process and demands a high level of concentration over a long period of time. This can cause the process to be subject to fluctuations, and discrepancies between grades given to similar answers may occur. As a result, the grading process can be experienced as unjust for the students and tiresome for the sensors. To address this challenge, it has been proposed to use computers to automatically evaluate and grade student answers.
The research of automatic grading has been explored for decades. Researchers have focused on automatically assessing answers based on different criteria. For multiple-choice questions, the problem of automatic grading is considered solved. However, natural language answers remain a challenge. From the field of automatic grading of text-based answers, two dominating research areas have emerged. Automatic Grading of Essays (AGE) evaluates essays based on writing style and language. Automatic Short-Answer Grading (ASAG) focuses on evaluating the content of short-answer. Most studies have been conducted using answers and essays written in English. Automatic grading of answers evaluated based on content has not been tried using Norwegian answers.
The goal of this thesis is to investigate the use of information retrieval and text mining techniques to evaluate the content of Norwegian exam answers within the field of Computer Science. Answers from three earlier exams in the course IT2810 Web Development at the Norwegian University of Science and Technology are used to explore whether such techniques can contribute to an efficient and fair grading process.
To achieve this goal, a literature review related to automatic grading is conducted. Furthermore, an analysis of the exam datasets is performed to discover challenges and possibilities for using information retrieval and text mining techniques in the assessment of student texts. Three experiments are conducted, focusing on evaluating answers based on term usage. Findings from this thesis suggest that such techniques should be further investigated to ensure an efficient and fair grading process of Norwegian exams. Applications of these techniques are especially promising in terms of providing guidance to the sensor and detecting answers that may have received the wrong grade.