Automatic Evaluation of Short Text Answers with Feedback Techniques to Enhance Student Learning Performance
Abstract
Evaluering av eksamener kan være både utfordrende og tidkrevende, og lærere bruker en betydelig del av tiden sin på denne oppgaven. På dette grunnlaget er det enighet blant forskere at datamaskiner kan brukes til å automatisere denne prosessen. Denne masteroppgaven er en studie av automatisk vurdering og generering av tilbakemeldinger på korte elevsvar. To datasett med korte svar skrevet av studenter i et informatikkurs har blitt analysert og brukt for å utforske hvordan informasjonsgjenfinning (Information Retrieval) og tekstdatautviklingsteknikker (Text Mining techniques) kan brukes til å automatisk vurdere og generere tilbakemeldinger på kortsvarsoppgaver på norsk.
Forskning innen automatisk vurdering har vært utforsket i flere tiår. Imidlertid forblir automatisk vurdering av ustrukturert tekst en utfordring og lite arbeid finnes på det norske språket. På dette grunnlaget er denne masteroppgaven et forsøk på å besvare hva som er det nyeste (state-of-the-art) innen automatisk tilbakemeldingsgenerering og retting av tekstbaserte svar. I tillegg er det foretatt en undersøkelse på om teknikker for informasjonsgjenfinning og tekstdatautvikling kan brukes til å implementere et automatisk retting- og tilbakemeldingssystem, og hvilken kvalitet som kan oppnås.
En undersøkelse av eksisterende forskning om automatisk vurdering og generering av tilbakemeldinger er gjennomført, sammen med en oppsummering av relevante teknikker for informasjonsgjenfinning og tekstdatautvikling. To tilnærminger for automatisk vurdering og generering av tilbakemeldinger er foreslått og implementert. Den første omfatter en referansesvar (Reference Answer) basert tilnærming som sammenlignes med elevsvar ved hjelp av en likhetsberegning, og den andre benytter k-means-klynging (k-means clustering) algoritmen for å gruppere sammen like svar. Automatisk vurdering er forsøkt ved å utforske hvilke resultater som kan oppnås ved å bruke flere forskjellige informasjonsgjenfinningsteknikker (Information Retrieval techniques). Tilbakemeldingsgenerering foreslås ved å gi nøkkelord til elevene som representerer viktige begreper eller temaer de kanskje har utelatt i svaret sitt for å forbedre læringen. Videre er to metoder for å evaluere tilbakemeldingsteknikken foreslått og diskutert.
Denne oppgaven presenterer verdifull innsikt i hvordan norske og flerspråklige datasett kan renses og behandles, sammen med to lovende tilnærminger som kan vise seg nyttige og som kan brukes i et fullskala automatisk retting- og tilbakemeldingssystem i fremtiden. Evaluation of exams can be both challenging and time-consuming, and teachers dedicate a substantial amount of their time to this task. Consequently, there is a consensus among researchers that computer technology can be leveraged to automate this process. This thesis is a study into the field of automatic evaluation and feedback generation of student short answers. Two datasets featuring short answers written by students from a computer science course have been analyzed and utilized to explore how Information Retrieval and Text Mining techniques can be applied to automatically grade and generate feedback in the Norwegian language.
Research within the field of automatic grading has been explored for decades. However, automatic grading of unstructured text remains a challenge and minimal work is present in the Norwegian language. Hence, this thesis aims to answer what the state-of-the-art within automatic feedback generation and grading of text-based answers is to this day. Moreover, Information Retrieval and Text Mining techniques are explored to investigate how automatic grading and feedback systems can be implemented, and what quality can be achieved.
A literature study in the field of automatic grading and feedback generation is presented, as well as a summary of relevant Information Retrieval and Text Mining techniques. Two approaches for automatic grading and feedback generation have been proposed and implemented. The first compares Student Answers with Reference Answers by a similarity calculation, and the second utilizes the k-means clustering algorithm to group similar responses. Automatic grading is attempted by exploring achieved performance when applying various Information Retrieval techniques. Feedback generation is proposed as providing keywords to students representing important concepts or themes they might have missed in their responses to improve learning. Lastly, two evaluation metrics for the proposed feedback technique are proposed and discussed.
This thesis presents valuable insights into how Norwegian and multi-lingual datasets can be cleaned and processed, along with two promising approaches that may prove useful and could be utilized in a full-scale automatic grading and feedback system in the future.