Quality Assurance of Exam Grading using Norwegian BERT Models
Master thesis
Permanent lenke
https://hdl.handle.net/11250/3094666Utgivelsesdato
2023Metadata
Vis full innførselSamlinger
Sammendrag
Sensureringsprosessen ved skoleeksamen trenger optimalisering i takt med forbedring av moderne teknologi. Med tanke på opptrappingen av kvaliteten til kunstig intelligens, er automatisk karaktersetting i skolesystemet like rundt hjørnet. Helautomatisk vurdering er imidlertid ikke helt oppnåelig ennå, hvor hovedproblemet er nøyaktigheten av resultatene. Kunstig intelligens (KI) er utmerket på mange språkbehandlingsoppgaver, men det er ikke ufeilbarlig. Skolesystemet kan ikke risikere at elevenes arbeid kan bli urettferdig vurdert ved å bruke et verktøy med selv de minste muligheter for feil.
Denne masteroppgaven presenterer en metode som ikke automatisk retter eksamensinnleveringer, men som heller støtter sensoren i karaktersettingen. Metoden er implementert i applikasjonen Transformer-based Grade Revision Tool, eller TGRT. Etter at karakteren er satt, vil TGRT analysere innleveringene sammen med karakterene deres og markere tilfeller der det mener sensoren har gjort en feil. Testpersoner har innrømmet å være påvirket av tiden på dagen, humør og andre personlige faktorer ved sensurering, som kan føre til uregelmessig grad av strenghet og grundighet. Det foreslåtte verktøyet vil begrense antall slike feil ved å sammenligne innholdet i innleveringene ved hjelp av kunstig intelligens og språkbehandling og advare sensor dersom karakterene ikke gjenspeiler innholdet.
Tre hovedaspekter ved denne prosessen blir utforsket i denne masteroppgaven. Det første er hvordan verktøyet kan sammenligne svarene mest nøyaktig. Teknologien som blir brukt er transformatorer og BERT, som er KI-modeller. På grunn av black box-egenskapen til transformatorer, er det vanskelig å vite hvorfor noen svar regnes for å være like. Det andre aspektet er derfor hvordan man kan forklare til sensoren hvorfor verktøyet anbefaler det den gjør. Dette må være så intuitivt og enkelt å forstå som mulig for at verktøyet skal være nyttig i en reell setting og uten å koste sensor for mye ekstra tid. Dette leder inn til det siste aspektet, som handler om hvordan sensorene oppfatter TGRT.
Funnene viser at TGRT er nyttig for å identifisere feil i karakterprosessen, men hjelpemidlene som skulle forklare likheten har ikke oppfylt ambisjonene. Testbrukerne endte for det meste opp med å lese studentenes fullstendige svar i stedet for å bruke sammenligningsfunksjonene som i praksis ville ført til en økning i tiden som trengs for karaktersetting. TGRT var imidlertid sporadisk utmerket til å påpeke feil sensorene sa seg enige i, og de var veldig positive til bruken av TGRT i karaktersettingsprosessen. The exam grading process needs optimization in tandem with improvements in technology. With AI technology increasing in viability and availability, automatic grading in the school system is on the horizon. Fully automatic grading for answers in longer text form is however not quite achievable yet, with the main concern being the precision of the results. AI technology is excellent at many natural language processing tasks, but it is not devoid of fallibility. The school system can not afford to corrupt the work of students by using a tool with even the smallest possibilities of errors.
This thesis proposes a method that does not automatically grade the submissions, but rather supports the examiner in the process of grading. The method is implemented in an application called Transformer-based Grade Revision Tool, or TGRT. After the grading is done, TGRT will analyze the submissions along with their grades and flag instances where it believes the examiner has made an error. Test subjects have admitted to being affected by time of day, mood and other personal factors when grading papers, which can lead to inconsistencies in strictness and thoroughness. TGRT will limit the amount of mistakes like this by comparing the contents of the submissions by means of AI and natural language processing and warn the examiner if the grades do not reflect the contents.
Three main aspects of this process are explored in this thesis. The first is how to make the tool compare the answers most accurately. The technology chosen is transformers and BERT, which are AI models. Because of the black box property of transformers, it is hard to know why answers are considered to be similar. The second aspect is therefore how to explain this to the examiner. This needs to be as intuitive and easy to understand as possible for the tool to be useful in a real setting within a non-substantial time. This leads into the final aspect, revolving around how such a tool is perceived by the users.
The findings show that TGRT is useful at identifying errors in the grading process, but the means of explaining the similarity has not met the desired goals. The test subjects mostly resorted to reading the students' full answers instead of using the supporting features, which would lead to an increase in time needed for grading. The tool was however sporadically excellent at pointing out mistakes the examiners agreed with, and the test subjects were very positive to the prospect of using TGRT in the grading process.