Machine Learning Approaches to Automated Sign Language Translation
Abstract
Tegnspråk spiller en viktig rolle i kommunikasjonen for døve og hørselshemmede over hele verden, med mer enn 300 tegnspråk i bruk. Utviklingen av tegnspråk, dets uavhengighet fra tale- og skriftspråk, forskjellene i hvordan enkeltpersoner utfører tegn, presenterer betydelige utfordringer for nøyaktig transkribering av tegnspråk til tekst. Denne oppgaven tar for seg utfordringer og metodikk i transkribering av norsk tegnspråk. Til tross for at det finnes en rekke datasett for tegnspråk på ulike språk, finnes det ingen datasett for norsk tegnspråk. Derfor har denne oppgaven som mål å utvikle et datasett for norsk tegnspråk ved å bruke videoer fra NRK Tegnspråknytt, med fokus på kontinuerlig tegnspråkgjenkjenning og tegnspråkoversettelse.
Videre utforsker denne oppgaven bruken av forskjellige arkitekturer innen dyp læring for å prosessere informasjon fra videodata, og utforsker hvordan ulike modellarkitekturer kan bidra til å forstå og oversette norsk tegnspråk. Konvolusjonelle nevrale nettverk brukes for å prosessere visuell data i hvert bilde som håndbevegelser og mimikk, mens LSTM og Transformer-arkitekturer tar for seg konteksten eller sammenhengen mellom hver av bildene. Arbeidet fokuserer spesifikt på effektiviteten av disse teknikkene innen dyp læring, innvirkningen av syntetisk genererte glosser, og bruk av distinkte keypoints for å forbedre modellens ytelse.
Det resulterende datasettet består av omtrent 100 timer med høykvalitets preprosesserte treningsdata, behandlet for å kun fange den relevante delen i hver frame. Videre antyder resultatene at Transformer-arkitekturen presterer bedre enn den tradisjonelle LSTM-arkitekturen og er bedre egnet til å lære de underliggende mønstrene i dataene. Resultatene indikerer imidlertid en betydelig grad av overtilpasning i modellene. Dette understreker behovet for et større og mer variert datasett som fanger opp mangfoldet av tegnspråkskommunikasjon. Videre tyder resultatene på at ved å kun bruke keypoints for å prosessere visuelle data, kan modellene generere et bredere spekter av glosser og har lettere for å lære ettersom de ikke trenger å ta hensyn til parametrene i det konvolusjonelle nettverket. Sign language plays an essential role in communication for deaf and hard-of-hearing individuals worldwide, with more than 300 sign languages in use. The development of sign languages, its independence from spoken and written languages, and the variations in signing styles among individuals present significant challenges in accurately transcribing sign language to text. This thesis addresses challenges and methodology in transcribing Norwegian Sign Language (NSL). Although numerous datasets are available for sign languages in different languages, no dataset is available for NSL. Consequently, this work aims to develop a dataset for NSL using videos from NRK Tegnspråknytt, focusing on Continuous Sign Language Recognition (CSLR) and Sign Language Translation (SLT).
Furthermore, this thesis explores the use of deep learning architectures to extract features from video data, exploring how various model architectures can contribute to understanding and translating NSL. Convolutional Neural Networks (CNNs) identify spatial features such as hand movements and facial expressions, while Long Short-Term Memory (LSTM) and Transformer architectures capture temporal dynamics between the frames. This research specifically focuses on the effectiveness of these deep learning architectures, the impact of synthetically generated glosses (written words used to approximate the meaning of signs), and using keypoints to improve model performance.
The resulting dataset consists of about 100 hours of high-quality preprocessed training data, cropped to capture only the relevant part of each frame. Moreover, the results suggest that the Transformer architecture performs better than the traditional LSTM and is better suited to learn the underlying patterns in the data. However, the results indicate a significant degree of overfitting in the models. This highlights the need for a larger and more varied dataset that captures the diversity of sign language communication. Furthermore, the findings indicate that by utilizing only keypoints to extract spatial data, the models can generate a broader range of glosses and have an easier time learning as they do not need to consider the additional set of trainable parameters of the CNN.