Silent Speech Communication Using Facial Electromyography

Backsæther, Mathias Gullikstad

dc.contributor.advisor	Salvi, Giampiero
dc.contributor.author	Backsæther, Mathias Gullikstad
dc.date.accessioned	2021-09-28T17:21:07Z
dc.date.available	2021-09-28T17:21:07Z
dc.date.issued	2021
dc.identifier	no.ntnu:inspera:77044318:51336719
dc.identifier.uri	https://hdl.handle.net/11250/2784241
dc.description.abstract	Språk er uvurderlig for mennesket som art, og tale som kommunikasjonsmiddel muliggjør samarbeid mellom mennesker hver dag. Allikevel finnes det ulike situasjoner der vokalisert tale ikke er et alternativ. Interessen for et fungerende system som muliggjør lydløs tale har økt de siste årene, i takt med teknologiske nyvinninger innen elektronikk og programmering. En mulig modalitet for slik lydløs tale kan være signaler fra muskelbevegelser i ansiktet, såkalt elektromyografi (EMG). Disse muskelbevegelsene er tett tilknyttet produksjonen av tale og kan dermed oversettes til lydbølger eller tekst ved hjelp av maskinlæring. Målet med denne masteroppgaven er å vise at et standardisert apparat for måling av hjernebølger, en Emotiv Epoc+ EEG-sensor, kan brukes til EMG-basert lydløs tale. Emotiv-sensoren ble brukt til å samle 5 datasett som i et par tilfeller også inkluderte mikrofonopptak. Fem ulike former for nevrale nettverk ble brukt, i tillegg til en Skjult Markov Modell (HMM), til å klassifiser enkeltord. En gjennomsnittlig nøyaktighet på 93.3% over 4 ulike talere på et 3-ords vokabulær ble oppnådd ved å bruke et nevralt nettverk med tilbakekoblinger (RNN). De resterende datasettene ble samlet inn av forfatteren selv, og 85.4% nøyaktighet i ordgjenkjenning ble oppnådd på 10 ulike ord ved hjelp av et konvolusjonalt nevralt nettverk (CNN). Tilsvarende resultat var 63.2% på 39 ulike ord. Videre ble to ulike systemer for lydløs tale utviklet. Den ene baserte seg på å stave hvert tegn, noe som førte til 82.7% korrekt plassering av tegnene i seks testsetninger. Det andre systemet ble utviklet ved hjelp av EMG-tiltale og genererte lyd tilsvarende tallene 0 til 9 med forfatteren sin egen stemme. Fra 20 slike genererte lyder ble 73.5% av dem korrekt gjenkjent av personer som lyttet til lydklippene. Disse resultatene viser for aller første gang at en Emotiv Epoc+ sensor kan bli brukt til lydløs EMG-basert talegjenkjenning, og denne sensoren blir foreslått som en standardisert løsning for framtidig forskning på EMG-basert lydløs tale.
dc.description.abstract	Speech is of immense importance to human society and is the natural enabler for cooperation between humans. Unfortunately, there are situations where vocalized speech is not an option. Interest in the possibility of silent speech devices has continued to increase with the technological revolution of the last couple of decades. One possible modality for a silent speech interface is facial electromyography (EMG): electrical signals generated from muscle activation when moving the articulators without any vocalization. The aim of this project is to contribute to this field of research by showing that a standardized headset originally meant for recording brain waves can be used for EMG-based silent speech recognition. The Emotiv Epoc+ EEG headset was used to collect five corpora. Two of the corpora included time-synced audio recordings. Five different neural network architectures, as well as a Hidden Markov Model (HMM) classifier, were used for single word classification. An average recognition rate of 93.3% over four speakers was achieved on a vocabulary of three words using a recurrent neural network (RNN). The remaining corpora were collected by one speaker with session-independent word recognition of 85.4% accuracy on a vocabulary of 10 words. A convolutional neural network (CNN) was used for this, and the same architecture resulted in 63.2% word accuracy on the joint vocabulary of the NATO phonetic alphabet and digits. Two functional silent speech interfaces were furthermore created. One was based on EMG-to-text spelling out sentences. This system correctly classified an average of 82.7% of the characters in six test sentences. The other system utilized EMG-to-speech and was able to synthesize digits with the voice of the author. 20 synthesized digits were correctly classified 73.5% of the time by human listeners. This thesis shows that the Emotiv Epoc+ sensor can indeed be used for an EMG-based silent speech interface, and this sensor is proposed as a standardized platform for future silent speech research.
dc.language	eng
dc.publisher	NTNU
dc.title	Silent Speech Communication Using Facial Electromyography
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:77044318:51336 ...
Størrelse:: 17.95Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for elektroniske systemer [2286]

Vis enkel innførsel