Anvendelse av maskinlæring for evaluering av blikkdata fra VR-miljø

Jensen, Simon; Mogen, Stian Fjæran; Østby, Lars Brodin

dc.contributor.advisor	Holt, Alexander
dc.contributor.author	Jensen, Simon
dc.contributor.author	Mogen, Stian Fjæran
dc.contributor.author	Østby, Lars Brodin
dc.date.accessioned	2022-07-16T17:21:26Z
dc.date.available	2022-07-16T17:21:26Z
dc.date.issued	2022
dc.identifier	no.ntnu:inspera:111604085:111608661
dc.identifier.uri	https://hdl.handle.net/11250/3006197
dc.description.abstract	Eyetracking handler om å måle øyebevegelser for å finne ut hvor en person ser, hva de ser på og hvor lenge blikket er på et bestemt punkt. Ettersom øynene våre er et av de primære verktøyer vi bruker for beslutningstaking, kan eyetracking benyttes av forskere til å studere menneskelig atferd og forstå visuell oppmerksomhet. Dette bachelorprosjektet samt tilhørende rapport bygger på et tidligere bachelorprosjekt gjennomført av Moan, Nygård og Ramsberg i 2020. Det forgående prosjektet fokuserte på oppsett av scener i VR for innsamling av øyedata, for å så implementere en rekke algoritmer for best mulig klassifisering av denne dataen. Det nåværende prosjektet plukker på mange måter opp der det prosjektet slapp, samtidig som det tar forskningen i nye retninger. Prosessen har ledet til et skalerbart forskningsprosjekt, som er designet for videre utvikling. Resultatene som presenteres i denne rapporten foreslår at det er mulig å klassifisere både visuell input og brukere av VR-headsett, med maskinlæring trent på den tilhørende øyedataen. Denne dataen kan også benyttes til å predikere fremtidige sakkadiske bevegelser. En av de store begrensninger i 2020, kom ved innsamling av tilstrekkelig variert data i koronapandemien. Dette var ikke en begrensende faktor ved denne prosjektgjennomføringen og tillot innsamling av et godt datagrunnlag. Gruppen utførte en nøye evaluering av det tidligere utførte arbeidet, samt konklusjoner som ble dratt av den forgående gruppen. Dette er blitt brukt til analysen av klassifiseringsalgorimer, og vist at det er store ulikheter i hvordan disse skiller på sakkader og fikseringer. Dette gjelder både for algoritmer seg imellom, og i sammenligning av ulike scener. Dette ble bakgrunnen for utviklingen av fire nye eksperimenter, som er designet for å fremprovosere forskjellige typer øyebevegelser som er representert i litteraturen. Disse representerer dens visuelle input. Det er samlet inn over 300mb med øyedata for analysen. Ved hjelp av maskinlæring og data fra de nye scene utviklet gruppen modeller som skulle være i stand til å predikere hvilken scene data tilhørte. CNN-modellen ga et godt utgangspunkt, med en presisjon over 60 prosent for klassifisering av scener. De beste resultatene kom fra med RNN-modellen, som på uavhengig testsett klassifiserte scener og testpersoner med presisjon opp mot 90 prosent. RNN-modellene ble implementert i Unity for klassifisering i sanntid, her også ble resultatene gode, med noe lavere presisjon som følge av spesifikke implementasjonsdetaljer. Det var også av interesse å kunne predikere fremtidige øyebevegelser basert på tidligere bevegelse. Dette resulterte i en implementasjon av en Forecast N-BEATS modell, som ga svært gode resultater for fremtidig blikkprediksjon under sakkader. Denne rapporten vil kapittelvis gå igjennom prosjektet, og gi leseren et innblikk i prosessen bak prosjektet og resultatene oppnådd. Først vil all relevant teori bli dekket for å gi leseren den nødvendige teoriske kunnskapen. Gruppens valg av teknologi samt metode blir videre dekket, før en gjennomgang av resultatene blir presentert for leseren. Avslutningsvis vil rapporten diskutere rundt observasjoner gjort under prosjektets gjennomførelse, samt resultatene i seg selv. Dette skal lede til et godt grunnlag for videre forskning på eyetracking.
dc.description.abstract	Eye tracking is the process of understanding where an individual is looking, what they’re looking at and for how long they look at a certain spot. Our eyes are one of our primary tools we use in decision making. Researchers use eye tracking to study human behavior as it’s the only way to observe, measure and understand visual attention objectively and accurately. This bachelor thesis and accompanying report builds upon a previous bachelor thesis from 2020, by Moan, Nygård og Ramsberg. The previous project focused on setting up scenes in VR for collecting eye tracking data, and then implementing several algorithms for the best possible classification of the data. The current project picks up in many ways where that project left off, but at the same time takes the research in new directions. The process has led to a scalable research project, which is designed for further development. The end results presented in this report suggest that it is possible to classify both visual input and users of VR headsets, with machine learning trained on the associated eye data. Furthermore, data can also be used to predict future saccadian movements. One of the major constraints on the project in 2020 came from the collection of sufficiently varied data during the corona pandemic. This was however not a limiting factor during the implementation of the project which allowed the collection of a solid data base of eye tracking data. All the new data was used for the analysis of the classification algorithms, and it was shown that there are large differences in how they differentiate between saccades and fixations. This applies to both among the algorithms themselves, as well as in comparison of different scenes. This was the background for the development of four new experiments, which are designed to provoke different types of eye movements that are represented in the literature. More than 300mb of eye data has been collected for the analysis. Bu using machine learning and the data from the new scenes, the group developed models that would be able to predict which scene the data belonged to. The CNN model provided a good starting point, with a precision over 60 percent for classifying scenes. The best results came from the RNN model, which on independent test sets classified scenes and test subjects with precision up to 90 percent. The RNN models were implemented in Unity for real-time classification, here the results were also good, with somewhat lower precision due to specific implementation details. It was also of interest to be able to predict future eye movements based on past movement. This resulted in an implementation of a Forecast N-BEATS model, which gave very good results for future eye prediction during saccades. This report will go through the project in chapters and give the reader a good insight into the process behind the project as well as the results achieved. First, all relevant theory will be covered to provide the reader with the necessary theoretical knowledge. The group's choice of technology and method is further covered, before a comprehensive results chapter. Finally, the report will discuss observations made during the project's implementation, as well as among the results. this should all culminate to a solid basis for further research on eye tracking.
dc.language	nob
dc.publisher	NTNU
dc.title	Anvendelse av maskinlæring for evaluering av blikkdata fra VR-miljø
dc.type	Bachelor thesis

Files in this item

Name:: no.ntnu:inspera:111604085:1116 ...
Size:: 3.979Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Institutt for datateknologi og informatikk [6766]

Show simple item record