Show simple item record

dc.contributor.advisorF. Ihlen, Espen Alexander
dc.contributor.authorHide, Runa Overå
dc.date.accessioned2021-09-25T16:29:01Z
dc.date.available2021-09-25T16:29:01Z
dc.date.issued2021
dc.identifierno.ntnu:inspera:82525395:9514271
dc.identifier.urihttps://hdl.handle.net/11250/2783170
dc.description.abstractBakgrunn I denne studien ble en type nevrale nettverk (CNN), EfficientHourglass, validert i analysering av teknikk i skihopp. CNN har vist seg til å være den siste og beste (SOTA) algoritmen til å løse komplekse oppgaver ved menneskelig- og markørløs bevegelsesanalyse i video og bilder. Per i dag blir kinematiske variabler målt ved bruk av 3D bevegelsesanalyse fra imitasjonshopp eller hopp fra konkurranser, IMUs eller manuell video annotering. Problemet er at flere sensorer (IMUs) trengs for å oppnå et presist svar og manuell annotering er disponert for subjektiv error. Det er en etterspørsel etter metoder å bruke ved hopp i konkurranser for å analysere kinematiske variabler i skihopp. Hypoteser To hypoteser ble testet i studien: At EfficientHourglass var i stand til 1) å annotere skihopperens anatomiske landemerker og 2) å identifisere hofte-, kne-, og ankel-ledd vinkler, begge med menneskelig presisjon. Metode Et datasett som inkluderte 9324 bilder av skihoppere i sagittalplanet og ble annotert av 7 ulike annotører. Grunnet størrelsen på datasettet ble transfer learning og implementering av pre-trente blokker på MPII brukt i encoder-delen. Menneskelig inter-rater presisjon ble regnet ut ved å bruke 99 tilfeldig utvalgte bilder fra datasettet. Bildene ble delt inn i tre grupper; trening (72%), validering (8%) og test (20%). Metoden i studien beskriver blokkene inkludert i oppbyggingen av EfficientHourglass. Resultat Alle fire modeller oppnådde menneskelig presisjon av 90.86% i PCKh@30. Ingen nådde menneskelig presisjon av 52.7% i PCKh@10 eller ME av 0.1336 i PCKh@error_head. Høyre og venstre hofte, toppen av hodet, pelvis og thorax hadde lavest presisjon. Optimal bildeoppløsning ble satt til 288x288 med tanke på presisjon mot bruk av GLOPs i alle presisjonsmålinger. Utregnet leddvinkler av hofte, kne, og ankel var mellom 2.34° og 4.57°. Konklusjon Studien bekrefter hypotesene på noen av presisjonsmålene, at EfficientHourglass var i stand til å annotere anatomiske landemerker på skihopperen og regne ut de tre leddvinklene innenfor en gitt grense for error. En markørløs bevegelsesanalyse vil resultere i en mer objektiv og tidseffektiv måling av kinematiske variabler. For å forbedre presisjonen av modellene, må presisjonen av menneskelig annotasjon forbedres, for eksempel ved en mer detaljert beskrivelse av annotasjonspunktene og ved å bruke gjennomsnittet av flere markører på et spesifikt punkt som per nå er utsatt for lav presisjon/høy error, som for eksempel hofteleddet. Dette vil påvirke utregningen av leddvinkler positivt og redusere ME i grader. Nøkkelord: nevrale nettverk; markørløs bevegelsesanalyse; estimering av kroppslig posisjon; kinematiske variabler; skihopp
dc.description.abstractBackground In this study, a type of convolutional neural network (CNN), EfficientHourglass, was validated analysing ski jumping technique. CNN has shown to be the state-of-the-art (SOTA) algorithm to solve challenging human pose estimation (HPE) and motion tracking tasks from video and images. Today, kinematic variables are obtained from 3D motion capture and from in-hill training and -competition jumps, IMUs, or manual video annotation. However, IMUs require several sensors to obtain precise results, and manual annotation are prone to subjective error. Thus, there is a lack of methods for in-competition analysis of the ski jump kinematics. Hypotheses Two hypotheses were tested. That the EfficientHourglass was able 1) to detect the ski jumper body key points and 2) to identify hip-, knee-, and ankle joint angles, both with human expert precision. Methods A dataset containing 9324 images of ski jumpers in the sagittal plane were annotated by 7 raters. Due to the size of the dataset, transfer learning and pretrained blocks on MPII were used in the encoder part on the CNN. Human inter-rater precision was calculated using 99 randomly chosen images from the dataset. The dataset was split into three subsets: training (72%), validation (8%) and test (20%). The method includes a description of the blocks included in the EfficientHourglass architecture. Results All four models obtained the human precision of 90.86% in PCKh@30. None obtained the human precision in PCKh@10 or PCKh@error_head of 52.7% and 0.1336, respectively. Noteworthy, top head, thorax, pelvis, right and left hip obtained low precision. The inflection point of the optimal image resolution in terms of precision against GLOPs was approximately 256x256 to 288x288 in all performance measures. Calculated joint angles by the models of the hip, knee and ankle were between 2.34° and 4.57°. Conclusion This study confirmed the hypotheses on some of the performance metrics, that EfficientHourglass was able to detect the body key points of the ski jumpers and to calculate the three joint angles within the limit of error. A markerless motion tracking would result in a more objective and time-efficient measure of the kinematic variables. To improve the precision of the network, the precision of the raters must be improved by, e.g., a more detailed description of the body key points and perhaps several annotations for a body segment prone to high error/low precision (e.g., the hip joint). This will benefit the calculation of the joint angles and reduce the ME in degrees. Keywords: convolutional neural network; human pose estimation; markerless motion tracking; kinematics; ski jumping
dc.languageeng
dc.publisherNTNU
dc.titleValidation study of a video-based motion tracking with convolutional neural network for the take-off phase in ski jumping
dc.typeMaster thesis


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record