Utilizing the Temporal Dimension of Video Sequences to Improve Infant Pose Estimation

Brandhaug, Martin; Vang, Trygve Nybakk

dc.contributor.advisor	Ramampiaro, Heri
dc.contributor.author	Brandhaug, Martin
dc.contributor.author	Vang, Trygve Nybakk
dc.date.accessioned	2023-05-15T17:27:29Z
dc.date.available	2023-05-15T17:27:29Z
dc.date.issued	2020
dc.identifier	no.ntnu:inspera:57320302:37375144
dc.identifier.uri	https://hdl.handle.net/11250/3068084
dc.description	Full text not available
dc.description.abstract	Human pose estimation har i løpet av de siste årene blitt gradvis bedre til det punktet at det blir anvendt på problemer i den virkelige verden, som for eksempel augmented reality, action recognition, og mange i det medisinske domene. Et slikt bruksområde er å trekke ut bevegelsesdata fra videoopptak av spedbarn, for å predikere cerebral parese basert på en bevegelsesanaylse. Den nåværende beste modellen brukt til å estimere posituren på spedbarn betrakter hvert bilde i videosekvensen uavhengig fra hverandre. Selv om human pose estimation modeller som tar enkeltbilder i betrakning generelt sett presterer veldig bra, så matcher de ikke menneskelig ytelse enda. Et alternativ for å forbedre ytelse er å ta den temporale dimensjonen av videosekvenser i betraktning. Denne oppgaven utforsker en slik løsning, hvor den temporale dimensjonen inkluderes ved å benytte bilder fra andre tidssteg som kontekst når spedbarnets positur estimeres. Denne multi-frame-modellen trekker ut bevegelsesoffset relatert til to bilder, og transformerer posituren fra det ene bildet til det andre bildet med disse offsetene og posituren fra det første bildet. Videre utforsker denne oppgaven effektene av å komprimere modellen. Modellen er basert på en dyp læring arkitektur, og er trent på data med annotering hvert syvende bilde. Resultatene av eksperimentene som blir gjennomført demonstrerer at å bruke bilder fra andre tidssteg som kontekst forbedrer ytelsen i form av hvor nært den predikerte plasseringen er fra den sanne plasseringen. Samtidig viser resultatene at å komprimere modellen vil ikke påvirke resultatene signifikant. På den andre siden vil beregningskompleksiteten av å benytte en multi-frame-modell øke betraktelig, sammenlignet med å benytte en single-frame-modell.
dc.description.abstract	Human pose estimation has over the past few years become progressively more accurate to the point that it is being applied to real-world problems such as in augmented reality, action recognition, and throughout the medical domain. One such application is to extract motion data from video recordings of infants, in order to predict cerebral palsy based on a movement assessment technique. The currently best performing model used to predict infant poses, considers each frame in the video sequence independently. Although human pose estimation models that consider single frames perform very well in general, they do not yet match human performance. One possible solution to improve performance is by considering the temporal dimension of video sequences. This thesis explores one such solution, in which the temporal dimension is included by using frames from other timesteps as context when estimating the pose of an infant. This multi-frame model extracts motion offsets of two frames, and warps the pose with these offsets and the predicted pose from one frame to the other frame. Moreover, this thesis explores the effects of compressing the model. The approach is based on a deep learning architecture, and is trained on sparsely labeled data, containing annotations every seventh frame. The results of the experiments conducted demonstrate that using frames from other timesteps improve the performance in terms of how close to the ground-truth the predicted locations are. Meanwhile, compressing the approach does not significantly affect the prediction results. However, using a multi-frame model, even in compressed configurations, will introduce a substantial amount of computational complexity compared to using a single-frame model.
dc.language	eng
dc.publisher	NTNU
dc.title	Utilizing the Temporal Dimension of Video Sequences to Improve Infant Pose Estimation
dc.type	Master thesis

Tilhørende fil(er)

Filer	Størrelse	Format	Vis

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6828]

Vis enkel innførsel