SMDT-ReID: Self-supervised Multi-Object Detection, Tracking and Re-Identification

Moosa, Muhammad

Moosa, Muhammad

Master thesis

Åpne

no.ntnu:inspera:187610207:130523459.pdf (23.13Mb)

Permanent lenke

https://hdl.handle.net/11250/3138722

Utgivelsesdato

2024

Metadata

Vis full innførsel

Samlinger

Institutt for datateknologi og informatikk [6768]

Sammendrag

Multi-Object Tracking (MOT) er fortsatt en kritisk utfordring i datasyn, spesielt i dynamiske og okkluderte miljøer. Denne oppgaverapporten presenterer et nytt rammeverk for MOT som avviker betydelig fra tradisjonelle sporing-ved-deteksjonsparadigmer. Vi introduserer en metode som utnytter dyplæringsteknikker for å behandle videosekvenser og direkte utlede baner, og forenkler sporingsprosessen samtidig som nøyaktigheten og effektiviteten forbedres.

Vår forskning fokuserer på flere nøkkelområder: implementering av et robust sporingssystem, bruk av umerkede data for å forbedre sporingsytelsen, utvikling av sofistikerte okklusjonshåndteringsmekanismer og forbedring av re-identifikasjonsprosesser. Ved å bruke MobileNet, et lett og effektivt konvolusjonelt nevralt nettverk, trekker systemet vårt ut funksjoner fra inndatabilder og konverterer dem til høydimensjonale vektorer. Disse vektorene representerer numeriske funksjoner som letter nøyaktig og effektiv matching av sporede objekter.

For å forbedre modellens robusthet og tilpasningsevne til ulike scenarier, trente vi objektdeteksjonsmodellen ved å bruke selvovervåket læring med merkede og umerkede data. Denne tilnærmingen utvider opplæringsdatasettet betydelig, forbedrer generaliseringen av sporingssystemet vårt og gjør det mer motstandsdyktig mot forskjellige miljøer og forhold. Vi validerte algoritmen vår ved å bruke det offentlig tilgjengelige Dancetrack-datasettet og et tilpasset datasett samlet inn og kommentert i Norge av det norske avlsselskapet Norsvin, noe som ga et robust grunnlag for å evaluere ytelsen til rammeverket vårt.

Okklusjoner utgjør en velkjent utfordring i MOT, som ofte forstyrrer sporingskontinuitet og nøyaktighet. Vi løser dette problemet ved å modifisere en ny okklusjonsbevisst sporingsalgoritme. Denne algoritmen bruker kontekstuell informasjon og prediktiv modellering for å opprettholde høy sporingsnøyaktighet til tross for betydelige okklusjoner. Ved å forutse og gjøre rede for okklusjoner, sikrer systemet vårt konsistent objektidentifikasjon og sporing på tvers av rammer. Videre innlemmer vi de siste fremskrittene innen re-identifikasjon for å styrke sporingsytelsen. For re-identifikasjon brukte vi en CNN-modell for å trekke ut funksjoner og integrerte disse med sporingsalgoritmen, inkludert tilpasning. Denne integrasjonen forbedrer re-identifikasjonsnøyaktigheten, og sikrer at hvert dyr spores konsekvent på tvers av rammer. I tillegg utnytter trackeren dyreobservasjoner ved å beregne virtuelle baner, som bidrar til å redusere feilakkumuleringen av trackerparametere, spesielt i okklusjonsperioder. Dette sikrer kontinuerlig og nøyaktig sporing selv under utfordrende forhold.

Denne oppgaverapporten utvider MOT-teknologier ved å adressere kritiske utfordringer ved å bruke innovative tilnærminger, og baner vei for fremtidig forskning og praktiske anvendelser innen blant annet overvåking, autonom kjøring og interaktive systemer. Integrering av dyp læring, selvovervåket læring, okklusjonsbevisste algoritmer og avanserte re-identifikasjonsteknikker markerer et betydelig fremskritt innen MOT, og tilbyr et robust rammeverk som er i stand til å håndtere komplekse sporingsscenarier med forbedret nøyaktighet og effektivitet.

Multi-Object Tracking (MOT) remains a critical challenge in computer vision, particularly in dynamic and occluded environments. This thesis report presents a novel framework for MOT that diverges significantly from traditional tracking-by-detection paradigms. We introduce a method that leverages deep learning techniques to process video sequences and directly infer trajectories, simplifying the tracking process while enhancing accuracy and efficiency.

Our research focuses on several key areas: implementing a robust tracking system, using unlabeled data to improve tracking performance, developing sophisticated occlusion-handling mechanisms, and enhancing re-identification processes. Using MobileNet, a lightweight and efficient convolutional neural network, our system extracts features from input images and converts them into high-dimensional vectors. These vectors represent numerical features that facilitate the accurate and efficient matching of tracked objects.

To enhance the model’s robustness and adaptability to various scenarios, we trained the object detection model using self-supervised learning with labeled and unlabeled data. This approach significantly expands the training dataset, improving the generalization of our tracking system and making it more resilient to different environments and conditions. We validated our algorithm using the publicly available Dancetrack dataset and a custom dataset collected and annotated in Norway by the Norwegian breeding company Norsvin, providing a robust basis for evaluating the performance of our framework.

Occlusions present a well-known challenge in MOT, often disrupting tracking continuity and accuracy. We address this problem by modifying a novel occlusion-aware tracking algorithm. This algorithm utilizes contextual information and predictive modeling to maintain high tracking accuracy despite significant occlusions. By anticipating and accounting for occlusions, our system ensures consistent object identification and tracking across frames. Furthermore, we incorporate the latest advancements in re-identification to strengthen tracking performance. For re-identification, we employed a CNN model to extract features and integrated these with the tracking algorithm, incorporating customization. This integration improves re-identification accuracy, ensuring that each animal is consistently tracked across frames. Additionally, the tracker leverages animal observations by calculating virtual trajectories, which help mitigate the error accumulation of tracker parameters, particularly during occlusion periods. This ensures continuous and accurate tracking even in challenging conditions.

This thesis report expands MOT technologies by addressing critical challenges using innovative approaches, paving the way for future research and practical applications in surveillance, autonomous driving, and interactive systems, among other areas. Integrating deep learning, self-supervised learning, occlusion-aware algorithms, and advanced re-identification techniques marks a significant advancement in the field of MOT, offering a robust framework capable of handling complex tracking scenarios with improved accuracy and efficiency.

Utgiver

NTNU