Deep Learning Based People Estimation on 2D Ultra-Wideband Radar Data

Nguyen, Christian Danh

Nguyen, Christian Danh

Master thesis

Åpne

no.ntnu:inspera:143650281:22240767.pdf (11.86Mb)

Permanent lenke

https://hdl.handle.net/11250/3092840

Utgivelsesdato

2023

Metadata

Vis full innførsel

Samlinger

Institutt for elektroniske systemer [2351]

Sammendrag

Denne masteroppgaven undersøker ytelsen til tre typer maskinlæringsmodeller, Convolutional Neural Network (CNN), Residual Network (ResNet), og Convolutional Neural Network med Gated Recurrent Units (CNN+GRU), i oppgaven med å detektere og telle mennesker ved bruk av range-Doppler (RD) kart hentet fra den nye NOVELDA Ultra-low Power Presence Sensoren. Sensorens doble antenne tillot digital stråledannelse, som skaper tre stråler som peker i -20°, 0°, og +20° asimutvinkel. Resultatene antyder at CNN-modellen, med sin dyktighet for romlige egenskaper, presterte godt på RD-kartene, som representerer radarrefleksjoner fra mennesker i bevegelse. Denne egenskapen kan ikke ha blitt fullt utnyttet av CNN+GRU-modellen, til tross for dens potensiale for å fange opp avhengigheter i tid, eller av ResNet-modellen, som kanskje har vært for intrikat for dette datasettet.

En betydelig begrensning i denne studien var det utilstrekkelige treningsdatasettet for flerklassifisering av RD-kart for mennesketelling. Utilstrekkelige data kan ha ført til overtilpasning, noe som negativt påvirker modellens evne til å generalisere, noe som var tydelig i ytelsen til de mer komplekse modellene, ResNet og CNN+GRU. For å løse dette, ble teknikker for dataforsterkning brukt for å øke mangfoldet i treningssettet, selv om deres effektivitet kan være begrenset.

Høyden på radarsystemet, fastsatt til 1,5 m i eksperimentene, kan påvirke egenskapene til radarretursignalene betydelig, spesielt under ikke-line-of-sight (NLOS) forhold. Å utforske effektene av radarhøydeplassering kan være en fremtidig forskningsretning. Videre ble det utført minimal forbehandling for å fjerne støy og clutter fra RD-kartene. I noen tilfeller kan tilstedeværelsen av støy og clutter potensielt bære nyttig informasjon som hjelper modellen i å skille mellom støy og målsignaler.

Til tross for de ovennevnte utfordringene, ga CNN-modellen lovende resultater for klassifiseringen av opptil tre mål i et 4x4 m rutenett, som er sammenlignbare med toppmoderne metoder. Bruken av NOVELDA Ultra-low Power Presence Sensoren viser potensialet til å implementere radarsystemer med lavere strømforbruk og forbedrede mållokalisering og differensieringsegenskaper, takket være dens doble antennekonfigurasjon. Stråledannelse gir også innsikt i måldynamikk og bidrar til å løse problemer med målokklusjoner og overlappende baner, noe som gir mer nøyaktige og pålitelige resultater for mennesketelling.

This master's thesis investigates the performance of three types of deep learning models, the Simple Convolutional Neural Network (CNN), the Residual Network (ResNet), and the Convolutional Neural Network with Gated Recurrent Units (CNN+GRU), in the task of detecting and counting people using range-Doppler (RD) maps obtained from the novel NOVELDA Ultra-low Power Presence Sensor. The dual-antenna of the sensor allowed for digital beamforming, creating three beams pointing in -20°, 0°, and +20° azimuth angle. The results suggest that the CNN model, with its aptitude for spatial feature extraction, performed well on the RD maps, which spatially represent radar reflections from people in motion. This characteristic may not have been fully exploited by the CNN+GRU model, despite its potential to capture temporal dependencies, or by the ResNet model, which might have been too intricate for this dataset.

A significant limitation of this study was the inadequate training data for the multiclass classification of RD maps for people counting. Insufficient data might have led to overfitting, negatively impacting the model's ability to generalize, which was evident in the performances of the more complex models, ResNet and CNN+GRU. To address this, data augmentation techniques were used to enhance the diversity of the training set, although their effectiveness might be limited.

The height of the radar system, fixed at 1.5 m in the experiments, could significantly influence the characteristics of the radar return signals, particularly under Non-Line-Of-Sight (NLOS) conditions. Exploring the effects of radar height placement could be a future research direction. Furthermore, minimal preprocessing to remove noise and clutter from the RD maps was conducted. In some cases, the presence of noise and clutter could potentially carry useful information that aids the model in distinguishing between noise and target signals.

Despite the above challenges, the CNN model yielded promising results for the classification of up to three targets in a 4x4 m grid, that are comparable to state-of-the-art methods. Utilizing the NOVELDA Ultra-low Power Presence Sensor demonstrates the potential to implement radar systems with lower power consumption and improved target localization and differentiation capabilities, thanks to its dual-antenna configuration. Beamforming also provides insights into target dynamics and helps to resolve issues of target occlusions and overlapping trajectories, offering more accurate and reliable people counting results.

Utgiver

NTNU