Towards robust and flexible point-object multi-target tracking using transformer neural networks
Abstract
En målfølger er en nøkkelkomponent i autonom navigasjon. Målfølgingsalgoritmer kan defineres ved hjelp av Bayesiansk probabilistisk modellering, eller ende-til-ende med nevrale nettverk. MT3v1 og MT3v2 er to generasjoner av Transformer-baserte nevrale målfølgere hvis mål er å tilby et alternativ til Bayesianske målfølgings-algoritmer, ved å bytte ut online beregningskostnad for offline trening, uten å ofre ytelse. Visse begrensninger med disse to har motivert utviklingen av MT3v3. Denne neste-generasjons Transformer-målfølger er vist å yte bedre enn sin forgjenger, samt den Bayesianske IMM-JIPDA-målfølgeren i visse tilfeller, samtidig som at den er mer fleksibel og tilpasningsdyktig til nye autonomisystemer. Et forhåndstrent MT3v3-nettverk er gjort tilgjengelig, sammen med en brukervennlig implementasjon. Det vises dog at MT3v3 presterer veldig dårlig i de verste tilfellene, og har problemer med å følge mål som krysser over hverandre eller kjører parallelt. Siden MT3v3 er et sort-boks system, er det i tillegg vanskelig å tolke hvorfor ytelsen er som den er. MT3v3 trenger derfor mer utviklingsarbeid for å forbedre pålitelighet og tolkbarhet. A target tracker is a key component of autonomous navigation. Target trackers can be defined using Bayesian probabilistic modelling, or end-to-end with neural networks. The MT3v1 and MT3v2 are two generations of Transformer-based neural trackers which aim to provide an alternative to Bayesian trackers, by trading online computation cost for offline training, without sacrificing performance. Certain limitations with these two have motivated the development of the MT3v3. This next generation Transformer tracker is shown to perform better than its predecessor and the Bayesian IMM-JIPDA tracker in certain scenarios, while being more flexible and adaptable to new autonomy pipelines. A pre-trained MT3v3 network is provided, alongside a user-friendly implementation. However, it is also shown that the MT3v3 performs very poorly in the worst-case, and struggles to track targets that cross over one another or run in parallel. Since the MT3v3 is a black-box system, it is also difficult to interpret why this is the case. As such, more development work is needed for the MT3v3 to improve reliability and interpretability.