Real-time Depth Estimation System for Autonomous Racing
Abstract
Dette prosjektet hadde til hensikt å bygge et system for visuell persepsjon som skal brukes av Revolves autonome racerbil "ATMOS" i mål om å vinne de internasjonale Formula Student Driverless-konkurransene der bilen vil bli undersøkt på formelle spor i den virkelige verden for å vurdere kompetansen til den fullstendige autonome system men estimering av dybdeinformasjon fra rå sensordata er avgjørende og utfordrende når miljøer er ukjente, spesielt i høye hastigheter.
For at ATMOS skal definere sin egen tilstand, må et robust og pålitelig persepsjonssystem være på plass. Denne avhandlingen introduserer et sanntidsdybdsberegningssystem for et oppdrag å bygge en AI-driver med tanke på nøyaktighet og forsinkelse i løpet av prosjektutviklingsfasene. Dessuten er det blitt testet i forskjellige virkelige scenarier for å undersøke mulighetene til systemet for å oppfatte Formula Student-spor. Hovedideen hentet fra konseptet stereosynsarkitektur som simulerer menneskets øyne for å gjenopprette 3D-strukturer av scenen ved å se til det samme objektet fra to forskjellige synspunkter. I hovedsak behandler systemet to synkroniserte rammer med det formål å oppdage trafikkjegler som definerer sporet så vel som å estimere deres dybde slik at samtidig lokalisering og kartlegging (SLAM) algoritme kan bygge kartet over sporet etter mottak av landemerker (kjegler) . This project intended to build a visual perception system to be employed by Revolve's autonomous race car "ATMOS" in goal to win the international Formula Student Driverless competitions where the car will be examined on real-world Formula tracks to assess the competence of the full autonomous system however estimating depth information from raw sensors data is crucial and challenging when environments are unknown particularly at high speeds.
For ATMOS to define its own state, a robust-reliable perception system has to be in place. This thesis introduces a real-time depth estimation system on a mission to build an AI driver considering in account accuracy and latency in course of this project development phases. Besides, it has been tested in various real-world scenarios to examine the capabilities of the system in perceiving Formula Student tracks. The main idea derived from the concept of stereo vision architecture simulating the human eyes to recover 3D structures of the scene by looking to the same object(s) from two different viewpoints. In essence, the system is processing two synchronized frames in the purpose of detecting traffic cones which define the track as well as estimating their depth so that simultaneous localization and mapping (SLAM) algorithm can build the map of the track upon receiving the landmarks (cones).