Exploring Fault Tolerance Techniques for SEU Mitigation in COTS FPGAs
Master thesis
Permanent lenke
https://hdl.handle.net/11250/3094250Utgivelsesdato
2023Metadata
Vis full innførselSamlinger
Beskrivelse
Full text not available
Sammendrag
Romindustrien har vokst mye de siste årene, med flere aktører enn noensinne. En av utfordingene som elektronikken må overkomme er stråling. Tradisjonellt så har man brukt spesialisert maskinvare som er strålings-tolerant. Denne typen maskinvare tåler stråling, men den koster. I tillegg til at maskinvaren er dyr, så har slike systemer mindre energi effektivitet og ytelse. For å kutte ned på disse kostnadene, og for å øke systemets ytelse, kan man bruke kommersielle enheter i stedet. Problemene som kommer av stråling er referert som Single Event Effects, og kan være reversible feil i minne eller permanente skader i elektronikken.
Basert på systemet og oppdraget, vil effektene den påføres kunne være eklusivt av den reversible typen. Denne typen feil kan man kontre i den digitale logikken i systemet. For denne avhandlingen vil et system med en data scrubber og watchdog designes og implementeres for en AMD Xilinx Zynq-7000 FPGA kombinert med en strålings tolerant LEON3FT GR716A mikrokontroller fra Gaisler. Systemet er designet for å beskytte funksjonaliteten til et filter, ved data scrubbing av et større koeffisient-minne på FPGAen. Systemet bruker også andre fault-tolerance teknikker og metodikk som Triple Modular Redundancy og Standby-Sparing for å sikre kontinuerlig operasjonell evne i møte med strålings-induserte feil.
For å teste systemet ble det implementert en feil-injeksjons prosess rettet mot den kritiske kontroll-logikken på FPGAen. Testene ble designet for å tvinge systemet inn i gjenoppretting-prosess under de mest sårbare tidene av operasjonen. Testene var i hovedsak usansynlige strålingsintreff for å teste robustheten til systemet. De fleste av de gjennomførte testene produserte ingen feil hos watchdogen, med unntak av et spesialtilfelle som injeserte 9 feil på rad hos SPI slaven under en transmission. Dette første til at watchdog gjennomførte en reset av submodulene på FPGAen, som førte til en 12.5% økning i dødtid mellom den feilet meldingen og den neste. Ressursbruken av submodulene rundt filteret utgjorde opptil 62-82% av det totale forbruket, som indikerer en høy kost ved bruk av beskyttelsesteknikkene.
Derimot så er en reset et foretrukket utfall, i motsetning til at feil går uoppdaget og holder opp systemet. Testene dekket kun de mest kritiske kontroll signalene som opprettholder systemet funksjonalitet på et høyt nivå. Men med tanke tilfeldigheten til SEE, selv om man har designet med signalene på et lavere nivå i tankene, så burde flere test-tilfeller vurderes. Ethvert system som designes for rom-oppdrag må følge spesialiserte standarder og avanserte test prosedyrer. Denne avhandlingen tok istedet og utforsket fault tolerance teknikker og fant ut at de opprettholdt kjerne funksjonaliteten til systemet, selv når den kritiske kontroll-logikken var kompromittert. Space is an ever-growing industry that, in recent years, has seen more actors on the scene than ever. However, one of the challenges that electronics have to overcome in space is radiation. Traditionally space-based systems have utilized specialized hardware designated as radiation tolerant. This type of hardware can withstand the radiation, but it comes at a cost. In addition to being expensive, systems using this kind of hardware have less energy efficiency and performance. To cut down on these costs and to increase the performance of the systems, one can use commercial devices instead. The problems that arise from radiation in electronics are referred to as Single Event Effects and can be reversible upsets in memory or permanent damage to the circuitry.
Depending on the system and its mission, the effects it will have to endure can be exclusively soft errors, and for these types of errors, one can deploy countermeasures in the digital logic. For this thesis, a scrubbing and watchdog system is designed and implemented for an AMD Xilinx Zynq-7000 FPGA combined with a radiation-tolerant LEON3FT GR716A microcontroller from Gaisler. The system is designed to protect the functionality of a filter by protecting and scrubbing a large coefficient memory on the FPGA, with its golden counterpart stored on the GR716A. The system utilizes other fault-tolerant design techniques, such as Triple Modular Redundancy and Standby-Sparing, to ensure continuous operation during radiation-induced upsets. The goal, however, is not full fault tolerance.
To test the system, an error injection scheme was implemented targeting the critical control logic of the FPGA. Tests were devised to force the system into a recovering mode during its most vulnerable times of operation, with unlikely corner cases to test the robustness of the system. The tests mostly passed, excluding a difficult test forcing the SPI module to delay its operation with 9 clock cycles, causing a message mismatch on the GR716A-based watchdog. When it failed, a reset of the FPGA modules was initiated by the watchdog, causing a 12.5% increase in the downtime before the next message. The resource usage of the submodules surrounding the filter made up 62-82% of the total system utilization, indicating a high cost of using fault-tolerant techniques.
However, a reset of the submodules is an acceptable and preferable outcome compared to errors going undiscovered and stalling the system. The test cases covered only the most critical of control logic which ensures that at a high level, the system will continue to operate. But due to the nature and randomness of SEEs, even if the system has been designed around potential upsets internally, more test cases should be considered. Any system designed for space systems needs to follow specialized standards and advanced testing procedures. This thesis instead explored the fault-tolerant techniques and found them to maintain the core functionality when the critical control logic was compromised.