Improving and Evaluating Sparse Decision-Based Black-Box Attacks and Defenses

Jacobsen, Jonas Brager

dc.contributor.advisor	Li, Jingyue
dc.contributor.author	Jacobsen, Jonas Brager
dc.date.accessioned	2023-09-26T17:20:40Z
dc.date.available	2023-09-26T17:20:40Z
dc.date.issued	2023
dc.identifier	no.ntnu:inspera:142737689:37014878
dc.identifier.uri	https://hdl.handle.net/11250/3092174
dc.description.abstract	Beslutningsbaserte black box-angrep er en økende trussel innen maskinlæring da de tillater angripere å endre prediksjonene til maskinlærings-modeller uten å ha tilgang til modellens indre funksjoner eller parametre. “Spredte” angrep, angrep som har som mål å minimere antallet endrede piksler, avslører kritiske svakheter i maskinlærings-modeller og representerer en betydelig trussel mot systemer i den virkelige verden. En nåværende begrensning for “spredte” angrep er behovet for å sende modellen som blir angrepet tusenvis av forespørsler for å skape overbevisende angrepsbilder, noe som i et ekte scenario kan være kostbart og lett å oppdage. Denne avhandlingen viser potensialet til å redusere antallet spørringer ved å kombinere patch-wise adversarial removal (PAR) -algoritmen med den beste “spredte” angrepsmetoden SparseEvo. Vi presenterer også flere alternativer for defensive teknikker, inkludert en modell trent på angrepsbilder, som har vist seg å øke robustheten i andre black-box angrep. Vi ser også på forsvarene angrepsdeteksjon og medianfiltrering som er rettet mot spesifikke deler av “spredte” angrep. En ResNet-50-modell trent på angrepsbilder, viser seg å være en effektiv forsvarsmetode, videre styrket ved bruk av medianfiltrering. Angrepsdeteksjon viser også lovende resultater, og vi undersøker muligheten for å ytterligere forbedre angrepene med en ny versjon av PAR-algoritmen som blander angrepsbildet sammen med det originale uendrede bildet, som gjør angrepet vanskeligere å oppdage. Resultatene viser at f1-scoren til den trente detektoren faller fra 0.97 til 0.89 med den nye versjonen av PAR-algoritmen. Avhandlingen understreker betydningen av videre forskning på optimalisering, forsvar og den potensielle trusselen av “spredte“ angrep, et viktig steg mot å sikre sikkerheten til distribuerte maskinlærings-modeller.
dc.description.abstract	Decision-based black box attacks are a rising concern in the field of adversarial machine learning, as they allow attackers to manipulate the outputs of machine learning models without having access to the model's internal workings or parameters. Sparse attacks, which aim to minimize the number of perturbed pixels, expose critical vulnerabilities in machine learning models, representing a considerable threat to real-world systems. A current limitation of sparse attacks is the need to query the target model in the range of thousands of queries to create imperceptible adversarial examples, which in a real-world scenario can be costly and easy to detect. This thesis demonstrates the potential of the patch-wise adversarial removal (PAR) algorithm, integrated with the state-of-the-art sparse attack SparseEvo, in improving the query efficiency of sparse attacks. We also present multiple options for defensive techniques, including an adversarially trained model that has been shown to increase robustness in other black-box attack settings, and adversarial detection and median filtering that target specifics of sparse attack algorithms. An adversarially trained ResNet-50 model proved an effective countermeasure, further strengthened by using median filtering. Adversarial detection also demonstrated promising potential, and we probe the possibility of further enhancements to the attacks with a new version of the PAR algorithm that blurs the adversarial example together with the original unperturbed input, making it harder to detect. Results show that the f1-score of the trained detector drops from 0.97 to 0.89 with the new version of the PAR algorithm. The study highlights the importance of continued research into the optimization, defenses, and potential severity of sparse attacks, a crucial step toward ensuring the safety of deployed systems.
dc.language	eng
dc.publisher	NTNU
dc.title	Improving and Evaluating Sparse Decision-Based Black-Box Attacks and Defenses
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:142737689:3701 ...
Størrelse:: 34.43Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6569]

Vis enkel innførsel