Vis enkel innførsel

dc.contributor.advisorLi, Jingyue
dc.contributor.authorJacobsen, Jonas Brager
dc.date.accessioned2023-09-26T17:20:40Z
dc.date.available2023-09-26T17:20:40Z
dc.date.issued2023
dc.identifierno.ntnu:inspera:142737689:37014878
dc.identifier.urihttps://hdl.handle.net/11250/3092174
dc.description.abstractBeslutningsbaserte black box-angrep er en økende trussel innen maskinlæring da de tillater angripere å endre prediksjonene til maskinlærings-modeller uten å ha tilgang til modellens indre funksjoner eller parametre. “Spredte” angrep, angrep som har som mål å minimere antallet endrede piksler, avslører kritiske svakheter i maskinlærings-modeller og representerer en betydelig trussel mot systemer i den virkelige verden. En nåværende begrensning for “spredte” angrep er behovet for å sende modellen som blir angrepet tusenvis av forespørsler for å skape overbevisende angrepsbilder, noe som i et ekte scenario kan være kostbart og lett å oppdage. Denne avhandlingen viser potensialet til å redusere antallet spørringer ved å kombinere patch-wise adversarial removal (PAR) -algoritmen med den beste “spredte” angrepsmetoden SparseEvo. Vi presenterer også flere alternativer for defensive teknikker, inkludert en modell trent på angrepsbilder, som har vist seg å øke robustheten i andre black-box angrep. Vi ser også på forsvarene angrepsdeteksjon og medianfiltrering som er rettet mot spesifikke deler av “spredte” angrep. En ResNet-50-modell trent på angrepsbilder, viser seg å være en effektiv forsvarsmetode, videre styrket ved bruk av medianfiltrering. Angrepsdeteksjon viser også lovende resultater, og vi undersøker muligheten for å ytterligere forbedre angrepene med en ny versjon av PAR-algoritmen som blander angrepsbildet sammen med det originale uendrede bildet, som gjør angrepet vanskeligere å oppdage. Resultatene viser at f1-scoren til den trente detektoren faller fra 0.97 til 0.89 med den nye versjonen av PAR-algoritmen. Avhandlingen understreker betydningen av videre forskning på optimalisering, forsvar og den potensielle trusselen av “spredte“ angrep, et viktig steg mot å sikre sikkerheten til distribuerte maskinlærings-modeller.
dc.description.abstractDecision-based black box attacks are a rising concern in the field of adversarial machine learning, as they allow attackers to manipulate the outputs of machine learning models without having access to the model's internal workings or parameters. Sparse attacks, which aim to minimize the number of perturbed pixels, expose critical vulnerabilities in machine learning models, representing a considerable threat to real-world systems. A current limitation of sparse attacks is the need to query the target model in the range of thousands of queries to create imperceptible adversarial examples, which in a real-world scenario can be costly and easy to detect. This thesis demonstrates the potential of the patch-wise adversarial removal (PAR) algorithm, integrated with the state-of-the-art sparse attack SparseEvo, in improving the query efficiency of sparse attacks. We also present multiple options for defensive techniques, including an adversarially trained model that has been shown to increase robustness in other black-box attack settings, and adversarial detection and median filtering that target specifics of sparse attack algorithms. An adversarially trained ResNet-50 model proved an effective countermeasure, further strengthened by using median filtering. Adversarial detection also demonstrated promising potential, and we probe the possibility of further enhancements to the attacks with a new version of the PAR algorithm that blurs the adversarial example together with the original unperturbed input, making it harder to detect. Results show that the f1-score of the trained detector drops from 0.97 to 0.89 with the new version of the PAR algorithm. The study highlights the importance of continued research into the optimization, defenses, and potential severity of sparse attacks, a crucial step toward ensuring the safety of deployed systems.
dc.languageeng
dc.publisherNTNU
dc.titleImproving and Evaluating Sparse Decision-Based Black-Box Attacks and Defenses
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel